PDFs en resultados de búsqueda de Google

Nivel de webmasters: Todos

La misión de Google es organizar la información del mundo y hacerla universalmente accesible y útil. Durante esta ambiciosa aventura, nos encontramos con archivos distintos a HTML , como archivos PDFs, hojas de cálculo y presentaciones. El algoritmo no deja a los diferentes tipos de archivo hacer el trabajo más lento, se trabaja con esfuerzo para extraer el contenido relevante e indexarlo apropiadamente para los resultados de búsqueda. Pero, ¿Cómo Google indexa actualmente esos tipos de archivo y (desde que normalmente difieren mucho del HTML estandar) qué lineas de actuación aplica para estos archivos? ¿Y si un webmaster no quiere que sean indexados?

Google comenzó a indexar archivos PDF en 2001y actualmente tiene cientos de millones de archivos PDF indexados. Hemos recopilado algunas de las preguntas más frecuentes sobre indexación de PDFs; Aquí están las respuestas:

P: ¿Puede Google indexar cualquier tipo de PDF?
R: Generalmente Google puede indexar contenido de texto (escrito en cualquier idioma) de un archivo PDF que use varios tipos de caracteres de codificación. Si el texto está incrustado como imagen, puede ser procesado usando algoritmos OCR (Reconocimiento Óptico de Caracteres) y extraer el texto. La regla general es que si puedes copiar y pegar el texto desde un documento PDF a un documento estandar de texto, se debe poder indexar ese texto.

P: ¿Qué ocurre con las imagenes en los archivos PDF?
R: Actualmente las imagenes no son indexadas. Para que puedan ser indexadas deberás crear una página HTML con ellas. Para aumentar la posibilidad de mostrar tus imágenes en los resultados de búsqueda, por favor lee los consejos en el Centro de Ayuda

P: ¿Cómo son tratados los enlaces en los documentos PDF?
R: Generalmente los enlaces en archivos PDS son tratados de manera similar a los enlaces en HTML: pueden pasar PageRank y otras señales de indexación. Los enlaces pueden ser seguidos después de rastrear el archivo. No erá posible en caso de ser enlaces "nofollow".

P: ¿Cómo puedo evitar que mis PDF aparezcan en los resultados de búsqueca, o en caso de ya aparecer, cómo puedo eliminarlos?
R: La manera más facil de evitar que los documentos PDF aparezca en los resultados de búsqueda es añadir en la cabecera HTTP al servir el documento un "X-Robots-Tag: noindex". Si ya ha sido actualmente indexado, será removido del índice con el paso del tiempo si utilizas X-Robots-Tag con la directiva noindex. Para removerlo más rápido puedes usar la herramienta de eliminación de URL en Google Webmasteres Tools.

P: ¿Puede un PDF posicionar más arriba en los resultados de búsqueda?
R: Sí! Generalmente ellos posicionarán de manera similar que otros documentos. Por ejemplo, en el mometno de escribir este post, las siguientes búsquedas retornan documentos PDF que posiciona mejor en los resultados de búsqueda, gracias a su contenido y a la manera en la que están incrustados y enlazados en otras páginas web.

P: ¿Es considerado contenido duplicado si tengo una copia de mis páginas tanto en PDF como HTML?
R: Es posible, se recomienda servir una sola copia del contenido. Si esto no es posible, asgurate de indicar tu versión preferida, por ejemplo, incluyendo la URL que prefieras en tu Sitemap o especificando la versión canónica en el HTML o en las cabecreas HTTP del recurso PDF. Para más consejos visita el Centro de Ayuda sobre canonicalización.

P: ¿Como puedo influenciar el título mostrado en los resultados de búsqueda de mis documentos PDF?
R: Son usados dos elementos principales para determinar el título mostrado: El título indicados en los metadatos del archivo y el texto que se utiliza para enlazar los archivos PDF. Para dar al algoritmo una fuerte indicación sobre el título adecuado, se recomienda actualizar ambos.

Fuente: Traducción libre de http://googlewebmastercentral.blogspot.com/2011/09/pdfs-in-google-search-results.html