Evitar contenidos duplicados con robots.txt

1 Julio 2008 – 7:49

Algo muy importante para tener en cuanta a la hora de posicionar un proyecto web de cara a los buscadores, es evitar a toda costa los contenidos duplicados, contrario a lo que muchos piensan es muy diferente estar bien posicionado a tener muchos contenidos indexados
Google está al tanto de los contenidos duplicados para que estos después sean penalizados, así que es muy importante especificarle a los robots de los buscadores cual contenido debe indexar y cual no.

En este artículo trabajaremos en el archivos robots.txt de un Blog que usa Wordpress, aunque muchos de los ejemplos también pueden ser usados en otras plataformas.

Pero… ¿Cómo se duplica mi contenido?

Una forma con la que se podría duplicar tu contenido es usando tags. Google indexa los contenidos de las páginas y también indexará el contenido de las tags, por lo cual se podría infiltrar información duplicada. También por medio de los feeds, etc…

Como ya había dicho antes la solución es especificarle a los robots que contenido debe de indexar y cual no. Si alguna vez haz revisado los logs de tu sitio web, verás algo parecido a esto:

/robots.txt
Http Code: 200 Date Apr 07 13:55:28 Http Version: HTTP/1.0

Es muy común encontrarte con esto ya que lo primero que hacen los buscadores es mirar el contenido de este archivo, interpretarlo y partiendo de esto, empezar a navegar por las urls desde las que se tiene “permiso”. Para más información sobre los robots.txt puedes buscar por aquí.

La sintaxis que maneja este archivo es sencilla:

  • User-Agent: Sirve para especificar a que buscador se harán las restricciones.
  • Disallow: Sirve para especificar los “archivos” que no deben ser indexados.

Ahora vamos a ver un ejemplo de el archivo robots.txt que deberíamos de usar en nuestro Blog:

User Agent: *
Disallow: /wp-
Disallow: /search
Disallow: /?s=
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
Disallow: /2007/0*
Disallow: /2007/1*
Disallow: /page/
Disallow: /tags/
Disallow: /atom
Disallow: /rdf
Disallow: /rss
Disallow: /?

Con este archivo evitaríamos que se indexarán los feeds, atom, el archivo del blog, tracbacks, etc.

Hay muchas herramientas que nos permiten verificar la sintaxis de nuestro archivo robots.txt como por ejemplo las Herramientas para Webmaster de Google, Un Analizador de Sintaxis del robots.txt, etc.

Hay muchos factores importantes en el SEO, así que no pienses que después de que tengas un archivo robots.txt ya estarás posicionado correctamente, pero este archivo también puede influir mucho en tus posiciones en los buscadores.

Post a Comment