Mejores prácticas de Robots.txt

Aunque los especialistas en SEO ponen la mayor parte de su esfuerzo en mejorar la visibilidad de las páginas para sus correspondientes palabras clave (o Keywords), en algunos casos es necesario ocultar ciertas páginas de los motores de búsqueda.

Conozcamos un poco más sobre este tema.


¿Qué es un archivo robots.txt?

Robots.txt es un archivo que contiene las áreas de un sitio web donde los robots de los motores de búsqueda tienen prohibido rastrear. Enumera las URLs que el webmaster no quiere que Google o cualquier motor de búsqueda indexe, impidiendo que visiten y rastreen las páginas seleccionadas. Esta acción la realizamos a través de la etiqueta robots.txt disallow que verás en los ejemplos más abajo.

Cuando un bot encuentra un sitio web en Internet, lo primero que hace es comprobar el archivo robots.txt para saber qué puede explorar y qué tiene que ignorar durante el rastreo.

Ejemplo de Robots.txt

Por poner un ejemplo de robots.txt, esta es su sintaxis:

User-agent: *

# All bots - Old URLs

Allow: /

Disallow: /admin/*

 


Qué es robots.txt en SEO

Estas etiquetas son necesarias para guiar a los robots de Google en la búsqueda de una nueva página. Son necesarios porque:

  • Ayudan a optimizar el presupuesto de rastreo, ya que la araña sólo visitará lo que es realmente relevante y aprovechará mejor su tiempo rastreando una página. Un ejemplo de una página que no querrías que Google encontrara es una "página de agradecimiento".
  • El archivo Robots.txt es una buena forma de forzar la indexación de las páginas, señalándolas.
  • Los archivos Robots.txt controlan el acceso de los rastreadores a ciertas áreas de tu sitio.
  • Pueden mantener seguras secciones enteras de un sitio web, ya que se pueden crear archivos robots.txt separados por dominio raíz. Un buen ejemplo es, por supuesto, la página de detalles de pago.
  • También puedes bloquear las páginas de resultados de búsqueda interna para que no aparezcan en las SERP.
  • Robots.txt puede ocultar archivos que no deben ser indexados, como PDFs o ciertas imágenes.

Dónde encontrar robots.txt

Los archivos Robots.txt son públicos. Simplemente escribe un dominio y añade /robots.txt al final de la URL y verás el archivo... si es que lo hay!

Advertencia: Evita incluir información privada en este archivo.

Puedes encontrar y editar el archivo en el directorio raíz de tu hosting, comprobando los archivos admin o el FTP del sitio web.

 

Cómo editar robots.txt

Puedes hacerlo tú mismo

  • Crea o edita el archivo con un editor de texto plano
  •  Nombra el archivo "robots.txt", sin ninguna variación como el uso de mayúsculas.

Este es un ejemplo en el que se desea que el sitio sea rastreado. Presta atención a cómo usamos la etiqueta disallow de robots.txt.


User-agent: *
Disallow:

Observa que hemos dejado "Disallow" vacío, lo que indica que no hay nada que no pueda ser rastreado.

En caso de que desees bloquear una página, añádela (utilizando el ejemplo de la "Página de agradecimiento"):


User-agent: *
Disallow: /thank-you/

  • Utiliza un archivo robots.txt distinto para cada subdominio.
  • Coloca el archivo en el directorio de nivel superior del sitio web.
  • Puedes probar los archivos robots.txt con las Herramientas para webmasters de Google antes de subirlos a tu directorio raíz.
  • Ten en cuenta que FandangoSEO te servirá para comprobar tu Robots.txt. ¡Utilízalo para monitorizar las páginas de tu web!

Como ves, no es tan difícil configurar tu archivo robots.txt y editarlo en cualquier momento. Sólo ten en cuenta que lo único que quiere con esta acción es aprovechar al máximo las visitas de los bots. Al bloquearlos para que no vean páginas irrelevantes, te asegurarás de que el tiempo que pasen en el sitio web sea mucho más provechoso.

Por último, recuerda que la mejor práctica de SEO para robots.txt es asegurarte de que todo el contenido relevante sea indexable y esté listo para ser rastreado! Se puede ver el porcentaje de páginas indexables y no indexables entre el total de páginas de un sitio usando el crawl de FandangoSEO, así como las páginas bloqueadas por el archivo robots.txt.


Casos de uso de Robots.txt

El archivo robots.txt controla el acceso del rastreador a algunas áreas del sitio web. Esto a veces puede ser arriesgado, especialmente si accidentalmente no se permite al GoogleBot rastrear todo el sitio, pero hay situaciones en las que un archivo robots.txt puede ser útil.

robots.txt

Algunos de los casos en los que es aconsejable utilizar robots.txt son los siguientes

  • Cuando se quiere mantener la privacidad de algunas secciones de un sitio web, por ejemplo, porque se trata de una página de prueba.
  • Para evitar que el contenido duplicado aparezca en la página de resultados de Google, los meta-bots son una opción aún mejor.
  • Cuando no se desea que las páginas de resultados de la búsqueda interna aparezcan en una página de resultados pública.
  • Para especificar la ubicación de los mapas del sitio.
  • Para evitar que los motores de búsqueda indexen determinados archivos del sitio web.
  • Indicar un retraso en el rastreo para evitar la sobrecarga del servidor cuando los rastreadores cargan varias piezas de contenido a la vez.

Si no hay áreas en el sitio en las que quiera controlar el acceso del agente de usuario, puede que no necesite un archivo robots-txt.


Robots.txt mejores prácticas para el SEO

Sigue estos consejos para gestionar correctamente los archivos robots.txt:

No bloquees el contenido que quieres que se rastree

Tampoco debe bloquear las secciones del sitio web que deben ser rastreadas.

Ten en cuenta que los bots no seguirán los enlaces de las páginas bloqueadas por robots.txt

A menos que también estén enlazados desde otras páginas a las que los motores de búsqueda pueden acceder porque no han sido bloqueados, los recursos enlazados no serán rastreados y pueden no ser indexados.

Además, no se puede pasar ningún valor de enlace desde la página bloqueada al destino del enlace. Si tiene páginas a las que quiere dar autoridad, debe utilizar un mecanismo de bloqueo distinto de robots.txt.

No utilices el robots.txt para evitar mostrar datos confidenciales en la página de resultados del buscador

Otras páginas pueden enlazar directamente con la página que contiene la información confidencial (evitando así las directrices de robots.txt en su dominio raíz o página de inicio), por lo que puede seguir siendo indexada.

Para evitar que la página aparezca en los resultados de búsqueda de Google, debe utilizar un método diferente, como la protección con contraseña o la etiqueta meta noindex.

Recuerda que algunos motores de búsqueda tienen varios agentes de usuario

Google, por ejemplo, utiliza GoogleBot para la búsqueda orgánica y GoogleBot-Image para la búsqueda de imágenes.

La mayoría de los agentes de usuario del mismo motor de búsqueda siguen las mismas reglas, por lo que no es necesario especificar las directrices para cada rastreador del motor de búsqueda, pero hacerlo le permite controlar cómo se rastreará el contenido del sitio.

El motor de búsqueda almacena en caché el contenido del robots.txt, pero suele actualizar los datos almacenados en caché diariamente

Si cambias el archivo y quieres actualizarlo más rápido, puedes enviar la URL de robots.txt a Google.


bot

Limitaciones del archivo Robots.txt

Por último, vamos a ver qué aspectos limitan la función del archivo robots.txt:

Las páginas seguirán apareciendo en los resultados de búsqueda

Las páginas que son inaccesibles para los motores de búsqueda debido al archivo robots.txt pero que tienen enlaces a ellas pueden seguir apareciendo en los resultados de búsqueda desde una página rastreable.

Sólo contiene directivas

Google respeta mucho el archivo robots.txt, pero sigue siendo una directiva y no un mandato.

Tamaño del archivo

Google admite un límite de 521 kilobytes para los archivos robots.txt, y si el contenido supera este tamaño máximo, puede ignorarlo. No sabemos si otros motores de búsqueda también establecen un límite para estos archivos.

El robot txt. se almacena en caché 24 horas

Según Google, el archivo robots.txt suele almacenarse en la caché durante un máximo de 24 horas. Algo que hay que tener en cuenta al realizar cambios en el archivo.

No está del todo claro cómo manejan los demás motores de búsqueda el archivo en caché, pero es mejor evitar el almacenamiento en caché de su robots.txt para que los motores de búsqueda no tarden más en detectar los cambios.



Errores del servidor 5xx Etiqueta Meta Robots

¿Has añadido ya un archivo robots.txt?

Comprueba tus Robots con FandangoSEO

Pruébalo gratis durante 14 días

Acceso completo a todas las funciones. Sin ningún tipo de obligación.

Empieza

Arrow-up

Antes de que te vayas...

Si no quieres perderte ningún consejo o actualización de FandangoSEO, suscríbete a nuestra newsletter.

+5000 SEO confía en nosotros, únete a la comunidad