Aunque los especialistas en SEO dedican la mayor parte de sus esfuerzos a mejorar la visibilidad de las páginas para sus keywords correspondientes, en algunos casos es necesario ocultar ciertas páginas de los motores de búsqueda.
Vamos a averiguar un poco más sobre este tema.
Tabla de contenido
¿Qué es un archivo robots.txt?
Robots.txt es un archivo que contiene las áreas de un sitio web donde los robots de los motores de búsqueda tienen prohibido el rastreo. Enumera las URLs que el webmaster no quiere que Google o cualquier motor de búsqueda indexe, impidiendo que visiten y rastreen las páginas seleccionadas. Logramos esto a través de la etiqueta robots.txt disallow que verás en los ejemplos más adelante.
Cuando un bot encuentra un sitio web en Internet, lo primero que hace es comprobar el archivo robots.txt para saber qué puede explorar y qué tiene que ignorar durante el rastreo.
Ejemplo de Robots.txt
Para darte un ejemplo de robots.txt, esta es su sintaxis:
User-agent: *
# All bots - Old URLs
Allow: /
Disallow: /admin/*
¿Qué es robots.txt en SEO?
Estos tags son necesarios para guiar a los bots de Google cuando encuentran una página nueva. Son necesarios porque:
- Ayudan a optimizar el crawl budget, ya que el spider solo visitará lo que es realmente relevante y hará un mejor uso de su tiempo rastreando una página. Un ejemplo de una página que no querrías que Google encontrara es una “página de agradecimiento”.
- El archivo Robots.txt es una buena forma de forzar la indexación de páginas, señalando las páginas.
- Los archivos Robots.txt controlan el acceso del crawler a ciertas áreas de tu sitio.
- Pueden mantener seguras secciones enteras de un sitio web, ya que puedes crear archivos robots.txt separados por dominio raíz. Un buen ejemplo es –adivinaste- la página de detalles de pago, por supuesto.
- También puedes evitar que las páginas de resultados de búsqueda interna aparezcan en las SERPs.
- Robots.txt puede ocultar archivos que no deberían indexarse, como PDFs o ciertas imágenes.
¿Dónde encuentras el archivo robots.txt?
Los archivos Robots.txt son públicos. Simplemente puedes escribir un dominio raíz y añadir /robots.txt al final de la URL y verás el archivo… ¡si es que existe!
Advertencia: Evita incluir información privada en este archivo.
Puedes encontrar y editar el archivo en el directorio raíz de tu hosting, revisando los archivos admin o el FTP del sitio web.
Cómo editar el archivo robots.txt
Puedes hacerlo tú mismo
- Crea o edita el archivo con un editor de texto plano
- Nombra el archivo “robots.txt”, sin ninguna variación como usar letras mayúsculas.
Aquí tienes un ejemplo de cuando quieres que se rastree el sitio. Presta atención a cómo usamos el tag robots.txt disallow.
User-agent: *
Disallow:
Observa que dejamos “Disallow” vacío, lo que indica que no hay nada que no se permita rastrear.
En caso de que quieras bloquear una página, añade esto (usando el ejemplo de la “Página de agradecimiento”):
User-agent: *
Disallow: /thank-you/
- Usa un archivo robots.txt separado para cada subdominio.
- Coloca el archivo en el directorio de nivel superior del sitio web.
- Puedes probar los archivos robots.txt usando Google Webmaster Tools antes de subirlos a tu directorio raíz.
- ¡Ten en cuenta que FandangoSEO es el robots.txt checker definitivo! ¡Úsalo para monitorizarlos!
Ves que no es tan difícil configurar tu archivo robots.txt y editarlo en cualquier momento. Solo ten en cuenta que lo que quieres conseguir con esta acción es aprovechar al máximo las visitas de los bots. Al evitar que vean páginas irrelevantes, te asegurarás de que el tiempo que pasen en el sitio web sea mucho más rentable.
Finalmente, recuerda que la mejor práctica SEO para robots.txt es asegurar que todo el contenido relevante sea indexable y esté listo para ser rastreado. Puedes ver el porcentaje de páginas indexables y no indexables entre el total de páginas de un sitio usando el rastreo de FandangoSEO, así como las páginas bloqueadas por el archivo robots.txt.
Casos de uso de Robots.txt
El robots.txt controla el acceso del crawler a algunas áreas del sitio web. Esto a veces puede ser arriesgado, especialmente si accidentalmente no se le permite al GoogleBot rastrear todo el sitio, pero hay situaciones en las que un archivo robots.txt puede ser útil.
Algunos de los casos en los que es aconsejable usar robots.txt son los siguientes
- Cuando quieres mantener la privacidad de algunas secciones de un sitio web, por ejemplo, porque es una página de prueba.
- Para evitar que aparezca contenido duplicado en la página de resultados de Google, los meta-bots son una opción aún más interesante.
- Cuando no quieres que las páginas de resultados de búsqueda interna aparezcan en una página de resultados pública.
- Para especificar la ubicación de los sitemaps.
- Para evitar que los motores de búsqueda indexen ciertos archivos en el sitio web.
- Para indicar un retardo de rastreo y evitar la sobrecarga del servidor cuando los crawlers cargan varios contenidos a la vez.
Si no hay áreas en el sitio donde quieras controlar el acceso del user-agent, es posible que no necesites un archivo robots.txt.
Mejores prácticas SEO para Robots.txt
Sigue estos consejos para gestionar correctamente los archivos robots.txt:
No bloquees contenido que quieras que se rastree
Tampoco deberías bloquear secciones del sitio web que deberían ser rastreadas.
Ten en cuenta que los bots no seguirán los enlaces de las páginas bloqueadas por robots.txt
A menos que también estén enlazados desde otras páginas a las que los motores de búsqueda puedan acceder porque no han sido bloqueadas, los recursos enlazados no se rastrearán y podrían no indexarse.
Además, ningún valor de enlace puede pasar de la página bloqueada al destino del enlace. Si tienes páginas a las que quieres dar autoridad, debes utilizar un mecanismo de bloqueo distinto al robots.txt.
No uses robots.txt para evitar mostrar datos confidenciales en la página de resultados del motor de búsqueda
Otras páginas pueden enlazar directamente a la página que contiene información confidencial (evitando así las directrices de robots.txt en tu dominio raíz o página de inicio), por lo que aún puede indexarse.
Deberías utilizar un método diferente, como la protección con contraseña o la metaetiqueta noindex, para evitar que la página aparezca en los resultados de búsqueda de Google.
Recuerda que algunos motores de búsqueda tienen múltiples user agents
Google, por ejemplo, utiliza GoogleBot para la búsqueda orgánica y GoogleBot-Image para la búsqueda de imágenes.
La mayoría de los user agents del mismo motor de búsqueda siguen las mismas reglas, por lo que no tienes que especificar directrices para cada crawler de motor de búsqueda, pero hacerlo te permite controlar cómo se rastreará el contenido del sitio.
El motor de búsqueda guarda en caché el contenido del archivo robots.txt, pero normalmente actualiza los datos almacenados en caché diariamente
Si cambias el archivo y quieres actualizarlo más rápido, puedes enviar la URL del robots.txt a Google.
Limitaciones del archivo Robots.txt
Por último, vamos a ver qué aspectos limitan la función del archivo robots.txt:
Las páginas seguirán apareciendo en los resultados de búsqueda
Aquellas páginas que son inaccesibles para los motores de búsqueda debido al archivo robots.txt pero que tienen enlaces a ellas pueden seguir apareciendo en los resultados de búsqueda desde una página rastreable.
Solo contiene directivas
Google respeta mucho el archivo robots.txt, pero sigue siendo una directiva y no una obligación.
Tamaño del archivo
Google admite un límite de 521 kilobytes para los archivos robots.txt, y si el contenido supera este tamaño máximo, puede ignorarlo. No sabemos si otros motores de búsqueda también establecen un límite para estos archivos.
El archivo Robot txt. se guarda en caché durante 24 horas
Según Google, el archivo robots.txt suele guardarse en caché hasta 24 horas. Algo a tener en cuenta al realizar cambios en el archivo.
No está del todo claro cómo gestionan otros motores de búsqueda el archivo almacenado en caché, pero es mejor evitar el almacenamiento en caché de tu robots.txt para que los motores de búsqueda no tarden más en detectar los cambios.
Errores de servidor 5xx Meta Robots Tag