Mejores prácticas de Robots.txt

Aunque los especialistas en SEO ponen la mayor parte de su esfuerzo en mejorar la visibilidad de las páginas para sus palabras clave correspondientes, en algunos casos es necesario ocultar ciertas páginas de los motores de búsqueda. Averigüemos un poco más sobre este tema.

¿Qué es un archivo robots.txt?

Robots.txt es un archivo que contiene las áreas de un sitio web que los robots de los motores de búsqueda tienen prohibido rastrear. Enumera las URL que el webmaster no desea que indexe Google ni ningún motor de búsqueda y les impide visitar y realizar un seguimiento de las páginas seleccionadas.
Cuando un bot encuentra un sitio web en Internet, lo primero que hace es revisar el archivo robots.txt para saber qué puede explorar y qué debe ignorar durante el rastreo.

Para darle un ejemplo de robots.txt, esta es su sintaxis:

User-agent: *

# Todos los bots - URLs antiguas

Permitir: /

Rechazar: /admin/*

 

Qué es robots.txt en SEO

Estas etiquetas son necesarias para guiar a los robots de Google en la búsqueda de una nueva página. Son necesarios porque:

- Ayudan a optimizar el presupuesto de rastreo, ya que la araña sólo visitará lo que es realmente relevante y aprovechará mejor su tiempo rastreando una página. Un ejemplo de una página que no te gustaría que Google encontrara es una página de agradecimiento.

- El archivo Robots.txt es una buena manera de forzar la indexación de páginas, señalando las páginas.

- Los archivos Robots.txt controlan el acceso de los rastreadores a ciertas áreas de su sitio.

- Pueden mantener seguras secciones enteras de un sitio web, ya que se pueden crear archivos robots.txt separados para cada dominio raíz. Un buen ejemplo es -usted lo adivinó- la página de detalles de pago, por supuesto.

- También puede bloquear las páginas de resultados de búsqueda interna para que no aparezcan en los SERPs.

- Robots.txt puede ocultar archivos que se supone que no deben estar indexados, como PDFs o ciertas imágenes.

 

Dónde encontrar robots.txt

Los archivos Robots.txt son públicos. Simplemente escriba un dominio raíz y añada /robots.txt al final de la URL y verá el archivo....si lo hay!

Advertencia: evite incluir información privada en este archivo.

Puede encontrar y editar el archivo en el directorio raíz de su hosting, comprobando los archivos admin o el FTP del sitio web.

 

Cómo editar robots.txt

Puedes hacerlo tú mismo

- Crear o editar el archivo con un editor de texto plano

- Nombre el archivo "robots.txt", sin ninguna variación, como si se tratara de letras mayúsculas.

Debería tener este aspecto si desea que el sitio se rastree:

User-agent: *
Rechazar:

- Note que dejamos "Disallow" vacío, lo que indica que no hay nada que no se pueda rastrear.

En caso de que desee bloquear una página, añádala (utilizando el ejemplo de la página "Página de agradecimiento"):

User-agent: *
Rechazar: /gracias/

- Utilice un archivo robots.txt separado para cada subdominio.

- Coloque el archivo en el directorio de nivel superior del sitio web.

- Puede probar los archivos robots.txt utilizando las Herramientas para webmasters de Google antes de cargarlos en su directorio raíz.

- Tenga en cuenta que FandangoSEO es el último robots.txt checker. Úsalo para monitorearlos!

Vea que no es tan difícil configurar su archivo robots.txt y editarlo en cualquier momento. Sólo ten en cuenta que todo lo que realmente quieres de esta acción es aprovechar al máximo las visitas de los robots. Al impedir que vean páginas irrelevantes, se asegurará de que el tiempo que pasan en el sitio web sea mucho más rentable.

Por último, recuerde que la mejor práctica de SEO para robots.txt es asegurarse de que todo el contenido relevante sea indexable y esté listo para ser rastreado! Se puede ver el porcentaje de páginas indexables y no indexables entre el total de páginas de un sitio usando el crawl de FandangoSEO, así como las páginas bloqueadas por el archivo robots.txt.

 

¿Ya has añadido un archivo robots.txt?

Compruebe los robots ahora

Arrow-up