Cómo encontrar y solucionar los problemas de cobertura de los índices

Cómo encontrar y corregir errores de cobertura de indexación

Hannah Dango

¿Tienes problemas de indexación de Google? Este problema puede hacer que bajen las tasas de tráfico y de conversión.

Es necesario revisar las páginas indexadas y no indexadas de tu sitio para resolver cualquier problema rápidamente. Aquí explicamos paso a paso cómo hacerlo con Google Search Console - Index Coverage Report (informe de cobertura de indexación).

Con el siguiente método, hemos logrado arreglar los problemas de cobertura de índices en cientos de sitios web con millones o miles de millones de páginas excluidas. Utilízalos para que ninguna de tus páginas relevantes pierda visibilidad en los resultados de búsqueda y aumenta tu tráfico SEO!

Paso 1: Revisa el Index Coverage Report

El Informe de cobertura del Search Console te indica qué páginas han sido rastreadas e indexadas por Google y por qué las URL se encuentran en ese estado concreto. Puedes utilizarlo para detectar cualquier error encontrado durante el proceso de rastreo e indexación.

Informe de cobertura

Para revisar el Index Coverage Report, ves a la consola de búsqueda de Google y haz clic en Coverage o Cobertura (justo debajo de Índice). Una vez que lo abras, verás un resumen con cuatro estados diferentes que categorizan tus URL:

  • Error: Estas páginas no pueden ser indexadas y no aparecerán en los resultados de la búsqueda debido a algunos errores.
  • Advertencias: Estas páginas pueden aparecer o no en los resultados de búsqueda de Google.
  • Válidas: Estas páginas han sido indexadas y pueden ser mostradas en los resultados de la búsqueda. No es necesario que hagas nada.
  • Excluidas: Estas páginas no fueron indexadas y no aparecerán en los resultados de la búsqueda. Google cree que no desea indexarlas o considera que no vale la pena indexar el contenido.

Necesitas revisar todas las páginas que se encuentran en Error y corrígelas lo antes posible porque podrías estar perdiendo la oportunidad de dirigir el tráfico a tu sitio.

Si tienes tiempo, mira las páginas incluidas en el estado Advertencias ya que puede haber algunas páginas vitales que bajo ninguna circunstancia deben dejar de aparecer en los resultados de la búsqueda.

Finalmente, asegúrate de que las páginas excluidas son aquellas que no quieres que sean indexadas.

Paso 2: Cómo resolver los problemas encontrados en cada estado del informe de cobertura de indexación

Una vez que abras el Informe de cobertura de indexación, selecciona el estado deseado (Error, Advertencia, o Excluidas) y mira los detalles proporcionados al final de la página. Encontrarás una lista de tipos de error por su gravedady el número de páginas afectadas, así que recomendamos empezar a investigar los problemas desde la parte superior de la tabla.

Veamos cada uno de los errores en diferentes estados y cómo puedes arreglarlos. 

Estado de error

Páginas de error en el informe de cobertura de la SGC

 

Error del servidor (5xx):

Estas son las URL que devuelven un código de estado 5xx a Google.

Acciones a tomar:

  • Comprueba qué tipo de código de estado 500 está devolviendo. Aquí tienes una lista completa con la definición de cada código de estado de error del servidor.
  • Recarga la URL para ver si el error persiste. Algunos errores 5xx son temporales y no requieren ninguna acción.
  • Verifica que tu servidor no esté sobrecargado o mal configurado. En ese caso, pide ayuda a tus desarrolladores o ponte en contacto con tu hosting.
  • Realiza un análisis de logs para comprobar los errores de registros de tu servidor. Esta práctica te proporciona información adicional sobre el problema.
  • Revisa los cambios que has hecho recientemente en tu sitio web para ver si alguno de ellos puede ser la causa principal. ex) plugins, nuevo código de backend, etc.

Error de redirección:

GoogleBot ha encontrado un error durante el proceso de redirección que no permite rastrear la página. Cualquiera de las siguientes razones suele causar este problema.

  • Una cadena de redirecciones demasiado larga
  • Un bucle de redirecciones
  • Una URL de redirección que excedió la longitud máxima de la URL
  • URL incorrecta o vacía en la cadena de redirección

Acciones a tomar:

  • Elimina las cadenas y los bucles de redirección. Haz que cada URL realice una sola redirección. En otras palabras, una redirección desde la primera URL a la última.

El archivo robots.txt ha bloqueado la URL enviada:

Se trata de URLs enviadas a Google subiendo un sitemap XML a Google Search Console, pero que han sido bloqueadas por el archivo Robots.txt.

Acciones a tomar:

Comprueba si quieres que los buscadores indexen la página en cuestión o no.

  • Si no quieres que se indexe, sube un sitemap XML eliminando la URL.
  • Al contrario, si quieres que sea indexada, cambia las directrices en el Robots.txt. Aquí tienes una guía sobre cómo editar el robots.txt.

La URL enviada contiene la etiqueta "noindex":

Estas páginas han sido enviadas a Google a través de un sitemap XML, pero tienen una directiva "noindex" en la etiqueta de los meta robots o en los encabezados HTTP.

Acciones a tomar:

  • Si quieres que la URL sea indexada, debes eliminar la directiva noindex
  • Si hay alguna URL que no quieres que Google indexe, elimínalas del XML Sitemap

La URL enviada devuelve un soft 404:

La URL que has enviado a través de un XML Sitemap para propósitos de indexación está devolviendo un soft 404. Este error ocurre cuando el servidor devuelve un código de estado 200 a una solicitud, pero Google cree que debería mostrar un 404. En otras palabras, la página parece un error 404 para Google. En algunos casos, puede deberse a que la página no tiene contenido, parece errónea o de baja calidad para Google. 

Acciones a tomar:

  • Investiga si estas URLs deberían devolver un código de estado 404 (real). En ese caso, elimínalas del sitemap XML.
  • Si encuentras que no deben devolver un error, asegúrate de proporcionar el contenido apropiado en estas páginas. Evita tener contenido escaso o duplicado. Verifica que si hay redirecciones, sean correctas.

La URL enviada devuelve una solicitud no autorizada (401):

La URL enviada a Google a través de un XML Sitemap devuelve un error 401. Este código de estado le indica que no está autorizado a acceder a la URL. Es posible que necesite un nombre de usuario y una contraseña o que existan restricciones de acceso basadas en la dirección IP.

Acciones a tomar:

  • Comprueba si las URLs deben devolver un 401. En ese caso, elimínalas del sitemap XML.
  • Si no quieres que muestren un código 401, elimina la autenticación HTTP si la hay. 

No se ha podido encontrar la URL enviada (404):

Has enviado la URL con fines de indexación a Search Console, pero Google no puede rastrearla debido a un problema distinto de los mencionados anteriormente. 

Acciones a tomar:

  • Mira si quieres que la página sea indexada o no. Si la respuesta es sí, arréglalo para que devuelva un código de estado 200. También puedes asignar una redirección 301 a la URL, para que muestre una página apropiada. Recuerda que si optas por una redirección, debes agregar la URL asignada al sitemap XML y eliminar la que da un 404.   
  • Si no quieres que la página sea indexada, elimínala del sitemap XML.

La URL enviada tiene un problema de rastreo: 

Has enviado la URL con fines de indexación a GSC pero no puede ser rastreada por Google debido a un problema diferente a los mencionados anteriormente. 

Acciones a tomar:

  • Utiliza la herramienta de inspección de URL para obtener más información sobre lo que está causando el problema.
  • A veces estos errores son temporales, por lo que no requieren ninguna acción.

Estado de advertencia

Válido con las advertencias

Estas páginas están indexadas, aunque están bloqueadas por robots.txt. Google siempre trata de seguir las directivas dadas en el archivo robots.txt. Sin embargo, a veces se comporta de manera diferente. Esto puede suceder, por ejemplo, cuando alguien enlaza a la URL dada.

Encuentras las URL en esta categoría porque Google duda de que quieras bloquear estas páginas en los resultados de búsqueda. 

Acciones a tomar: 

  • Google no recomienda el uso del archivo robots.txt para evitar la indexación de la página. En su lugar, si no deseas ver estas páginas indexadas, utiliza el meta robots noindex o un encabezado de respuesta HTTP.
  • Otra buena práctica para evitar que Google acceda a la página es implementar una autenticación HTTP.
  • Si no quieres bloquear la página, haz las correcciones necesarias en el archivo robots.txt.
  • Puedes identificar qué regla está bloqueando una página usando el probador de robots.txt.

Natzir Turrado,
FandangoSEO Asesor
Técnico SEO Freelance @ Natzir Turrado

En una gran migración a SalesForce, pedimos a los desarrolladores que hicieran inaccesibles (ofuscados) los filtros que no queríamos indexar. Cuando el sitio web de Salesforce se puso en marcha, todo fue un éxito. Pero cuando una nueva versión fue lanzada meses después, la ofuscación se rompió accidentalmente. Esto disparó todas las alarmas ya que, en sólo siete días, hubo ~17,5 millones de solicitudes de Googlebot-Mobile y ~12,5 millones de Googlebot/2.1, así como un 2% de caché de tasa de hits. A continuación puedes ver en el search console cómo se indexaron las páginas pero aumentaron las bloqueadas por robots.


Por eso recomiendo controlar continuamente los logs y revisar el Informe de Cobertura de la GSC (aunque detectarás cualquier problema antes comprobando los logs). Y recuerda que el robots.txt no impide que las páginas sean indexadas. Si quiere que Google no rastree una URL, es mejor hacer que la URL sea inaccesible.

Estado de excluidas

Páginas excluidas del informe de cobertura de la SGC

Estas páginas no están indexadas en los resultados de búsqueda, y Google cree que es lo correcto. Por ejemplo, esto podría ser porque son páginas duplicadas de páginas indexadas o porque das directrices en tu web a los motores de búsqueda para que las indexen.

El informe de cobertura muestra 15 situaciones en las que tus página pueden ser excluida.

 

Excluida por una etiqueta "noindex": 

Le está diciendo a los buscadores que no indexen la página dando una directiva de "noindex". 

Acciones a tomar: 

  • Verifica si realmente no quieres indexar la página. Si quieres que la página sea indexada, elimina la etiqueta "noindex". 
  • Puedes confirmar la presencia de esta directiva abriendo la página y buscando "noindex" en el cuerpo de respuesta y en el encabezado de respuesta.

Bloqueada por una herramienta para eliminar páginas. 

Has presentado una solicitud de eliminación de URL para estas páginas en el GSC.

Acciones a tomar:

  • Google sólo atiende esta solicitud durante 90 días, por lo que si no quieres indexar la página, utiliza las directivas "noindex", implementa una autenticación HTTP o elimina la página.

Bloqueada por robots.txt: 

Estás bloqueando el acceso a Googlebot a estas páginas con el archivo robots.txt. Sin embargo, aún podrían ser indexadas si Google pudiera encontrar información sobre estas páginas sin cargarlas. Tal vez Google indexó la página antes de que agregaras el "disallow" en el robots.txt

Acciones a tomar: 

  • Si no quieres que la página sea indexada, usa una directiva "noindex" y elimina el bloqueo del robots.txt.

Bloqueada por una solicitud no autorizada (401): 

Estás bloqueando el acceso a Google mediante una solicitud de autorización (respuesta 401). 

Acciones a tomar: 

  • Si quieres permitir que GoogleBot visite la página, elimina los requisitos de autorización. 

Anomalía de rastreo: 

La página no fue indexada debido a un código de respuesta de error 4xx o 5xx.

Acciones a tomar: 

  • Utiliza la herramienta de inspección de URL para obtener más información sobre estos problemas.

Rastreada – Actualmente sin indexar:

Esta página fue rastreada por GoogleBot pero no indexada. Puede o no ser indexada en el futuro. No hay necesidad de enviar esta URL para que sea rastreada.

Acciones a tomar:

  • Si deseas que la página sea indexada en los resultados de la búsqueda, asegúrate de proporcionar información valiosa.  

Descubierta – Actualmente sin indexar.

Google encontró esta página, pero aún no ha logrado rastrearla. Esta situación suele ocurrir porque cuando GoogleBot intentó rastrear la página, el sitio se sobrecargó. El rastreo se ha programado para más adelante.

No se requiere ninguna acción.

 

Página alternativa con etiqueta canonical adecuada:

Esta página apunta a una página canónica, así que Google entiende que no quieres indexarla.

Acciones a tomar:

  • Si quieres indexar esta página, tendrás que cambiar el rel=atributos canónicos para dar a Google las pautas deseadas.

Duplicada: el usuario no ha indicado ninguna versión canónica: 

La página tiene duplicados, pero ninguna de ellas está marcada como canónico. Google considera que esta no es la canónica. 

Acciones a tomar:

Duplicada: Google ha elegido una versión canónica diferente a la del usuario: 

Has marcado esta página como canónica, pero Google, en cambio, ha indexado otra página que cree que funciona mejor como canónica. 

Acciones a tomar:

  • Puedes seguir la elección de Google. En ese caso, marca la página indexada como canónica y ésta como un duplicado de la URL canónica.
  • Si no es así, averigua por qué Google prefiere otra página a la que has elegido, y haz los cambios necesarios. Utiliza la Herramienta de Inspección de URL para descubrir la "página canónica" seleccionada por Google.

Ferran Gavin,
Gerente de SEO en Softonic

Uno de los "fallos" más curiosos que hemos experimentado con el Informe de Cobertura de Indexación fue encontrar que Google no estaba procesando nuestras etiquetas canónicas correctamente (¡y lo habíamos estado haciendo mal durante años!). Google estaba indicando en el Search Console que la canónica especificada no era válida cuando la página estaba perfectamente formateada. Al final, resultó ser un error del propio Google, confirmado por Gary Ilyes.

 

No se ha encontrado (404): 

La página devuelve un código de estado de error 404 cuando Google hace una solicitud. GoogleBot no encontró la página a través de un sitemap, sino probablemente a través de otro sitio web que enlaza con la URL. También es posible que esta URL existiera en el pasado y haya sido eliminada. 

Acciones a tomar:

  • Si la respuesta 404 es intencional, puedes dejarla como está. No dañará tu rendimiento de SEO. Sin embargo, si la página se ha movido, implementa una redirección 301.

Página eliminada debido a una queja legal: 

Esta página fue eliminada del índice debido a una denuncia legal.

Acciones a tomar: 

  • Investiga qué normas legales puedes haber infringido y toma las medidas necesarias para corregirlo.

Página con la redirección: 

Esta URL es una redirección y por lo tanto no fue indexada.

Acciones a tomar:

  • Si la URL no debía redirigir, elimina la implementación de la redirección. 

Soft 404: 

La página devuelve lo que Google cree que es una respuesta Soft 404. La página no está indexada porque, aunque da un código de estado de 200, Googles cree que debería devolver un 404

Acciones a tomar:

  • Revisa si debes asignar un 404 a la página, como sugiere Google.
  • Añade contenido valioso a la página para que Google sepa que no es un Soft 404.

Duplicada – La URL enviada no se ha seleccionado como canónica.  

Has enviado la URL a GSC para su indexación. Aún así, no ha sido indexada porque la página tiene duplicados sin etiquetas canónicas, y Google considera que hay una mejor candidata para la canónica. 

Acciones a tomar:

  • Decide si quieres seguir la elección de Google para la página canónica. En ese caso, asigna el atributo rel=canonical para apuntar a la página seleccionada por Google.
  • Puedes usar la Herramienta de Inspección de URL para ver qué página ha sido elegida por Google como la canónica.
  • Si quieres esta URL como la canónica, analiza por qué Google prefiere la otra página. Ofrece más contenido de alto valor en la página de tu elección.

Paso 3. Problemas más comunes en el informe de cobertura de indexación

Ahora ya sabes los diferentes tipos de errores que puedes encontrar en el informe del cobertura de indexación y qué acciones tomar cuando te encuentres con cada uno de ellos. A continuación se presenta un breve resumen de los problemas que surgen con más frecuencia.

Más páginas excluidas que válidas

A veces puedes tener más páginas excluidas que válidas. Esta circunstancia suele darse en sitios grandes que han experimentado un cambio significativo de URL. Probablemente se trate de un sitio antiguo con una larga trayectoria, o el código web ha sido modificado.

Si tienes una diferencia significativa entre el número de páginas de los dos estados (Excluido y Válido), tienes un problema grave. Empieza a revisar las páginas excluidas, como explicamos anteriormente. 

 

Esteve Castells

Esteve Castells,
Gerente de Grupo SEO @ Adevinta

El mayor problema que he visto en el Coverage Report es uno de los sitios web que administro, que terminó teniendo 5 mil millones de páginas excluidas. Sí, lo has leído correctamente, 5 mil millones de páginas. La navegación por facetas se volvió completamente loca, y por cada página vista, creábamos 20 nuevas URL para que Googlebot las rastreara.

Eso terminó siendo el error más caro en términos de rastreo. Tuvimos que añadir el "disallow" a través del robots.txt las direcciones de navegación por facetas ya que Googlebot estaba derribando nuestro servidor con más de 25 millones de visitas al día.

 

Picos de errores

Cuando el número de errores aumenta exponencialmente, hay que comprobar el error y arreglarlo lo antes posible. Google ha detectado algún problema que perjudica gravemente el rendimiento de tu sitio web. Si no corriges el problema hoy, tendrás serios problemas mañana.

Errores del servidor

Asegúrate de que estos errores no sean 503 (Servicio no disponible). Este código de estado significa que el servidor no puede manejar la solicitud debido a una sobrecarga temporal o a un mantenimiento. En un principio, el error debería desaparecer por sí mismo, pero si sigue ocurriendo, debes mirar el problema y solucionarlo.

Si tienes otros tipos de errores 5xx, te recomendamos que consultes nuestra guía para ver las acciones que debes tomar en cada caso.

Errores 404

Parece que Google ha detectado alguna área de tu sitio web que está generando 404 - páginas no encontradas. Si el volumen crece considerablemente, revisa nuestra guía para encontrar y arreglar los enlaces rotos.

Páginas o sitios que no aparecen

Si no puedes ver una página o un sitio en el informe, puede ser por varias razones.

  1. Google no la ha descubierto todavía. Cuando una página o sitio es nuevo, puede pasar algún tiempo antes de que Google lo encuentre. Envía una solicitud de sitemap o de rastreo de páginas para acelerar el proceso de indexación. Además, asegúrate de que la página no sea huérfana y estés enlazada desde el sitio web.
  2. Google no puede acceder a tu página debido a una solicitud de acceso. Elimina los requisitos de autorización para permitir que GoogleBot rastree la página.
  3. La página tiene una etiqueta de noindex o fue eliminada de la indexación por alguna razón. Retira la etiqueta de noindex y asegúrate de que estás proporcionando contenido valioso en la página.

Errores y exclusiones de tipo "Enviado"

Este problema se produce cuando hay incongruencia. Si envías una página a través de un sitemap, debes asegurarte de que es válida para ser indexada, y que está enlazada al sitio.

Tu sitio debe consistir en su mayoría de páginas valiosas que valgan la pena entrelazar. 

Resumen

A modo de resumen, aquí tienes tres pasos del artículo "Cómo encontrar y corregir errores de cobertura de indexación".  

  • Lo primero que hay que hacer al usar el informe de cobertura de indexación es arreglar las páginas que aparecen en el estado de error. Este debe ser 0 para evitar las penalizaciones de Google.
  • En segundo lugar, comprueba las páginas excluidas y mira si son páginas que no quieres indexar. Si no es así, sigue nuestras directrices para resolver los problemas.
  • Si tienes tiempo, te recomendamos encarecidamente que compruebes las páginas con advertencia. Asegúrate de que las pautas que das en el robots.txt son correctas y que no hay inconsistencias.

¡Esperamos que lo encuentre de utilidad! Haznos saber si tienes alguna pregunta sobre el informe de cobertura de indexación. También nos encantaría leer cualquier consejo tuyo que nos puedas dejar en los comentarios.

Compártelo

Ver más artículos relacionados

google EAT

Guía completa de Google EAT

En agosto de 2018, empezamos a oír hablar de la E-A-T de Google, y desde entonces, ha sido un tema constante en la...

Leer más
SEO en la página

SEO On Page: La guía definitiva para 2021

A la hora de posicionar su sitio web, debe tener en cuenta una serie de factores externos e internos que afectan a su rendimiento SEO. En la página...

Leer más
Tamaño DOM

Las claves para reducir el tamaño del DOM de un sitio web

Uno de los aspectos que influyen en el logro de un buen posicionamiento SEO en una página web es su rendimiento de carga. Y esto...

Leer más
Arrow-up