robots.txt malformado causando problemas con la indexación

¡Hola a todos,

Acabamos de darnos cuenta de que nuestro foro de Discourse no está indexado por Google (recordamos que estaba indexado hace aproximadamente un año), y estamos intentando solucionarlo ahora mismo. ¿Qué configuraciones debemos asegurarnos de que estén establecidas correctamente?

Esto es lo que he hecho hasta ahora:

  1. Me aseguré de que “permitir indexación en robots.txt” esté marcado.

  2. He añadido los siguientes dominios a “excluir dominios con rel nofollow”:

    • grakn.ai (el dominio de nuestro sitio principal)
    • discuss.grakn.ai (el dominio de nuestro foro de Discourse)
  3. Me aseguré de que “agregar rel nofollow al contenido de los usuarios” esté desmarcado.

  4. He añadido Googlebot a “agentes de usuario de rastreadores en la lista blanca”.

¿Me estoy olvidando de alguna otra configuración que deba establecer?

En nuestra Google Search Console, aparece que discuss.grakn.ai aún no puede ser rastreado porque está bloqueado por robots.txt - véase la captura de pantalla a continuación.

¡Gracias de antemano por la ayuda!!!

Admin → Configuración → Habilitar Robots.txt

Su archivo Robots del Foro está permitido: https://discuss.grakn.ai/robots.txt

Inicie sesión en Google Webmaster Tools y verifique: https://www.google.com/webmasters/tools/robots-testing-tool

Con todos los valores predeterminados por defecto, esto funciona perfectamente. ¿Modificaste estas configuraciones al instalarlo originalmente?

El archivo robots.txt tiene este texto en medio, por lo que podría tener problemas con los rastreadores:

User-agent: *
Disallow: /
Noindex: /

Sin embargo, Google está indexando páginas:

Es posible que Googlebot esté buscando tus reglas específicas de Google y que Webmaster Tools te esté advirtiendo sobre el comodín.

(No estoy seguro de qué configuraciones generan esa salida en robots.txt.)

Sí.

  1. Accede a: https://discuss.grakn.ai/admin/customize/robots

  2. Elimina:

    User-agent: *
    Disallow: /
    Noindex: /

  3. Ve a Google Webmaster Tools: https://www.google.com/webmasters/tools/robots-testing-tool

Elige una propiedad verificada y vuelve a enviar robots.txt a Google.

Creo que debería funcionar.

Por último, eliminar el siguiente bloque solucionó el problema.

User-agent: *
Disallow: /
Noindex: /

¡Muchas gracias, @j127 y @tohaitrieu!!!

Google Search Console ahora muestra que discuss.grakn.ai está en cola para su indexación.

¡Saludos!

No entiendo muy bien cómo llegaste a este estado. ¿Cambias la configuración predeterminada del sitio relacionada con el rastreo?

También tengo dudas sobre cómo llegamos al estado anterior, @codinghorror. He sido administrador del sitio durante el último año y no he modificado nada relacionado con lo mencionado arriba. Recuerdo que no realicé una actualización durante mucho tiempo y luego lo hice poco antes de que comenzara el problema mencionado, pero no sé si eso tenga relación.