En primer lugar, queremos felicitarles por el espíritu y la resistencia en la concepción y el mantenimiento de Discourse. Siempre es un placer usarlo para nosotros y para los miembros de nuestra comunidad.
Hemos resumido algunas observaciones menores hechas hoy y esperamos que les resulten útiles. Por otro lado, también estaremos encantados de recibir comentarios sobre cualquier malentendido por nuestra parte.
Saludos cordiales,
Andreas.
Introducción
Al investigar el comportamiento de nuestra instancia de Discourse alojada en https://community.crate.io/ con respecto a su archivo de definición robots.txt[1], descubrimos que Googlebot podría no respetar la configuración según lo previsto.
Evaluación
Vamos a ejercitarlo en nombre del robots.txt en Meta [2], con la URL de mi perfil https://meta.discourse.org/u/amotl/.
La diferencia se puede detectar rápidamente comparando los resultados de este validador gratuito de robots.txt:
Sobre este tema en particular, creemos haber encontrado la respuesta:
Reflexiones
Por lo tanto, nos inclinamos a pensar que Googlebot podría estar ignorando actualmente las reglas definidas dentro de la sección User-agent: *[3] por completo y solo respeta las reglas dentro de la sección User-agent: Googlebot[4].
Si entendí bien, la respuesta no es tan fácil. Si un solo usuario ha enviado un enlace usando Gmail, googlebot no respeta robots.txt. Lo mismo ocurre si un enlace se comparte en algún lugar (backlinks) donde parece para googlebot un enlace normal y corriente.
De nuevo: robots.txt es solo una solicitud.
Hay otro, pero más… Un buen número de bots se identifican como googlebot y la realidad solo se puede encontrar a través de la IP.
Lo he movido a Support, gracias por tu maravillosamente redactado informe de error aquí.
Nos ha llevado mucho tiempo ajustar nuestras reglas para mantener a Google contento, la etiqueta x-robots-tag noindex tiene un soporte desigual pero es un estándar de la industria. El problema de simplemente prohibir el rastreo era que, por alguna razón, bajo ciertas condiciones, las páginas podían terminar en el índice de Google y luego no había una manera fácil de eliminarlas porque el rastreo estaba prohibido, un problema de huevo y gallina.
Muchas gracias por compartir más detalles sobre este asunto. Como siempre, estoy asombrado del nivel de genialidad que estás vertiendo en cada detalle de Discourse.
Debo admitir que no era consciente de esto hasta ahora. ¡Gracias de nuevo!
Genial. Gracias. Si esto se ha convertido en un estándar ampliamente aceptado ahora, ¿habrá esperanza de que algunos de los validadores gratuitos de robots.txt también lo respeten en el futuro?
¿Eres consciente de alguno que ya implemente comprobaciones de encabezado adicionales correspondientes además de leer el robots.txthoy, como lo hace la Inspección de URL de Google Search Console? Eso probablemente ayudaría a las personas a evitar la misma confusión en la que nos encontramos.