Las reglas genéricas en "robots.txt" no son detectadas por Googlebot

amotl · 1 Marzo, 2022 14:07

Estimado equipo de Discourse:

En primer lugar, queremos felicitarles por el espíritu y la resistencia en la concepción y el mantenimiento de Discourse. Siempre es un placer usarlo para nosotros y para los miembros de nuestra comunidad.

Hemos resumido algunas observaciones menores hechas hoy y esperamos que les resulten útiles. Por otro lado, también estaremos encantados de recibir comentarios sobre cualquier malentendido por nuestra parte.

Saludos cordiales,
Andreas.

Introducción

Al investigar el comportamiento de nuestra instancia de Discourse alojada en https://community.crate.io/ con respecto a su archivo de definición robots.txt ^[1], descubrimos que Googlebot podría no respetar la configuración según lo previsto.

Evaluación

Vamos a ejercitarlo en nombre del robots.txt en Meta ^[2], con la URL de mi perfil https://meta.discourse.org/u/amotl/.

La diferencia se puede detectar rápidamente comparando los resultados de este validador gratuito de robots.txt:

– Evaluar con Googlebot

– Evaluar con MSNBot

Investigación

Sobre este tema en particular, creemos haber encontrado la respuesta:

Reflexiones

Por lo tanto, nos inclinamos a pensar que Googlebot podría estar ignorando actualmente las reglas definidas dentro de la sección User-agent: * ^[3] por completo y solo respeta las reglas dentro de la sección User-agent: Googlebot ^[4].

https://community.crate.io/robots.txt ↩︎
https://meta.discourse.org/robots.txt ↩︎

robots.txt, sección User-agent: *

User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tag
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /c/*.rss

↩︎

robots.txt, sección User-agent: Googlebot

User-agent: Googlebot
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /*?api_key*
Disallow: /*?*api_key*

↩︎

Jagster · 1 Marzo, 2022 14:13

Si entendí bien, la respuesta no es tan fácil. Si un solo usuario ha enviado un enlace usando Gmail, googlebot no respeta robots.txt. Lo mismo ocurre si un enlace se comparte en algún lugar (backlinks) donde parece para googlebot un enlace normal y corriente.

De nuevo: robots.txt es solo una solicitud.

Hay otro, pero más… Un buen número de bots se identifican como googlebot y la realidad solo se puede encontrar a través de la IP.

rrit · 1 Marzo, 2022 15:43

Esto es correcto y se implementó intencionalmente de esta manera.

Por lo tanto, Googlebot recibe un encabezado http adicional X-Robots-Tag: noindex para las páginas que realmente no deberían indexarse. Ver:

github.com/discourse/discourse

FEATURE: explicitly ban outlier traffic sources in robots.txt (#11553)

committed 09:51PM - 22 Dec 20 UTC

SamSaffron

+27 -9

Googlebot handles no-index headers very elegantly. It advises to leave as many r…outes as possible open and uses headers for high fidelity rules regarding indexes. Discourse adds special `x-robot-tags` noindex headers to users, badges, groups, search and tag routes. Following up on b52143feff8c32f2 we now have it so Googlebot gets special handling. Rest of the crawlers get a far more aggressive disallow list to protect against excessive crawling.

Para sus propios dominios, puede usar Google Search Console → Inspeccionar URL

Luego, intente agregar una URL de perfil de usuario para indexar, por ejemplo, https://www.example.com/u/jacob

amotl · 1 Marzo, 2022 15:50

Estimado Ayke:

Confirmado.

$ http https://meta.discourse.org/u/amotl --print hH | grep -i robot
X-Robots-Tag: noindex

Muchas gracias por tu rápida respuesta y explicación, y por referenciar el parche correspondiente.

Saludos cordiales,
Andreas.

sam · 2 Marzo, 2022 22:11

Lo he movido a Support, gracias por tu maravillosamente redactado informe de error aquí.

Nos ha llevado mucho tiempo ajustar nuestras reglas para mantener a Google contento, la etiqueta x-robots-tag noindex tiene un soporte desigual pero es un estándar de la industria. El problema de simplemente prohibir el rastreo era que, por alguna razón, bajo ciertas condiciones, las páginas podían terminar en el índice de Google y luego no había una manera fácil de eliminarlas porque el rastreo estaba prohibido, un problema de huevo y gallina.

amotl · 3 Marzo, 2022 08:45

Estimado Sam:

Muchas gracias por compartir más detalles sobre este asunto. Como siempre, estoy asombrado del nivel de genialidad que estás vertiendo en cada detalle de Discourse.

Debo admitir que no era consciente de esto hasta ahora. ¡Gracias de nuevo!

Genial. Gracias. Si esto se ha convertido en un estándar ampliamente aceptado ahora, ¿habrá esperanza de que algunos de los validadores gratuitos de robots.txt también lo respeten en el futuro?

¿Eres consciente de alguno que ya implemente comprobaciones de encabezado adicionales correspondientes además de leer el robots.txt hoy, como lo hace la Inspección de URL de Google Search Console? Eso probablemente ayudaría a las personas a evitar la misma confusión en la que nos encontramos.

Saludos cordiales,
Andreas.

system · 2 Abril, 2022 08:46

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.

Tema		Respuestas	Vistas
Pages listed in the robots.txt are crawled and indexed by Google Support	19	3277	30 Julio 2019
Excluding user profiles in robots.txt (or allow edit of file) Feature	5	2501	24 Mayo 2014
Google changed how they process robots.txt in Discourse? Support	20	1684	22 Diciembre 2020
Malformed robots.txt causing issues with indexing Support	9	1848	21 Abril 2023
Indexing User Profiles Support	2	65	4 Septiembre 2025

Las reglas genéricas en "robots.txt" no son detectadas por Googlebot

Introducción

Evaluación

Investigación

Reflexiones

Temas relacionados