Forma de deshabilitar globalmente todos los feeds RSS

Hola,

Mientras realizaba una auditoría SEO de nuestro sitio, parte del cual se ejecuta en Discourse, parece que Googlebot está gastando una cantidad considerable de presupuesto de rastreo en los feeds RSS. Esto a pesar de que el archivo robots.txt predeterminado de Discourse deshabilita estas URLs y a pesar de que se envía un encabezado noindex en la respuesta HTTP para estas URLs de RSS.

Me pregunto si existe una forma no truculenta de deshabilitar por completo estos feeds RSS en mi sitio. No sospecho que mucha gente los esté utilizando (intentaré confirmar esto). Pero mi pregunta sigue en pie.

¡Gracias por cualquier ayuda al respecto!

–Hugh

1 me gusta

No hay ninguna casilla para desactivar esos feeds en este momento.

Si sabes manejar nginx, puedes crear un bloque de ubicación que coincida con .rss y devuelva un 404, y colocarlo en la sección correspondiente de app.yml.

1 me gusta

¿No sería enviar un 404 incluso peor para el SEO?

2 Me gusta

¿Por qué no bloquearlos usando nginx?

¿Google está realmente recuperando esas páginas o las URLs simplemente aparecen en la Consola de Búsqueda de Google como “indexadas pero bloqueadas por robots.txt”?

No veo encabezados noindex en los feeds RSS, pero si una URL está bloqueada por robots.txt y tiene un encabezado robots, el rastreador podría nunca ver el encabezado robots.

[Eliminé la salida de curl -I, porque no estaba usando GET, por lo que faltaba el encabezado robots.]

Edición: Acabo de verificar los feeds RSS con una solicitud GET, porque pensé que el encabezado x-robots-noindex estaba en los feeds RSS, y sí está allí, pero solo con una solicitud GET.

Ahora recuerdo lo que hice en mi foro principal. La Consola de Búsqueda de Google advertía sobre las URLs de los feeds RSS que estaban indexadas pero bloqueadas, así que desbloqueé los feeds con robots.txt porque eso evita que Googlebot recupere las URLs y vea el encabezado noindex. Estoy bastante seguro de que eso resolverá las advertencias, pero no sé si evitará que Googlebot rastree esas URLs.

# Disallow: /t/*/*.rss
# Disallow: /c/*.rss

Me preocuparía un poco decirle a los rastreadores que existen feeds RSS (con link, ver más abajo) y luego enviar respuestas 404 cuando los bots intenten recuperar esas URLs. Podría llevar a una máquina a pensar que hay algún problema técnico con el sitio, lo que reduciría su puntuación de calidad (independientemente de cómo los motores de búsqueda determinen la calidad o si un sitio podría estar roto para los usuarios).

$ curl -s https://meta.discourse.org/latest | grep -i rss    
    <link rel="alternate" type="application/rss+xml" title="Últimas publicaciones" href="https://meta.discourse.org/posts.rss" />
    <link rel="alternate" type="application/rss+xml" title="Últimos temas" href="https://meta.discourse.org/latest.rss" />
   ...
1 me gusta

Sí, no soy fanático de la solución 404. Parece que podría enviar una señal negativa a Google y también es una forma bastante brusca de lograr lo que quiero. Lo que realmente quiero es que los enlaces no aparezcan en la página, no que sean enlaces rotos.

En respuesta a tu pregunta, los feeds RSS aparecen como “Excluidos por la etiqueta ‘noindex’” en la Consola de Búsqueda. No está claro si esto significa que Google dedicó tiempo a recuperarlos y luego los excluyó, o si fueron excluidos antes de la recuperación, en cuyo caso el impacto en el presupuesto de rastreo probablemente sea menor.

Podría haber información sobre cuántas URLs de RSS están recuperando en los registros de nginx. Acabo de revisar los míos y Googlebot está rastreando los feeds RSS, pero solo les pedí que lo hicieran porque los desbloqueé en robots.txt.