Estaba revisando el informe de cobertura de Google Search Console y descubrí que muchas de nuestras páginas del foro están bloqueadas por robots.txt. Así que procedí a verificar el archivo robots.txt. Luego descubrí que semrushbot y ahrefsbot están bloqueados por defecto:
Porque esos bots son «vampiros de recursos» que aportan muy poco valor a los sitios en comparación con la cantidad de recursos que consumen.
Por supuesto, puedes personalizar el archivo robots.txt de Discourse y permitirlos si lo deseas; pero bloqueamos estos bots en nuestros sitios mucho antes de que Discourse se lanzara y seguimos manteniéndolos bloqueados.
Nota (Editada):
Olvidé mencionar que muchos de estos «vampiros de recursos» no respetan robots.txt y deben bloquearse a nivel del agente de usuario HTTP. En términos generales, bloqueamos a estos «vampiros de recursos irrespetuosos» mediante mod_rewrite a nivel del proxy inverso (una de las muchas buenas razones para operar detrás de un proxy inverso, por cierto).
He encontrado otro problema y quizás puedas compartir tu opinión al respecto también.
Sé que Discourse ha bloqueado las páginas de usuario por defecto, pero en mi informe de cobertura de Google Search Console, todavía hay algunas páginas de usuario indexadas, lo cual es un problema a los ojos de Google, ya que todas estas páginas no deberían estar indexadas:
@osioke ¡Gracias por tu respuesta! Creo que nuestra versión instalada ya incluye esta función, ¿no? Porque noté que la corrección se incorporó en enero.
No hace daño actualizar, en mi opinión, pero sí, esa corrección debería estar en tu versión instalada. Te recomendaría intentar actualizar y volver a verificar, a menos que no quieras actualizar por alguna otra razón.
¿Porque son pésimas? Añaden mucha carga al servidor sin ningún beneficio discernible, y nuestros clientes tienen límites de visualizaciones de página en sus planes.
Solo para aclarar, ¿no hay forma de desbloquear semrushbot y seo spider? Los necesitamos para la auditoría SEO. Intenté eliminar ambos de /admin/customize/robots (también probé con Allow:), pero obtenemos un error 429 en Screaming Frog. ¿O es este error 429 un problema separado? Agradecemos mucho sus comentarios.
Los errores 429 indican que esos rastreadores están siendo limitados por tasa. Discourse tiene cierta limitación de velocidad activada de forma predeterminada para prevenir abusos. Puedes leer más sobre esto aquí.
def self.allow_crawler?(user_agent)
return true if SiteSetting.allowed_crawler_user_agents.blank? &&
SiteSetting.blocked_crawler_user_agents.blank?
...
...
Puedes ver en el código que si estableces estas dos configuraciones del sitio en “vacío” (blank), no habrá bloqueo:
SiteSetting.allowed_crawler_user_agents
SiteSetting.blocked_crawler_user_agents
Recomiendo que no cambies esto, ya que estos bots que Discourse bloquea por defecto en su núcleo no respetan robots.txt; sin embargo, es tu sitio y puedes hacer lo que quieras. Hay una buena razón por la que están bloqueados en el núcleo.
Dicho esto, Discourse te ofrece la opción de “desbloquear” estos usando tus SiteSettings en la interfaz de usuario.