¿Por qué semrushbot y ahrefsbot están bloqueados de forma predeterminada?

Estaba revisando el informe de cobertura de Google Search Console y descubrí que muchas de nuestras páginas del foro están bloqueadas por robots.txt. Así que procedí a verificar el archivo robots.txt. Luego descubrí que semrushbot y ahrefsbot están bloqueados por defecto:

Sé que estas son dos herramientas SEO muy utilizadas, ¿por qué bloquear sus bots?

Porque esos bots son «vampiros de recursos» que aportan muy poco valor a los sitios en comparación con la cantidad de recursos que consumen.

Por supuesto, puedes personalizar el archivo robots.txt de Discourse y permitirlos si lo deseas; pero bloqueamos estos bots en nuestros sitios mucho antes de que Discourse se lanzara y seguimos manteniéndolos bloqueados.

:slight_smile:


Nota (Editada):

Olvidé mencionar que muchos de estos «vampiros de recursos» no respetan robots.txt y deben bloquearse a nivel del agente de usuario HTTP. En términos generales, bloqueamos a estos «vampiros de recursos irrespetuosos» mediante mod_rewrite a nivel del proxy inverso (una de las muchas buenas razones para operar detrás de un proxy inverso, por cierto).

¡Muchas gracias por la información!

He encontrado otro problema y quizás puedas compartir tu opinión al respecto también. :slight_smile:

Sé que Discourse ha bloqueado las páginas de usuario por defecto, pero en mi informe de cobertura de Google Search Console, todavía hay algunas páginas de usuario indexadas, lo cual es un problema a los ojos de Google, ya que todas estas páginas no deberían estar indexadas:

¡Gracias!

Esto se corrigió recientemente con

¿Puedes actualizar tu Discourse y volver a verificar?

@osioke ¡Gracias por tu respuesta! Creo que nuestra versión instalada ya incluye esta función, ¿no? Porque noté que la corrección se incorporó en enero.

¿Podrías verificar si necesito actualizar a la última versión para tener esta función?

No hace daño actualizar, en mi opinión, pero sí, esa corrección debería estar en tu versión instalada. Te recomendaría intentar actualizar y volver a verificar, a menos que no quieras actualizar por alguna otra razón.

¿Porque son pésimas? Añaden mucha carga al servidor sin ningún beneficio discernible, y nuestros clientes tienen límites de visualizaciones de página en sus planes.

Suena bien. Estamos actualizando ahora. Esperemos que las cosas funcionen después de la actualización. Te avisaré y te mantendré informado. :slight_smile: ¡Gracias!

Solo para aclarar, ¿no hay forma de desbloquear semrushbot y seo spider? Los necesitamos para la auditoría SEO. Intenté eliminar ambos de /admin/customize/robots (también probé con Allow:), pero obtenemos un error 429 en Screaming Frog. ¿O es este error 429 un problema separado? Agradecemos mucho sus comentarios.

Los errores 429 indican que esos rastreadores están siendo limitados por tasa. Discourse tiene cierta limitación de velocidad activada de forma predeterminada para prevenir abusos. Puedes leer más sobre esto aquí.

¿Probaste esto (pero usando el nombre de tu contenedor)?

Nota: también puedes configurar esto en la interfaz de administración (Admin UI):

# docker exec -it socket-only bash
root@socket-only:/# rails c
[1] pry(main)> SiteSetting.blocked_crawler_user_agents
=> "mauibot|semrushbot|ahrefsbot|blexbot|seo spider"
[2] pry(main)> SiteSetting.blocked_crawler_user_agents = ""
=> ""
[3] pry(main)> SiteSetting.blocked_crawler_user_agents
=> ""
[4] pry(main)> 

Ver también:

Ver también:

  def self.allow_crawler?(user_agent)
    return true if SiteSetting.allowed_crawler_user_agents.blank? &&
      SiteSetting.blocked_crawler_user_agents.blank?
...
...

Puedes ver en el código que si estableces estas dos configuraciones del sitio en “vacío” (blank), no habrá bloqueo:

  • SiteSetting.allowed_crawler_user_agents
  • SiteSetting.blocked_crawler_user_agents

Recomiendo que no cambies esto, ya que estos bots que Discourse bloquea por defecto en su núcleo no respetan robots.txt; sin embargo, es tu sitio y puedes hacer lo que quieras. Hay una buena razón por la que están bloqueados en el núcleo.

Dicho esto, Discourse te ofrece la opción de “desbloquear” estos usando tus SiteSettings en la interfaz de usuario.