Esta guía explica cómo administrar rastreadores web en su sitio de Discourse.
Nivel de usuario requerido: Administrador
Los rastreadores web pueden afectar significativamente el rendimiento de su sitio al aumentar las visitas a la página y la carga del servidor.
Cuando un sitio nota un aumento en sus visitas a la página, es importante verificar cómo encajan los rastreadores web en la mezcla.
Comprobación de la actividad de los rastreadores
Para ver si los rastreadores están afectando su sitio, navegue hasta el informe Tráfico del sitio (/admin/reports/site_traffic) desde su panel de administración. Este informe desglosa los números de visitas a la página de usuarios de navegadores registrados, usuarios de navegadores anónimos, rastreadores y otras fuentes.
Un sitio donde los rastreadores funcionan normalmente:
Un sitio donde los rastreadores están fuera de control:
Identificación de rastreadores específicos
Vaya al informe Agente de usuario del rastreador web (/admin/reports/web_crawlers) para encontrar una lista de nombres de rastreadores web ordenados por recuento de visitas a la página.
Cuando un rastreador web problemático llega al sitio, el número de sus visitas a la página será mucho mayor que el de los otros rastreadores web. Tenga en cuenta que puede haber varios rastreadores web maliciosos trabajando al mismo tiempo.
Bloqueo y limitación de rastreadores
Es una buena práctica no bloquear los rastreadores de los motores de búsqueda principales, como Google, Bing, Baidu (chino), Yandex (ruso), Naver (coreano), DuckDuckGo, Yahoo y otros, según su país.
Cuando un rastreador web está fuera de control, hay una buena probabilidad de que el mismo rastreador haya golpeado otros sitios y alguien más ya haya solicitado información o creado informes sobre él que serán útiles para comprender si limitar o bloquear ese rastreador en particular.
Tenga en cuenta que algunos rastreadores pueden contribuir con una gran cantidad de visitas a la página si utiliza servicios de terceros para monitorear o agregar funcionalidad a su sitio a través de scripts, etc.
Para obtener un registro de rastreadores web no confiables, puede consultar esta lista, https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt
Ajuste de la configuración del rastreador
En Administración > Configuración hay algunas configuraciones que pueden ayudar a limitar la velocidad de rastreadores específicos:
-
Ralentizar rastreadores usando:
slow down crawler user agents— por defecto, esto incluyegptbot,claudebot,anthropic-aiybrightbotslow down crawler rate— el número de segundos entre las solicitudes permitidas por rastreador (predeterminado: 60)
-
Bloquear rastreadores con:
blocked crawler user agents— por defecto, esto incluyemauibot,semrushbot,ahrefsbot,blexbotyseo spider
-
Permitir solo rastreadores específicos con:
allowed crawler user agents— cuando se establece, solo los rastreadores enumerados tendrán permitido acceder al sitio; todos los demás serán bloqueados. Esto actúa como una lista de permitidos estricta. Advertencia: establecer esto anularáblocked crawler user agentsy bloqueará todos los rastreadores que no estén en la lista, incluidos los principales motores de búsqueda si no están incluidos.
Asegúrese de conocer el nombre de agente de usuario exacto para los rastreadores que desea controlar. Si ajusta cualquiera de las configuraciones anteriores y no ve una reducción en las visitas a la página de ese agente, es posible que desee verificar dos veces que está utilizando el nombre correcto.
Cuando dude sobre cómo actuar, comience siempre con la opción de “ralentizar” en lugar de un bloqueo total. Verifique con el tiempo si hay mejoras. Puede proceder con un bloqueo total si no observa resultados apreciables.


