Esta guía explica cómo administrar rastreadores web en tu sitio de Discourse.
Nivel de usuario requerido: Administrador
Los rastreadores web pueden afectar significativamente el rendimiento de tu sitio al aumentar las visitas a páginas y la carga del servidor.
Cuando un sitio nota un pico en sus visitas a páginas, es importante verificar cómo encajan los rastreadores web en la mezcla.
Comprobación de la actividad de los rastreadores
Para ver si los rastreadores están afectando tu sitio, navega al informe Visitas consolidadas a páginas (/admin/reports/consolidated_page_views) desde tu panel de administración. Este informe desglosa los números de visitas a páginas de usuarios registrados, usuarios anónimos y rastreadores.
Un sitio donde los rastreadores funcionan normalmente:
Un sitio donde los rastreadores están fuera de control:
Identificación de rastreadores específicos
Ve al informe Agente de usuario de rastreador web (/admin/reports/web_crawlers) para encontrar una lista de nombres de rastreadores web ordenados por recuento de visitas a páginas.
Cuando un rastreador web problemático llega al sitio, el número de sus visitas a páginas será mucho mayor que el de otros rastreadores web. Ten en cuenta que puede haber varios rastreadores web maliciosos en funcionamiento al mismo tiempo.
Bloqueo y limitación de rastreadores
Es una buena costumbre no bloquear los rastreadores de los principales motores de búsqueda, como Google, Bing, Baidu (chino), Yandex (ruso), Naver (coreano), DuckDuckGo, Yahoo y otros, según tu país.
Cuando un rastreador web está fuera de control, es muy probable que el mismo rastreador haya llegado a otros sitios y que alguien más ya haya solicitado información o creado informes sobre él que serán útiles para comprender si se debe limitar o bloquear ese rastreador en particular.
Ten en cuenta que algunos rastreadores pueden contribuir con un gran número de visitas a páginas si utilizas servicios de terceros para monitorear o agregar funcionalidad a tu sitio a través de scripts, etc.
Para obtener un registro de rastreadores web poco confiables, puedes consultar esta lista: https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt
Ajuste de la configuración del rastreador
En Admin > Configuración, hay algunas configuraciones que pueden ayudar a limitar la velocidad de rastreadores específicos:
-
Ralentizar rastreadores usando:
slow down crawler user agentsslow down crawler rate
-
Bloquear rastreadores con:
blocked crawler user agents
Asegúrate de conocer el nombre exacto del agente de usuario para los rastreadores que deseas controlar. Si ajustas alguna de las configuraciones anteriores y no ves una reducción en las visitas a páginas de ese agente, es posible que desees verificar que estás utilizando el nombre correcto.
En caso de duda sobre cómo actuar, siempre comienza con la opción “ralentizar” en lugar de un bloqueo total. Verifica con el tiempo si hay mejoras. Puedes proceder con un bloqueo total si no notas resultados apreciables.


