Controlar rastreadores web para un sitio

:bookmark: Esta guía explica cómo administrar rastreadores web en su sitio de Discourse.

:person_raising_hand: Nivel de usuario requerido: Administrador

Los rastreadores web pueden afectar significativamente el rendimiento de su sitio al aumentar las visitas a la página y la carga del servidor.

Cuando un sitio nota un aumento en sus visitas a la página, es importante verificar cómo encajan los rastreadores web en la mezcla.


Comprobación de la actividad de los rastreadores

Para ver si los rastreadores están afectando su sitio, navegue hasta el informe Tráfico del sitio (/admin/reports/site_traffic) desde su panel de administración. Este informe desglosa los números de visitas a la página de usuarios de navegadores registrados, usuarios de navegadores anónimos, rastreadores y otras fuentes.

Un sitio donde los rastreadores funcionan normalmente:

Un sitio donde los rastreadores están fuera de control:

Identificación de rastreadores específicos

Vaya al informe Agente de usuario del rastreador web (/admin/reports/web_crawlers) para encontrar una lista de nombres de rastreadores web ordenados por recuento de visitas a la página.

Cuando un rastreador web problemático llega al sitio, el número de sus visitas a la página será mucho mayor que el de los otros rastreadores web. Tenga en cuenta que puede haber varios rastreadores web maliciosos trabajando al mismo tiempo.

Bloqueo y limitación de rastreadores

Es una buena práctica no bloquear los rastreadores de los motores de búsqueda principales, como Google, Bing, Baidu (chino), Yandex (ruso), Naver (coreano), DuckDuckGo, Yahoo y otros, según su país.

Cuando un rastreador web está fuera de control, hay una buena probabilidad de que el mismo rastreador haya golpeado otros sitios y alguien más ya haya solicitado información o creado informes sobre él que serán útiles para comprender si limitar o bloquear ese rastreador en particular.

Tenga en cuenta que algunos rastreadores pueden contribuir con una gran cantidad de visitas a la página si utiliza servicios de terceros para monitorear o agregar funcionalidad a su sitio a través de scripts, etc.

Para obtener un registro de rastreadores web no confiables, puede consultar esta lista, https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt

Ajuste de la configuración del rastreador

En Administración > Configuración hay algunas configuraciones que pueden ayudar a limitar la velocidad de rastreadores específicos:

  • Ralentizar rastreadores usando:

    • slow down crawler user agents — por defecto, esto incluye gptbot, claudebot, anthropic-ai y brightbot
    • slow down crawler rate — el número de segundos entre las solicitudes permitidas por rastreador (predeterminado: 60)
  • Bloquear rastreadores con:

    • blocked crawler user agents — por defecto, esto incluye mauibot, semrushbot, ahrefsbot, blexbot y seo spider
  • Permitir solo rastreadores específicos con:

    • allowed crawler user agents — cuando se establece, solo los rastreadores enumerados tendrán permitido acceder al sitio; todos los demás serán bloqueados. Esto actúa como una lista de permitidos estricta. Advertencia: establecer esto anulará blocked crawler user agents y bloqueará todos los rastreadores que no estén en la lista, incluidos los principales motores de búsqueda si no están incluidos.

Asegúrese de conocer el nombre de agente de usuario exacto para los rastreadores que desea controlar. Si ajusta cualquiera de las configuraciones anteriores y no ve una reducción en las visitas a la página de ese agente, es posible que desee verificar dos veces que está utilizando el nombre correcto.

Cuando dude sobre cómo actuar, comience siempre con la opción de “ralentizar” en lugar de un bloqueo total. Verifique con el tiempo si hay mejoras. Puede proceder con un bloqueo total si no observa resultados apreciables.

17 Me gusta

¿Debería haber algún tipo de descargo de responsabilidad de que esto solo funciona con los que se comportan bien? E incluso Google omitirá todo eso cuando provenga de enlaces de Gmail.

Ambos se aplican en el servidor.

Sin embargo, si un bot malicioso finge ser Chrome o cualquier otro, falsificando las cabeceras, entonces no podemos usar las cabeceras para detectarlo…

2 Me gusta

Dato impactante: ¡Las tarjetas de vista previa cuentan como una visita a la página!
El servidor que administro parece haber sido inundado con solicitudes de tarjetas de vista previa del tipo http.rb/5.1.0 (Mastodon/4.0.2; + [https://mstdn.science/](https://mstdn.science/))
No creo que se pueda tomar ninguna medida aparte de decirle a los usuarios de Mastodon que incluyan una imagen para que la tarjeta de vista previa no se agregue automáticamente.

1 me gusta

Ya tengo más de 1500 visitas diarias de rastreadores. :tired_face: ¿Puedo bloquearlos a todos usando Cloudflare DNS? ¿O qué opción se necesita para bloquearlos a todos a la fuerza? (Instancia privada)

Simplemente no los quiero.

Usando nginx como proxy inverso y deteniendo los user agents no deseados. Eso ayuda mucho. Bloquear países que no necesitas también ayuda bastante.

No puedo bloquear EE. UU., Francia y Alemania (países con grandes VPS), pero para mí Rusia, Vietnam, Irán, Irak, etc. ayudaron bastante.

Pero Discourse es bastante… ¿resiliente es la palabra correcta? La situación es muy diferente a la de WordPress, donde esos bots de SEO inútiles, atacantes, script kiddies y actores maliciosos pueden arrodillar fácilmente un servidor.

2 Me gusta

Estoy alojando en Hetzner Alemania, con solo dos puertos abiertos en mi firewall (80/443). Y Discourse se ejecuta detrás del NGINX proxy manager (claro, hay mejores soluciones, pero soy una persona perezosa para codificar y me gustan las interfaces web).

Ahora voy a la ruta de lista blanca, con una cadena aleatoria como única entrada permitida… a partir de ahora, no más visitas a la página :smiley:

Una pregunta sobre qué poner exactamente en “ralentizar los agentes de usuario rastreadores”.
Para nosotros, Facebook es el principal culpable, con Bing en un cercano tercer lugar.
El informe muestra los siguientes agentes como los principales rastreadores que consumen visitas a páginas:

¿Qué debe ir exactamente en “ralentizar los agentes de usuario rastreadores”? ¿Estas URLs exactas incluyendo “https” o “http”? ¿O todo después de las barras dobles? ¿O algo más? ¿O simplemente debemos ir por prueba y error?

¡Gracias!

Para simplificar, deberías usar los nombres de esos bots. Pero puedes usar cualquier parte de la cadena del agente de usuario, pero asegúrate de que no afecte más de lo que deseas.

Ralentizar los bots es una forma muy poco fiable, pero algunos siguen esa regla. Pero estos provienen de tus acciones, etc. y no crean tanta carga de trabajo. WordPress sería otra historia.

Pero esto es parte de mi lista de bots bloqueados. Ya me entiendes.

1 me gusta

Gracias, @Jagster, muy útil. A veces parece un juego de “dar y quitar”, pero entiendo la idea de usar parte del nombre del rastreador en lugar de todo.

Supongo que es un trabajo en progreso para mí como administrador del sitio. ¡Adelante!

1 me gusta

Puede haber varias razones, pero Googlebot tiene su presupuesto y, cuando los sitemaps son la forma más importante de encontrar enlaces, nunca llega a los enlaces internos cuando se utiliza el presupuesto diario/semanal/mensual.

Y en un foro, los enlaces internos son importantes para los usuarios, no para Google.

Pero no sé si Googlebot ve los enlaces internos. Debería hacerlo, sin embargo.

1 me gusta