Control de los rastreadores web para un sitio

Discourse · 9 Noviembre, 2022 12:04

Esta guía explica cómo administrar rastreadores web en tu sitio de Discourse.

Nivel de usuario requerido: Administrador

Los rastreadores web pueden afectar significativamente el rendimiento de tu sitio al aumentar las visitas a páginas y la carga del servidor.

Cuando un sitio nota un pico en sus visitas a páginas, es importante verificar cómo encajan los rastreadores web en la mezcla.

Comprobación de la actividad de los rastreadores

Para ver si los rastreadores están afectando tu sitio, navega al informe Visitas consolidadas a páginas (/admin/reports/consolidated_page_views) desde tu panel de administración. Este informe desglosa los números de visitas a páginas de usuarios registrados, usuarios anónimos y rastreadores.

Un sitio donde los rastreadores funcionan normalmente:

Un sitio donde los rastreadores están fuera de control:

Identificación de rastreadores específicos

Ve al informe Agente de usuario de rastreador web (/admin/reports/web_crawlers) para encontrar una lista de nombres de rastreadores web ordenados por recuento de visitas a páginas.

Cuando un rastreador web problemático llega al sitio, el número de sus visitas a páginas será mucho mayor que el de otros rastreadores web. Ten en cuenta que puede haber varios rastreadores web maliciosos en funcionamiento al mismo tiempo.

Bloqueo y limitación de rastreadores

Es una buena costumbre no bloquear los rastreadores de los principales motores de búsqueda, como Google, Bing, Baidu (chino), Yandex (ruso), Naver (coreano), DuckDuckGo, Yahoo y otros, según tu país.

Cuando un rastreador web está fuera de control, es muy probable que el mismo rastreador haya llegado a otros sitios y que alguien más ya haya solicitado información o creado informes sobre él que serán útiles para comprender si se debe limitar o bloquear ese rastreador en particular.

Ten en cuenta que algunos rastreadores pueden contribuir con un gran número de visitas a páginas si utilizas servicios de terceros para monitorear o agregar funcionalidad a tu sitio a través de scripts, etc.

Para obtener un registro de rastreadores web poco confiables, puedes consultar esta lista: https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt

Ajuste de la configuración del rastreador

En Admin > Configuración, hay algunas configuraciones que pueden ayudar a limitar la velocidad de rastreadores específicos:

Ralentizar rastreadores usando:
- slow down crawler user agents
- slow down crawler rate
Bloquear rastreadores con:
- blocked crawler user agents

Asegúrate de conocer el nombre exacto del agente de usuario para los rastreadores que deseas controlar. Si ajustas alguna de las configuraciones anteriores y no ves una reducción en las visitas a páginas de ese agente, es posible que desees verificar que estás utilizando el nombre correcto.

En caso de duda sobre cómo actuar, siempre comienza con la opción “ralentizar” en lugar de un bloqueo total. Verifica con el tiempo si hay mejoras. Puedes proceder con un bloqueo total si no notas resultados apreciables.

Jagster · 9 Noviembre, 2022 12:49

¿Debería haber algún tipo de descargo de responsabilidad de que esto solo funciona con los que se comportan bien? E incluso Google omitirá todo eso cuando provenga de enlaces de Gmail.

sam · 10 Noviembre, 2022 00:55

Ambos se aplican en el servidor.

Sin embargo, si un bot malicioso finge ser Chrome o cualquier otro, falsificando las cabeceras, entonces no podemos usar las cabeceras para detectarlo…

spdegabrielle · 11 Julio, 2023 08:37

Dato impactante: ¡Las tarjetas de vista previa cuentan como una visita a la página!
El servidor que administro parece haber sido inundado con solicitudes de tarjetas de vista previa del tipo http.rb/5.1.0 (Mastodon/4.0.2; + [https://mstdn.science/](https://mstdn.science/))
No creo que se pueda tomar ninguna medida aparte de decirle a los usuarios de Mastodon que incluyan una imagen para que la tarjeta de vista previa no se agregue automáticamente.

terraboss · 23 Abril, 2024 14:33

Ya tengo más de 1500 visitas diarias de rastreadores. ¿Puedo bloquearlos a todos usando Cloudflare DNS? ¿O qué opción se necesita para bloquearlos a todos a la fuerza? (Instancia privada)

Simplemente no los quiero.

Jagster · 23 Abril, 2024 15:16

Usando nginx como proxy inverso y deteniendo los user agents no deseados. Eso ayuda mucho. Bloquear países que no necesitas también ayuda bastante.

No puedo bloquear EE. UU., Francia y Alemania (países con grandes VPS), pero para mí Rusia, Vietnam, Irán, Irak, etc. ayudaron bastante.

Pero Discourse es bastante… ¿resiliente es la palabra correcta? La situación es muy diferente a la de WordPress, donde esos bots de SEO inútiles, atacantes, script kiddies y actores maliciosos pueden arrodillar fácilmente un servidor.

terraboss · 24 Abril, 2024 05:12

Estoy alojando en Hetzner Alemania, con solo dos puertos abiertos en mi firewall (80/443). Y Discourse se ejecuta detrás del NGINX proxy manager (claro, hay mejores soluciones, pero soy una persona perezosa para codificar y me gustan las interfaces web).

Ahora voy a la ruta de lista blanca, con una cadena aleatoria como única entrada permitida… a partir de ahora, no más visitas a la página

PatrickF · 14 Septiembre, 2024 11:30

Una pregunta sobre qué poner exactamente en “ralentizar los agentes de usuario rastreadores”.
Para nosotros, Facebook es el principal culpable, con Bing en un cercano tercer lugar.
El informe muestra los siguientes agentes como los principales rastreadores que consumen visitas a páginas:

¿Qué debe ir exactamente en “ralentizar los agentes de usuario rastreadores”? ¿Estas URLs exactas incluyendo “https” o “http”? ¿O todo después de las barras dobles? ¿O algo más? ¿O simplemente debemos ir por prueba y error?

¡Gracias!

Jagster · 14 Septiembre, 2024 12:39

Para simplificar, deberías usar los nombres de esos bots. Pero puedes usar cualquier parte de la cadena del agente de usuario, pero asegúrate de que no afecte más de lo que deseas.

Ralentizar los bots es una forma muy poco fiable, pero algunos siguen esa regla. Pero estos provienen de tus acciones, etc. y no crean tanta carga de trabajo. WordPress sería otra historia.

Pero esto es parte de mi lista de bots bloqueados. Ya me entiendes.

PatrickF · 14 Septiembre, 2024 12:57

Gracias, @Jagster, muy útil. A veces parece un juego de “dar y quitar”, pero entiendo la idea de usar parte del nombre del rastreador en lugar de todo.

Supongo que es un trabajo en progreso para mí como administrador del sitio. ¡Adelante!

Jagster · 19 Julio, 2025 07:51

Puede haber varias razones, pero Googlebot tiene su presupuesto y, cuando los sitemaps son la forma más importante de encontrar enlaces, nunca llega a los enlaces internos cuando se utiliza el presupuesto diario/semanal/mensual.

Y en un foro, los enlaces internos son importantes para los usuarios, no para Google.

Pero no sé si Googlebot ve los enlaces internos. Debería hacerlo, sin embargo.

Tema		Respuestas	Vistas
Too many Crawlers, is that a problem? Data & reporting	6	2518	25 Junio 2020
Smarter handling of random crawler traffic Feature	2	3499	29 Marzo 2018
MegaIndex bot did about 4,000 pageviews on one day Community	40	4520	2 Diciembre 2023
Web Crawlers Data & reporting	12	1190	31 Julio 2023
Can I ignore some user agents? Support	6	839	23 Agosto 2022

Control de los rastreadores web para un sitio

Comprobación de la actividad de los rastreadores

Identificación de rastreadores específicos

Bloqueo y limitación de rastreadores

Ajuste de la configuración del rastreador

Temas relacionados