¿Cómo están lidiando los usuarios autoalojados con los malos crawlers?

eisammy · 10 Abril, 2025 16:02

Leyendo este hilo: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

Me pregunto cómo es para las personas que autohospedan lidiar con rastreadores que prácticamente hacen DDoS sin parar, especialmente en instancias dentro del Fediverso.

Bas · 11 Abril, 2025 08:20

Creo que un buen primer paso es cuantificar por ti mismo qué tan grande es este problema utilizando la métrica “nuevas” visualizaciones de página:

Si ves algo como un 60% de tráfico no humano, probablemente esté bien y no necesites tomar medidas.
Si es un 95%… sí, podría ser hora de empezar a investigar soluciones.

Jagster · 11 Abril, 2025 08:57

Configurar Blocked crawler user agents (agentes de usuario de rastreadores bloqueados) es el amigo del administrador. El tráfico basura no es un gran problema con Discourse porque la carga no es tan pesada. Pero he prohibido a un puñado de los peores porque realmente no me gusta su modelo de negocio. Todos se quejan de cómo las empresas de IA están robando contenido, lo cual están haciendo, pero las empresas de SEO son mucho peores, y sus bots son realmente codiciosos.

Pero también estoy usando geo-blocking (bloqueo geográfico), porque puedo. Hay al menos media docena de países que son fuentes de imitadores y otros actores maliciosos. Pero si un foro es para una audiencia global, eso no es posible, por supuesto.

Con mis sitios de WordPress, lo mismo se hace usando Nginx con la ayuda de Varnish.

En este momento, la proporción de humanos frente a bots es algo así como 50/50 en mi foro.

Jagster · 11 Abril, 2025 08:59

Por cierto, la etiqueta no es correcta, supongo.

RGJ · 11 Abril, 2025 09:22

Estoy de acuerdo, la etiqueta de IA tiene un ícono de complemento, así que supongo que está destinada solo al complemento de IA. La he eliminado.

El contenido de los rastreadores se almacena en caché en gran medida, por lo que en la práctica nunca los he visto capaces de realizar un ataque de denegación de servicio distribuido (DDoS).

¿Estás teniendo problemas de rendimiento debido a esto?

paco · 20 Marzo, 2026 03:41

Desearía poder decir que tengo alguna solución que fuera gratuita, o que no implicara algún servicio externo. Puse mi foro más grande detrás de la CDN de bunny.net. Tienen un generoso nivel gratuito. Pero para ese foro, pago los $10 al mes para obtener su servicio de seguridad. Me permite bloquear rastreadores, DDoS y geográficamente. En cuanto a las CDN, son realmente baratas pero efectivas, y no son CloudFlare. Mucha gente en el fediverso las valora positivamente.

Tengo una gráfica de su servicio Shield. (Soy un novato, ¡solo 1 gráfica por respuesta !) En la primera, hubo 484K conexiones de bots de 2M de conexiones totales. Acababa de cambiar a la CDN y no tenía ningún filtrado o bloqueo activado. La siguiente muestra 11K bots y 90K bloqueados debido a las listas de acceso (bloqueo China y Rusia y tal vez un par de otros). Así que eso es alrededor de 100K de bots de un total de 700K solicitudes esa semana.

Después:

eisammy · 21 Marzo, 2026 09:03

Pero lo hice, apliqué algunas reglas para manejarlo.

Chandler Bing: 'Sí, pero soy mucho más rápido'

darkpixlz · 21 Marzo, 2026 09:20

Cloudflare siempre ha sido amable conmigo y nunca he tenido que pagar por servicios anti-bot. Eso, junto con sus novedades como la protección anti-IA, es genial y lo que me mantiene como cliente y promotor de ellos, supongo. ¿No quieres que rastreadores de IA roben tus datos? Simplemente usa una de sus reglas administradas (aunque es totalmente posible usar solo un robots.txt normal como hago yo en mi sitio).

.. frente a una regla administrada genérica, mucho mejor…

Si estas startups realmente escuchan y respetan el archivo o no, es otra historia, pero me alegro de que al menos lo intenten. Ninguno de mis sitios ha tenido problemas con bots en el pasado y sigo estando repetidamente contento con la capacidad de bloquear exploits comunes de WordPress directamente allí después de leer mis registros.

eisammy · 21 Marzo, 2026 09:54

Facebook (meta) ha hecho algo similar; si deshabilito el ‘control de rastreadores de IA’, meta simplemente realiza 9K solicitudes por hora, por lo que la única forma es bloquearlos a todos.

En el fediverso no he tenido estos problemas por un tiempo, pero estoy esperando más actualizaciones de activitypub porque incluso si no tuve ningún problema con eso, mi ancho de banda se verá afectado por nada.

Absolutamente correcto, estoy usando un servidor lemmy que usa CF y su administrador publicó este tutorial

Lo mismo aquí, mis reglas actuales son:

not (cf.client.bot and (lower(http.user_agent) contains "googlebot" or lower(http.user_agent) contains "bingbot")) and ip.src != IP_BYPASS

Y basándome en ese servidor lemmy de arriba:

(starts_with(http.user_agent, "Mozilla/") and http.request.version in {"HTTP/1.0" "HTTP/1.1" "HTTP/1.2" "SPDY/3.1"} and any(http.request.headers["accept"][*] contains "text/html") and http.user_agent wildcard r"HeadlessChrome/*" and http.request.uri.path contains "/xmlrpc.php" and http.request.uri.path contains "/wp-config.php" and http.request.uri.path contains "/wlwmanifest.xml" and ip.src.asnum in {200373 198571 26496 31815 18450 398101 50673 7393 14061 205544 199610 21501 16125 51540 264649 39020 30083 35540 55293 36943 32244 6724 63949 7203 201924 30633 208046 36352 25264 32475 23033 31898 210920 211252 16276 23470 136907 12876 210558 132203 61317 212238 37963 13238 2639 20473 63018 395954 19437 207990 27411 53667 27176 396507 206575 20454 51167 60781 62240 398493 206092 63023 213230 26347 20738 45102 24940 57523 8100 8560 6939 14178 46606 197540 397630 9009 11878 49453 29802} and http.user_agent wildcard r"Mozilla/*" and not cf.client.bot and not ip.src in {BYPASS_IP_1 RANGE_IP.0/23 RANGE_IP_2/24}) or (ip.src.country in {"T1" "XX"}) or (http.request.version in {"HTTP/1.0" "SPDY/3.1" "HTTP/1.2"})

Para mí es suficiente

Estas reglas me ayudaron a superar un ataque de denegación de servicio distribuido (DDos, no sé si fue eso exactamente) el mes pasado

paco · 21 Marzo, 2026 14:02

Este no es el lugar para discutir realmente los méritos de CloudFlare, pero mi problema con ellos no son las buenas personas como usted. Mi problema con ellos son todas las malas personas con las que están perfectamente dispuestos a hacer negocios. Cualquiera en el mundo de la ciberseguridad que lucha contra el malware y las botnets ve a CloudFlare aparecer con frecuencia. Del mismo modo, cualquiera que luche contra los extremistas en línea sabe con qué frecuencia CloudFlare protegerá sitios extremistas donde otros proveedores no lo harán. No es que no sean efectivos o que sean demasiado caros. Es la falta de moral al seleccionar a su clientela.

Tema		Respuestas	Vistas
Smarter handling of random crawler traffic Feature	1	3563	29 Marzo 2018
Controlling Web Crawlers For a Site Site Management how-to	10	2614	19 Julio 2025
Too many Crawlers, is that a problem? Data & reporting	6	2560	25 Junio 2020
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4750	2 Diciembre 2023
How to deal with sudden high “Other traffic” in site analytics? Support	7	376	28 Agosto 2025

¿Cómo están lidiando los usuarios autoalojados con los malos crawlers?

Temas relacionados