¿Cómo están lidiando los usuarios autoalojados con los malos crawlers?

Leyendo este hilo: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

Me pregunto cómo es para las personas que autohospedan lidiar con rastreadores que prácticamente hacen DDoS sin parar, especialmente en instancias dentro del Fediverso.

2 Me gusta

Creo que un buen primer paso es cuantificar por ti mismo qué tan grande es este problema utilizando la métrica “nuevas” visualizaciones de página:

Si ves algo como un 60% de tráfico no humano, probablemente esté bien y no necesites tomar medidas.
Si es un 95%… sí, podría ser hora de empezar a investigar soluciones.

Configurar Blocked crawler user agents (agentes de usuario de rastreadores bloqueados) es el amigo del administrador. El tráfico basura no es un gran problema con Discourse porque la carga no es tan pesada. Pero he prohibido a un puñado de los peores porque realmente no me gusta su modelo de negocio. Todos se quejan de cómo las empresas de IA están robando contenido, lo cual están haciendo, pero las empresas de SEO son mucho peores, y sus bots son realmente codiciosos.

Pero también estoy usando geo-blocking (bloqueo geográfico), porque puedo. Hay al menos media docena de países que son fuentes de imitadores y otros actores maliciosos. Pero si un foro es para una audiencia global, eso no es posible, por supuesto.

Con mis sitios de WordPress, lo mismo se hace usando Nginx con la ayuda de Varnish.

En este momento, la proporción de humanos frente a bots es algo así como 50/50 en mi foro.

1 me gusta

Por cierto, la etiqueta no es correcta, supongo.

Estoy de acuerdo, la etiqueta de IA tiene un ícono de complemento, así que supongo que está destinada solo al complemento de IA. La he eliminado.

El contenido de los rastreadores se almacena en caché en gran medida, por lo que en la práctica nunca los he visto capaces de realizar un ataque de denegación de servicio distribuido (DDoS).

¿Estás teniendo problemas de rendimiento debido a esto?

2 Me gusta