Me pregunto cómo es para las personas que autohospedan lidiar con rastreadores que prácticamente hacen DDoS sin parar, especialmente en instancias dentro del Fediverso.
Creo que un buen primer paso es cuantificar por ti mismo qué tan grande es este problema utilizando la métrica “nuevas” visualizaciones de página:
Si ves algo como un 60% de tráfico no humano, probablemente esté bien y no necesites tomar medidas.
Si es un 95%… sí, podría ser hora de empezar a investigar soluciones.
Configurar Blocked crawler user agents (agentes de usuario de rastreadores bloqueados) es el amigo del administrador. El tráfico basura no es un gran problema con Discourse porque la carga no es tan pesada. Pero he prohibido a un puñado de los peores porque realmente no me gusta su modelo de negocio. Todos se quejan de cómo las empresas de IA están robando contenido, lo cual están haciendo, pero las empresas de SEO son mucho peores, y sus bots son realmente codiciosos.
Pero también estoy usando geo-blocking (bloqueo geográfico), porque puedo. Hay al menos media docena de países que son fuentes de imitadores y otros actores maliciosos. Pero si un foro es para una audiencia global, eso no es posible, por supuesto.
Con mis sitios de WordPress, lo mismo se hace usando Nginx con la ayuda de Varnish.
En este momento, la proporción de humanos frente a bots es algo así como 50/50 en mi foro.
Estoy de acuerdo, la etiqueta de IA tiene un ícono de complemento, así que supongo que está destinada solo al complemento de IA. La he eliminado.
El contenido de los rastreadores se almacena en caché en gran medida, por lo que en la práctica nunca los he visto capaces de realizar un ataque de denegación de servicio distribuido (DDoS).
¿Estás teniendo problemas de rendimiento debido a esto?
Desearía poder decir que tengo alguna solución que fuera gratuita, o que no implicara algún servicio externo. Puse mi foro más grande detrás de la CDN de bunny.net. Tienen un generoso nivel gratuito. Pero para ese foro, pago los $10 al mes para obtener su servicio de seguridad. Me permite bloquear rastreadores, DDoS y geográficamente. En cuanto a las CDN, son realmente baratas pero efectivas, y no son CloudFlare. Mucha gente en el fediverso las valora positivamente.
Tengo una gráfica de su servicio Shield. (Soy un novato, ¡solo 1 gráfica por respuesta !) En la primera, hubo 484K conexiones de bots de 2M de conexiones totales. Acababa de cambiar a la CDN y no tenía ningún filtrado o bloqueo activado. La siguiente muestra 11K bots y 90K bloqueados debido a las listas de acceso (bloqueo China y Rusia y tal vez un par de otros). Así que eso es alrededor de 100K de bots de un total de 700K solicitudes esa semana.
Cloudflare siempre ha sido amable conmigo y nunca he tenido que pagar por servicios anti-bot. Eso, junto con sus novedades como la protección anti-IA, es genial y lo que me mantiene como cliente y promotor de ellos, supongo. ¿No quieres que rastreadores de IA roben tus datos? Simplemente usa una de sus reglas administradas (aunque es totalmente posible usar solo un robots.txt normal como hago yo en mi sitio).
Si estas startups realmente escuchan y respetan el archivo o no, es otra historia, pero me alegro de que al menos lo intenten. Ninguno de mis sitios ha tenido problemas con bots en el pasado y sigo estando repetidamente contento con la capacidad de bloquear exploits comunes de WordPress directamente allí después de leer mis registros.
Facebook (meta) ha hecho algo similar; si deshabilito el ‘control de rastreadores de IA’, meta simplemente realiza 9K solicitudes por hora, por lo que la única forma es bloquearlos a todos.
En el fediverso no he tenido estos problemas por un tiempo, pero estoy esperando más actualizaciones de activitypub porque incluso si no tuve ningún problema con eso, mi ancho de banda se verá afectado por nada.
Este no es el lugar para discutir realmente los méritos de CloudFlare, pero mi problema con ellos no son las buenas personas como usted. Mi problema con ellos son todas las malas personas con las que están perfectamente dispuestos a hacer negocios. Cualquiera en el mundo de la ciberseguridad que lucha contra el malware y las botnets ve a CloudFlare aparecer con frecuencia. Del mismo modo, cualquiera que luche contra los extremistas en línea sabe con qué frecuencia CloudFlare protegerá sitios extremistas donde otros proveedores no lo harán. No es que no sean efectivos o que sean demasiado caros. Es la falta de moral al seleccionar a su clientela.