Mi chiedo come sia per le persone che utilizzano soluzioni self-hosted dover gestire continuamente crawler che effettuano attacchi DDoS non-stop, specialmente sulle istanze all’interno del Fediverso.
Penso che un buon primo passo sia quantificare per te stesso quanto sia grande questo problema utilizzando la metrica “nuova” pageview:
Se vedi circa il 60% di traffico non umano, probabilmente va bene e non devi intraprendere azioni.
Se è il 95%… sì, potrebbe essere il momento di iniziare a indagare sulle soluzioni.
Impostare Blocked crawler user agents è un amico dell’amministratore. Il traffico spazzatura non è un grosso problema con Discourse perché il carico non è così pesante. Ma ho bannato una manciata dei peggiori perché detesto davvero il loro modello di business. Tutti si lamentano di come le aziende di intelligenza artificiale stiano rubando contenuti, cosa che in realtà stanno facendo, ma le società SEO sono molto peggio — e i loro bot sono davvero avidi.
Ma sto usando anche il geo-blocking, perché posso. Ci sono almeno una mezza dozzina di paesi che sono fonti di imitatori e altri attori malevoli. Ma se un forum è per un pubblico globale, questo ovviamente non è possibile.
Con i miei siti WordPress, la stessa cosa viene fatta usando Nginx con l’aiuto di Varnish.
Al momento, il rapporto tra umani e bot è qualcosa come 50/50 nel mio forum.
Sono d’accordo, il tag AI ha un’icona del plugin, quindi presumo che sia inteso solo per il plugin AI. L’ho rimosso.
Il contenuto dei crawler viene memorizzato nella cache in modo massiccio, quindi in pratica non li ho mai visti in grado di causare un DDoS.
Stai effettivamente riscontrando problemi di prestazioni a causa di questo?
Vorrei poter dire di avere una soluzione gratuita o che non comporti l’utilizzo di un servizio esterno. Ho messo il mio forum più grande dietro il CDN di bunny.net. Hanno un generoso livello gratuito. Ma per quel forum pago i $10 al mese per ottenere il loro servizio di sicurezza. Mi permette di bloccare crawler, DDoS e geograficamente. Come CDN, sono davvero economici ma efficaci, e non sono CloudFlare. Molte persone sul fediverso li valutano positivamente.
Ho un grafico del loro servizio Shield. (Sono un n00b, solo 1 grafico per risposta ) Nel primo, c’erano 484K connessioni bot su 2M di connessioni totali. Avevo appena fatto il passaggio al CDN e non avevo ancora attivo alcun filtro o blocco. Il successivo mostra 11K bot e 90K bloccati a causa di liste di accesso (blocco Cina e Russia e forse un altro paio). Quindi sono circa 100K di bot su un totale di 700K richieste quella settimana.
Cloudflare è sempre stata gentile con me e non ho mai dovuto pagare per i servizi anti-bot. Questo e le loro novità come l’anti-IA sono fantastiche e ciò che mi tiene un cliente e un loro sostenitore, immagino. Non vuoi che gli scraper IA rubino i tuoi dati? Basta usare una delle loro regole gestite (tenendo conto che è interamente possibile usare solo il normale robots.txt come faccio io sul mio sito)
Se queste startup ascoltino e rispettino effettivamente il file o meno è un’altra storia, ma sono contenti che almeno ci provino. Nessuno dei miei siti ha avuto problemi con i bot in passato e sono ancora ripetutamente soddisfatto della possibilità di bloccare direttamente lì i comuni exploit di WordPress dopo aver letto i miei log.
Facebook (Meta) ha fatto qualcosa di simile, se disabilito “AI crawlers control” Meta esegue semplicemente 9.000 richieste all’ora, quindi l’unico modo è bloccarle tutte.
Sul Fediverso non ho questi problemi da un po’, ma aspetto altri aggiornamenti di activitypub perché anche se non ho avuto problemi con esso, la mia larghezza di banda sarà influenzata inutilmente.
Questo non è il posto per discutere i meriti di CloudFlare, ma il mio problema con loro non sono persone buone come te. Il mio problema con loro è tutta la feccia con cui sono perfettamente disposti a fare affari. Chiunque nel mondo della cybersecurity che combatte malware e botnet vede spesso emergere CloudFlare. Allo stesso modo, chiunque combatta gli estremisti online sa quanto spesso CloudFlare protegga siti estremisti dove altri fornitori non lo fanno. Non è che siano inefficaci o troppo costosi. È la mancanza di moralità nella scelta della loro clientela.