Come gestiscono qui i cattivi spider auto-ospitati?

Leggendo questo thread: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

Mi chiedo come sia per le persone che utilizzano soluzioni self-hosted dover gestire continuamente crawler che effettuano attacchi DDoS non-stop, specialmente sulle istanze all’interno del Fediverso.

2 Mi Piace

Penso che un buon primo passo sia quantificare per te stesso quanto sia grande questo problema utilizzando la metrica “nuova” pageview:

Se vedi circa il 60% di traffico non umano, probabilmente va bene e non devi intraprendere azioni.
Se è il 95%… sì, potrebbe essere il momento di iniziare a indagare sulle soluzioni.

Impostare Blocked crawler user agents è un amico dell’amministratore. Il traffico spazzatura non è un grosso problema con Discourse perché il carico non è così pesante. Ma ho bannato una manciata dei peggiori perché detesto davvero il loro modello di business. Tutti si lamentano di come le aziende di intelligenza artificiale stiano rubando contenuti, cosa che in realtà stanno facendo, ma le società SEO sono molto peggio — e i loro bot sono davvero avidi.

Ma sto usando anche il geo-blocking, perché posso. Ci sono almeno una mezza dozzina di paesi che sono fonti di imitatori e altri attori malevoli. Ma se un forum è per un pubblico globale, questo ovviamente non è possibile.

Con i miei siti WordPress, la stessa cosa viene fatta usando Nginx con l’aiuto di Varnish.

Al momento, il rapporto tra umani e bot è qualcosa come 50/50 nel mio forum.

1 Mi Piace

A proposito, penso che il tag non sia corretto.

Sono d’accordo, il tag AI ha un’icona del plugin, quindi presumo che sia inteso solo per il plugin AI. L’ho rimosso.

Il contenuto dei crawler viene memorizzato nella cache in modo massiccio, quindi in pratica non li ho mai visti in grado di causare un DDoS.
Stai effettivamente riscontrando problemi di prestazioni a causa di questo?

5 Mi Piace

Vorrei poter dire di avere una soluzione gratuita o che non comporti l’utilizzo di un servizio esterno. Ho messo il mio forum più grande dietro il CDN di bunny.net. Hanno un generoso livello gratuito. Ma per quel forum pago i $10 al mese per ottenere il loro servizio di sicurezza. Mi permette di bloccare crawler, DDoS e geograficamente. Come CDN, sono davvero economici ma efficaci, e non sono CloudFlare. Molte persone sul fediverso li valutano positivamente.

Ho un grafico del loro servizio Shield. (Sono un n00b, solo 1 grafico per risposta :slight_smile: ) Nel primo, c’erano 484K connessioni bot su 2M di connessioni totali. Avevo appena fatto il passaggio al CDN e non avevo ancora attivo alcun filtro o blocco. Il successivo mostra 11K bot e 90K bloccati a causa di liste di accesso (blocco Cina e Russia e forse un altro paio). Quindi sono circa 100K di bot su un totale di 700K richieste quella settimana.

Dopo:

2 Mi Piace

Ero, ma ho stabilito alcune regole per gestirlo.

Chandler Bing: 'Sì, ma io sono molto più veloce'

Cloudflare è sempre stata gentile con me e non ho mai dovuto pagare per i servizi anti-bot. Questo e le loro novità come l’anti-IA sono fantastiche e ciò che mi tiene un cliente e un loro sostenitore, immagino. Non vuoi che gli scraper IA rubino i tuoi dati? Basta usare una delle loro regole gestite (tenendo conto che è interamente possibile usare solo il normale robots.txt come faccio io sul mio sito)

.. rispetto a uno gestito generico, molto meglio..

Se queste startup ascoltino e rispettino effettivamente il file o meno è un’altra storia, ma sono contenti che almeno ci provino. Nessuno dei miei siti ha avuto problemi con i bot in passato e sono ancora ripetutamente soddisfatto della possibilità di bloccare direttamente lì i comuni exploit di WordPress dopo aver letto i miei log.

1 Mi Piace

Facebook (Meta) ha fatto qualcosa di simile, se disabilito “AI crawlers control” Meta esegue semplicemente 9.000 richieste all’ora, quindi l’unico modo è bloccarle tutte.

Sul Fediverso non ho questi problemi da un po’, ma aspetto altri aggiornamenti di activitypub perché anche se non ho avuto problemi con esso, la mia larghezza di banda sarà influenzata inutilmente.


Assolutamente corretto, sto usando un server Lemmy che usa CF e il suo amministratore ha pubblicato questo tutorial:


Stessa cosa qui, le mie regole attuali sono:

not (cf.client.bot and (lower(http.user_agent) contains "googlebot" or lower(http.user_agent) contains "bingbot")) and ip.src != IP_BYPASS

E basato su quel server Lemmy sopra:

(starts_with(http.user_agent, "Mozilla/") and http.request.version in {"HTTP/1.0" "HTTP/1.1" "HTTP/1.2" "SPDY/3.1"} and any(http.request.headers["accept"][*] contains "text/html") and http.user_agent wildcard r"HeadlessChrome/*" and http.request.uri.path contains "/xmlrpc.php" and http.request.uri.path contains "/wp-config.php" and http.request.uri.path contains "/wlwmanifest.xml" and ip.src.asnum in {200373 198571 26496 31815 18450 398101 50673 7393 14061 205544 199610 21501 16125 51540 264649 39020 30083 35540 55293 36943 32244 6724 63949 7203 201924 30633 208046 36352 25264 32475 23033 31898 210920 211252 16276 23470 136907 12876 210558 132203 61317 212238 37963 13238 2639 20473 63018 395954 19437 207990 27411 53667 27176 396507 206575 20454 51167 60781 62240 398493 206092 63023 213230 26347 20738 45102 24940 57523 8100 8560 6939 14178 46606 197540 397630 9009 11878 49453 29802} and http.user_agent wildcard r"Mozilla/*" and not cf.client.bot and not ip.src in {BYPASS_IP_1 RANGE_IP.0/23 RANGE_IP_2/24}) or (ip.src.country in {"T1" "XX"}) or (http.request.version in {"HTTP/1.0" "SPDY/3.1" "HTTP/1.2"})

Per me è sufficiente.

Queste regole mi hanno aiutato a superare un DDos (non so se era proprio quello) il mese scorso.

Questo non è il posto per discutere i meriti di CloudFlare, ma il mio problema con loro non sono persone buone come te. Il mio problema con loro è tutta la feccia con cui sono perfettamente disposti a fare affari. Chiunque nel mondo della cybersecurity che combatte malware e botnet vede spesso emergere CloudFlare. Allo stesso modo, chiunque combatta gli estremisti online sa quanto spesso CloudFlare protegga siti estremisti dove altri fornitori non lo fanno. Non è che siano inefficaci o troppo costosi. È la mancanza di moralità nella scelta della loro clientela.

2 Mi Piace