Come gestiscono qui i cattivi spider auto-ospitati?

eisammy · 10 Aprile 2025, 4:02pm

Leggendo questo thread: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

Mi chiedo come sia per le persone che utilizzano soluzioni self-hosted dover gestire continuamente crawler che effettuano attacchi DDoS non-stop, specialmente sulle istanze all’interno del Fediverso.

Bas · 11 Aprile 2025, 8:20am

Penso che un buon primo passo sia quantificare per te stesso quanto sia grande questo problema utilizzando la metrica “nuova” pageview:

Se vedi circa il 60% di traffico non umano, probabilmente va bene e non devi intraprendere azioni.
Se è il 95%… sì, potrebbe essere il momento di iniziare a indagare sulle soluzioni.

Jagster · 11 Aprile 2025, 8:57am

Impostare Blocked crawler user agents è un amico dell’amministratore. Il traffico spazzatura non è un grosso problema con Discourse perché il carico non è così pesante. Ma ho bannato una manciata dei peggiori perché detesto davvero il loro modello di business. Tutti si lamentano di come le aziende di intelligenza artificiale stiano rubando contenuti, cosa che in realtà stanno facendo, ma le società SEO sono molto peggio — e i loro bot sono davvero avidi.

Ma sto usando anche il geo-blocking, perché posso. Ci sono almeno una mezza dozzina di paesi che sono fonti di imitatori e altri attori malevoli. Ma se un forum è per un pubblico globale, questo ovviamente non è possibile.

Con i miei siti WordPress, la stessa cosa viene fatta usando Nginx con l’aiuto di Varnish.

Al momento, il rapporto tra umani e bot è qualcosa come 50/50 nel mio forum.

Jagster · 11 Aprile 2025, 8:59am

A proposito, penso che il tag non sia corretto.

RGJ · 11 Aprile 2025, 9:22am

Sono d’accordo, il tag AI ha un’icona del plugin, quindi presumo che sia inteso solo per il plugin AI. L’ho rimosso.

Il contenuto dei crawler viene memorizzato nella cache in modo massiccio, quindi in pratica non li ho mai visti in grado di causare un DDoS.
Stai effettivamente riscontrando problemi di prestazioni a causa di questo?

Argomento		Risposte	Visualizzazioni
Smarter handling of random crawler traffic Feature	2	3538	Marzo 29, 2018
Controlling Web Crawlers For a Site Site Management how-to	10	2472	Luglio 19, 2025
Too many Crawlers, is that a problem? Data & reporting	6	2534	Giugno 25, 2020
How to deal with sudden high “Other traffic” in site analytics? Support	8	238	Agosto 28, 2025
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4550	Dicembre 2, 2023

Come gestiscono qui i cattivi spider auto-ospitati?

Argomenti correlati