Come gestiscono qui i cattivi spider auto-ospitati?

Leggendo questo thread: Devs say AI crawlers dominate traffic, forcing blocks on entire countries | Hacker News

Mi chiedo come sia per le persone che utilizzano soluzioni self-hosted dover gestire continuamente crawler che effettuano attacchi DDoS non-stop, specialmente sulle istanze all’interno del Fediverso.

2 Mi Piace

Penso che un buon primo passo sia quantificare per te stesso quanto sia grande questo problema utilizzando la metrica “nuova” pageview:

Se vedi circa il 60% di traffico non umano, probabilmente va bene e non devi intraprendere azioni.
Se è il 95%… sì, potrebbe essere il momento di iniziare a indagare sulle soluzioni.

Impostare Blocked crawler user agents è un amico dell’amministratore. Il traffico spazzatura non è un grosso problema con Discourse perché il carico non è così pesante. Ma ho bannato una manciata dei peggiori perché detesto davvero il loro modello di business. Tutti si lamentano di come le aziende di intelligenza artificiale stiano rubando contenuti, cosa che in realtà stanno facendo, ma le società SEO sono molto peggio — e i loro bot sono davvero avidi.

Ma sto usando anche il geo-blocking, perché posso. Ci sono almeno una mezza dozzina di paesi che sono fonti di imitatori e altri attori malevoli. Ma se un forum è per un pubblico globale, questo ovviamente non è possibile.

Con i miei siti WordPress, la stessa cosa viene fatta usando Nginx con l’aiuto di Varnish.

Al momento, il rapporto tra umani e bot è qualcosa come 50/50 nel mio forum.

1 Mi Piace

A proposito, penso che il tag non sia corretto.

Sono d’accordo, il tag AI ha un’icona del plugin, quindi presumo che sia inteso solo per il plugin AI. L’ho rimosso.

Il contenuto dei crawler viene memorizzato nella cache in modo massiccio, quindi in pratica non li ho mai visti in grado di causare un DDoS.
Stai effettivamente riscontrando problemi di prestazioni a causa di questo?

2 Mi Piace