Vedere traffico di utenti anonimi e crawler, anche se il sito è privato

Amo gestire un’istanza privata di Discourse e non ho potuto fare a meno di notare che nel mio cruscotto vengono registrati alcuni utenti anonimi e traffico di crawler web. Ora che osservo più da vicino, vedo che ciò accadeva anche prima, ma in quantità minori.

Ho attivato l’opzione “accesso richiesto” e abbiamo configurato il nostro SSO per consentire l’accesso solo agli utenti che soddisfano determinati criteri. C’è un’altra impostazione che dovrei abilitare? Grazie! : )

Non dovresti dover fare nulla in più… quel traffico dei crawler proviene probabilmente da crawler che colpiscono community.yoursite.com/login. Se controlli community.example.com/admin/reports/web_crawlers puoi vedere quanto spesso i singoli crawler colpiscono il tuo sito.

Ci sono alcune cose che puoi fare per ridurre il traffico dei crawler…

  • Prova a disabilitare l’accesso a /login per i crawler nel file robots.txt (community.example.com/admin/customize/robots)… dovresti vedere una riduzione del traffico dei crawler (anche se probabilmente non completa, poiché esistono crawler che non rispettano robots.txt)

  • Dai un’occhiata ai peggiori responsabili in /admin/reports/web_crawlers e aggiungi i loro user-agent alle impostazioni del sito “user-agent dei crawler bloccati”

Oltre a quanto scritto da Kris, all’inizio di ogni richiesta di accesso tramite SSO verrà effettuata anche una richiesta anonima alla pagina di accesso o alla home page del tuo sito.

Le pagine dei Termini di servizio e della Privacy del tuo sito possono inoltre essere probabilmente accessibili anche agli utenti anonimi.

Se utilizzi un VPS o hai Nginx (anche Apache funziona, ma Nginx è più facile :wink: ) davanti a Discourse, il blocco dei bot è molto più semplice. L’interfaccia di Discourse non è così facile da usare, perché fuori ci sono moltissimi bot. Il file robots.txt è quasi inutile, dato che pochissimi lo rispettano, nemmeno Google.

Il problema non sono i tentativi di accesso ai tuoi server da parte di chi cerca di entrare in Discourse. Tutto il resto è ciò che cercano:

  • Centinaia di script kiddie verificano se hai WordPress e cercano di sfruttare vulnerabilità, per lo più vecchie, ma comunque presenti
  • I crawler SEO e altri spider tentano di analizzare il tuo contenuto, principalmente perché vogliono monetizzarlo
  • E naturalmente, i motori di ricerca

Questi non causano danni reali come un’intrusione, ma servirli costa denaro puro.

Il problema è che il tuo server deve rispondere a tutti loro. Presto la maggior parte del carico sarà generata da bot, non da utenti reali. È una situazione del tutto normale avere circa 50-500 bot per ogni utente effettivo.

E tu pagherai per tutto questo.

Non ho un pubblico globale perché i miei siti, incluso Discourse, sono esclusivamente in finlandese. Quindi ho uno strumento potente a mia disposizione, ma può essere utilizzato solo su VPS: il blocco geografico.

Mi dispiace molto per i nostri amici di Russia, Cina, India, Pakistan, Iran, Iraq e Vietnam, ma quando ho bloccato i vostri paesi, il carico dei bot è diminuito di circa il 90%.

La lotta contro i bot è una battaglia senza fine. E gli strumenti di Discourse, quando un forum non è privato, sono molto limitati. Ma certo, meglio di niente.

Non fraintendetemi. Non sto dicendo che un’applicazione dovrebbe fare qualcosa che è compito del server. Voglio solo dire che non potete affidarvi solo a Discourse.