Cosa possono vedere i crawler?

PVIcpaq · 3 Febbraio 2024, 7:15pm

Ci sono alcuni crawler sul nostro sito. C’è il rischio che abbiano accesso ai contenuti?

Qual è un «carico/rischio accettabile del crawler» prima che debba intraprendere procedure di blocco con cui ho poca o nessuna competenza?

HAWK · 3 Febbraio 2024, 7:35pm

Possono indicizzare solo siti pubblici, il che significa che non c’è alcuna violazione della sicurezza. Ma sì, possono accedere ai contenuti pubblici.

Jagster · 3 Febbraio 2024, 8:53pm

Quando il carico è così alto da avere un impatto negativo e dovresti acquistare più CPU e/o RAM. Beh, non so quanto facilmente possa accadere su Discourse perché la soluzione è diversa, ma WordPress basato su PHP è abbastanza facile da mettere in ginocchio. Ma Discourse serve contenuti statici e leggeri per i bot, se sa chi sono umani e chi no. E se un bot fornisce un user agent fortemente falso, cosa può ottenere… molti testi in JSON?

Se un bot si fa strada attraverso il login, la barriera del livello di fiducia, ecc. Immaginerei che il team sarà in modalità panico e ogni mano dovrà tornare subito al lavoro

HAWK · 4 Febbraio 2024, 1:40am

Si noti inoltre che è possibile bloccare facilmente i crawler tramite le impostazioni dell’amministratore.

PVIcpaq · 4 Febbraio 2024, 2:19am

Ti sarei molto grato di sapere come…

HAWK · 4 Febbraio 2024, 2:41am

Controllo dei Web Crawler per un Sito

Jagster · 4 Febbraio 2024, 3:37am

Speriamo che non si tratti solo di modificare robots.txt perché funziona solo con quelli che si comportano bene. In realtà esiste un’unica soluzione efficace ma un po’ più difficile: il proxy inverso.

HAWK · 4 Febbraio 2024, 5:43am

Questo approccio è efficace: lo utilizziamo noi stessi e lo raccomandiamo a chi utilizza il nostro hosting.

Jagster · 4 Febbraio 2024, 7:11am

Dovrei leggere che Discourse sta usando il filtraggio?

HAWK · 4 Febbraio 2024, 7:31pm

Non sono sicuro di cosa stai chiedendo. Non blocchiamo nulla per impostazione predefinita, ma forniamo agli amministratori gli strumenti per essere selettivi.

Jagster · 4 Febbraio 2024, 7:36pm

Quindi ti fidi che i bot a) leggano robots.txt e b) seguano le regole. Beh, quelli che si comportano male non fanno nessuna delle due cose. E siamo tornati al punto di partenza: se i bot sono un problema di qualsiasi tipo, il reverse proxy è la soluzione migliore.

Grazie. Questo mi piacerebbe saperlo.

HAWK · 4 Febbraio 2024, 8:43pm

Ah, capisco cosa intendi. No, non stiamo presumendo che tutti i bot si identifichino come crawler o seguano le regole – è decisamente una scienza inesatta. Stavo semplicemente offrendo un primo punto di mitigazione all’OP.

Stiamo attualmente lavorando a modi per limitare il traffico in modo più specifico, ma non è un compito facile.

anon36555649 · 4 Febbraio 2024, 10:39pm

Ho notato che i numeri dei crawler sono molto più bassi sul sito ospitato da discourse rispetto al sito del server Digital Ocean, con impostazioni predefinite dell’amministratore per entrambi.

Il sito ospitato di solito ha meno di dieci crawler al giorno, con una media di circa 4. A volte ci sono picchi, come l’ultimo giorno di questo gennaio più recente, che ha avuto 77 crawler quel giorno.

Il sito Digital Ocean, con quasi nessuna attività, ha una media di circa 30 crawler al giorno. Non so perché, se questo conta il tipo di server o dominio, ci siano più crawler?

Questi generalmente cercano/indicizzano siti pubblici + contenuti per i motori di ricerca in modo che possano trovarli, il che può essere una buona cosa per i siti se si desidera raggiungere un pubblico più ampio, quindi le persone possono trovare il tuo sito se stanno cercando qualcosa di cui si parla in un sito discourse.

Potrebbero esserci altri scopi per i crawler, non so a cosa servano tutti. Questi sono negati l’accesso per impostazione predefinita nelle impostazioni, cosa che probabilmente già sai:

PVIcpaq · 5 Febbraio 2024, 2:37am

Essendo relativamente analfabeta in fatto di computer, ho seguito le vostre opinioni esperte sul crawling un po’ come uno spettatore disabile che guarda la partita finale degli US Open… Grazie per avermi introdotto a questa parte sconcertante della sicurezza del sito.

Il nostro forum, ospitato in modo così efficiente da Discourse, è altamente confidenziale. Gli utenti che si uniscono su invito sono molto nervosi riguardo alla riservatezza e sto cercando di rassicurarli al meglio delle mie capacità. I crawler potrebbero non essere troppo dannosi (?!), ma vorrei tenerli completamente fuori se possibile, non ci sono utili poiché non abbiamo alcun interesse che i nostri contenuti vengano indicizzati o conosciuti in alcun modo.

Ora mi rendo conto che ottimizzare le impostazioni è la prima cosa da fare. È possibile che le mie impostazioni vengano esaminate da uno del gruppo di supporto di Communitech a questo riguardo?

Grazie per la vostra attenzione.

rahim123 · 5 Febbraio 2024, 3:17am

Ah, è un bene vederlo, pensavo si basasse solo su Redis per servire più rapidamente contenuti renderizzati di recente. Come hai detto, quando il mio forum funzionava con Drupal, i bot malintenzionati e talvolta anche i crawler dei motori di ricerca lo mettevano occasionalmente in ginocchio. Ma ho installato un plugin che creava una cache di file HTML statici delle pagine a cui si accedeva in modo anonimo e creava automaticamente regole di riscrittura Nginx per esse. Nginx le serviva senza avviare il codice PHP di Drupal ed era incredibilmente veloce e poteva gestire un carico di traffico anonimo molto maggiore.

HAWK · 5 Febbraio 2024, 4:04am

Ciao. È piuttosto importante notare che questo non ha implicazioni per la sicurezza. I crawler hanno accesso solo ai siti pubblici. Se hai un sito accessibile solo tramite login, non avranno accesso.

Un’altra precisazione è che Communiteq non è affiliato in alcun modo con noi, quindi se sono i tuoi host, non sei ospitato da Discourse.

RGJ · 5 Febbraio 2024, 4:47pm

Avevo pianificato di inviare una risposta privata, ma questo potrebbe essere utile anche ad altri, quindi la pubblico qui.

Stanno accedendo solo alla tua pagina principale (di accesso) e non sono in grado di accedere al contenuto.

Possono esserlo. A seconda del tipo di crawler, potrebbero rendere accessibili informazioni che non volevi fossero accessibili. Tecnicamente parlando, un crawler può accedere solo a informazioni pubbliche, ma un crawler (e i motori di ricerca associati) sono molto bravi a scoprire informazioni e renderle accessibili.

Quindi diamo un’occhiata alla tua situazione.

Il tuo robots.txt mostra

User-agent: *
Disallow: /

quindi è impostato per negare l’accesso a tutti i crawler dei motori di ricerca.

Tuttavia, questo da solo non è sufficiente, poiché robots.txt si basa sulla cortesia e non viene rispettato dai robot “cattivi”. Un robot cattivo può semplicemente scegliere di ignorare robots.txt. È come un cartello “Vietato l’ingresso!”: un ladro non lo rispetterà.

La principale sicurezza del tuo forum si basa sul fatto che hai abilitato il login richiesto. Questo è sufficiente per tenere fuori qualsiasi crawler.

Anche se abbiamo già stabilito che i crawler non sono in grado di entrare, potrebbe essere utile fare un passo avanti.

Hai anche abilitato solo su invito e consenti nuove registrazioni, e gruppi invitati è impostato su TL2. Ciò significa che persone arbitrarie non possono iscriversi, ma qualsiasi utente di livello TL2 o superiore sarà in grado di invitare altri utenti nella community. Come rete di sicurezza hai abilitato approva utenti, quindi questo è positivo. L’unico modo per accedere alla tua community è essere invitato da qualcuno che è già un membro fidato della community, e un amministratore deve farti entrare.

Se hai domande di supporto relative a un forum ospitato da noi, contatta support@communiteq.com o utilizza l'opzione "Supporto" nel nostro pannello di controllo.

Argomento		Risposte	Visualizzazioni
How to protect myself from bots crawling my Discourse instance? Support	4	1659	Gennaio 21, 2019
Controlling Web Crawlers For a Site Site Management how-to	10	2651	Luglio 19, 2025
Smarter handling of random crawler traffic Feature	1	3568	Marzo 29, 2018
MegaIndex bot did about 4,000 pageviews on one day Community Building	40	4779	Dicembre 2, 2023
How to allow user-agent access to private discourse? Support	8	2110	Novembre 15, 2015

Cosa possono vedere i crawler?

Argomenti correlati