Cosa possono vedere i crawler?

Ci sono alcuni crawler sul nostro sito. C’è il rischio che abbiano accesso ai contenuti?

Qual è un «carico/rischio accettabile del crawler» prima che debba intraprendere procedure di blocco con cui ho poca o nessuna competenza?

Possono indicizzare solo siti pubblici, il che significa che non c’è alcuna violazione della sicurezza. Ma sì, possono accedere ai contenuti pubblici.

2 Mi Piace

Quando il carico è così alto da avere un impatto negativo e dovresti acquistare più CPU e/o RAM. Beh, non so quanto facilmente possa accadere su Discourse perché la soluzione è diversa, ma WordPress basato su PHP è abbastanza facile da mettere in ginocchio. Ma Discourse serve contenuti statici e leggeri per i bot, se sa chi sono umani e chi no. E se un bot fornisce un user agent fortemente falso, cosa può ottenere… molti testi in JSON?

Se un bot si fa strada attraverso il login, la barriera del livello di fiducia, ecc. Immaginerei che il team sarà in modalità panico e ogni mano dovrà tornare subito al lavoro :winking_face_with_tongue:

Si noti inoltre che è possibile bloccare facilmente i crawler tramite le impostazioni dell’amministratore.

Ti sarei molto grato di sapere come…

Controllo dei Web Crawler per un Sito

1 Mi Piace

Speriamo che non si tratti solo di modificare robots.txt perché funziona solo con quelli che si comportano bene. In realtà esiste un’unica soluzione efficace ma un po’ più difficile: il proxy inverso.

Questo approccio è efficace: lo utilizziamo noi stessi e lo raccomandiamo a chi utilizza il nostro hosting.

Dovrei leggere che Discourse sta usando il filtraggio?

Non sono sicuro di cosa stai chiedendo. Non blocchiamo nulla per impostazione predefinita, ma forniamo agli amministratori gli strumenti per essere selettivi.

Quindi ti fidi che i bot a) leggano robots.txt e b) seguano le regole. Beh, quelli che si comportano male non fanno nessuna delle due cose. E siamo tornati al punto di partenza: se i bot sono un problema di qualsiasi tipo, il reverse proxy è la soluzione migliore.

Grazie. Questo mi piacerebbe saperlo.

Ah, capisco cosa intendi. No, non stiamo presumendo che tutti i bot si identifichino come crawler o seguano le regole – è decisamente una scienza inesatta. Stavo semplicemente offrendo un primo punto di mitigazione all’OP.

Stiamo attualmente lavorando a modi per limitare il traffico in modo più specifico, ma non è un compito facile.

1 Mi Piace

Ho notato che i numeri dei crawler sono molto più bassi sul sito ospitato da discourse rispetto al sito del server Digital Ocean, con impostazioni predefinite dell’amministratore per entrambi.

Il sito ospitato di solito ha meno di dieci crawler al giorno, con una media di circa 4. A volte ci sono picchi, come l’ultimo giorno di questo gennaio più recente, che ha avuto 77 crawler quel giorno.

Il sito Digital Ocean, con quasi nessuna attività, ha una media di circa 30 crawler al giorno. Non so perché, se questo conta il tipo di server o dominio, ci siano più crawler?

Questi generalmente cercano/indicizzano siti pubblici + contenuti per i motori di ricerca in modo che possano trovarli, il che può essere una buona cosa per i siti se si desidera raggiungere un pubblico più ampio, quindi le persone possono trovare il tuo sito se stanno cercando qualcosa di cui si parla in un sito discourse.

Potrebbero esserci altri scopi per i crawler, non so a cosa servano tutti. Questi sono negati l’accesso per impostazione predefinita nelle impostazioni, cosa che probabilmente già sai:

Essendo relativamente analfabeta in fatto di computer, ho seguito le vostre opinioni esperte sul crawling un po’ come uno spettatore disabile che guarda la partita finale degli US Open… Grazie per avermi introdotto a questa parte sconcertante della sicurezza del sito.

Il nostro forum, ospitato in modo così efficiente da Discourse, è altamente confidenziale. Gli utenti che si uniscono su invito sono molto nervosi riguardo alla riservatezza e sto cercando di rassicurarli al meglio delle mie capacità. I crawler potrebbero non essere troppo dannosi (?!), ma vorrei tenerli completamente fuori se possibile, non ci sono utili poiché non abbiamo alcun interesse che i nostri contenuti vengano indicizzati o conosciuti in alcun modo.

Ora mi rendo conto che ottimizzare le impostazioni è la prima cosa da fare. È possibile che le mie impostazioni vengano esaminate da uno del gruppo di supporto di Communitech a questo riguardo?

Grazie per la vostra attenzione.

1 Mi Piace

Ah, è un bene vederlo, pensavo si basasse solo su Redis per servire più rapidamente contenuti renderizzati di recente. Come hai detto, quando il mio forum funzionava con Drupal, i bot malintenzionati e talvolta anche i crawler dei motori di ricerca lo mettevano occasionalmente in ginocchio. Ma ho installato un plugin che creava una cache di file HTML statici delle pagine a cui si accedeva in modo anonimo e creava automaticamente regole di riscrittura Nginx per esse. Nginx le serviva senza avviare il codice PHP di Drupal ed era incredibilmente veloce e poteva gestire un carico di traffico anonimo molto maggiore.

1 Mi Piace

Ciao. È piuttosto importante notare che questo non ha implicazioni per la sicurezza. I crawler hanno accesso solo ai siti pubblici. Se hai un sito accessibile solo tramite login, non avranno accesso.

Un’altra precisazione è che Communiteq non è affiliato in alcun modo con noi, quindi se sono i tuoi host, non sei ospitato da Discourse. :slightly_smiling_face:

2 Mi Piace

Avevo pianificato di inviare una risposta privata, ma questo potrebbe essere utile anche ad altri, quindi la pubblico qui.

Stanno accedendo solo alla tua pagina principale (di accesso) e non sono in grado di accedere al contenuto.

Possono esserlo. A seconda del tipo di crawler, potrebbero rendere accessibili informazioni che non volevi fossero accessibili. Tecnicamente parlando, un crawler può accedere solo a informazioni pubbliche, ma un crawler (e i motori di ricerca associati) sono molto bravi a scoprire informazioni e renderle accessibili.

Quindi diamo un’occhiata alla tua situazione.

Il tuo robots.txt mostra

User-agent: *
Disallow: /

quindi è impostato per negare l’accesso a tutti i crawler dei motori di ricerca. :white_check_mark:

Tuttavia, questo da solo non è sufficiente, poiché robots.txt si basa sulla cortesia e non viene rispettato dai robot “cattivi”. Un robot cattivo può semplicemente scegliere di ignorare robots.txt. È come un cartello “Vietato l’ingresso!”: un ladro non lo rispetterà.

La principale sicurezza del tuo forum si basa sul fatto che hai abilitato il login richiesto. Questo è sufficiente per tenere fuori qualsiasi crawler. :white_check_mark:

Anche se abbiamo già stabilito che i crawler non sono in grado di entrare, potrebbe essere utile fare un passo avanti.

Hai anche abilitato solo su invito e consenti nuove registrazioni, e gruppi invitati è impostato su TL2. Ciò significa che persone arbitrarie non possono iscriversi, ma qualsiasi utente di livello TL2 o superiore sarà in grado di invitare altri utenti nella community. Come rete di sicurezza hai abilitato approva utenti, quindi questo è positivo. L’unico modo per accedere alla tua community è essere invitato da qualcuno che è già un membro fidato della community, e un amministratore deve farti entrare. :white_check_mark:

Se hai domande di supporto relative a un forum ospitato da noi, contatta support@communiteq.com o utilizza l'opzione "Supporto" nel nostro pannello di controllo.
4 Mi Piace