Come posso capire perché ho un grande picco di visualizzazioni di pagine anonime

Saluti,

Ho notato qualcosa di strano tra il 15 e il 16 febbraio 2022 nella nostra istanza self-hosted di DigitalOcean Discourse. Come mostra l’immagine sottostante, il numero di utenti anonimi al giorno è balzato da circa 1.000 al giorno a una media di 10.000 al giorno. Ho cercato di capirne l’origine ma senza successo.

Non riesco a metterlo in relazione né con le visualizzazioni dei nostri contenuti né con le statistiche di Google Search Console o Google Analytics. Abbiamo anche provato a controllare i log, ma senza grandi risultati.

Qualcuno ha un’idea di cosa possa essere la causa?

La nostra community: https://community.world-like-home.com/

Grazie mille.

1 Mi Piace

Sarebbe quasi impossibile, se non difficile, rispondere in un modo che parli al tuo sito specifico. Quello che puoi fare però per iniziare a capirlo è guardare il rapporto del crawler nella tua dashboard per vedere se è causato dai crawler.

Inoltre, ho modificato il titolo del tuo argomento per renderlo più descrittivo :wink:

2 Mi Piace

Stai ricevendo molti bot.

2 Mi Piace

Grazie @osioke

Ma se fosse stato il crawler, speravo che discourse lo etichettasse esplicitamente come tale? Spero di non perdermi qualcosa?

@Jagster È possibile che discourse conti i bot come utenti anonimi?

2 Mi Piace

L’entità che effettua la richiesta è quella che si identifica come utente “normale” o bot. È un sistema basato sull’onore, con tutti i pro e i contro che ne derivano.

La maggior parte dei malintenzionati nell’ecosistema dei bot non si identificherà come tale ed emetterà richieste mascherate da utenti “normali”, e non c’è molto che Discourse possa fare in quei casi.

Se ti senti a tuo agio con la riga di comando, accedi al tuo server e usa quanto segue per tracciare da dove provengono la maggior parte delle richieste:

cd /var/discourse/shared/standalone/log/var-log/nginx/
grep " 200 "  access.log | awk '{print $4}' | sort | uniq -c | sort -r
4 Mi Piace

Certo, non serve altro che un bot si identifichi come utente. Cambiare un user agent è una cosa davvero banale, persino il tuo browser può farlo. E Discourse conosce solo quei bot che utilizzano… beh, UA conosciuti :wink:

Certo, quelli possono essere anche utenti reali se da qualche parte un sito con più traffico ti linka.

4 Mi Piace

La mia ipotesi è che il PDF caricato lì sia qualcosa che è stato collegato altrove e molte persone lo stanno scaricando direttamente? Quel PDF è qualcosa che è stato caricato da un malintenzionato e sta ricevendo molto traffico per qualche motivo?

2 Mi Piace

Grazie, @pfaffman ma non c’è nessun problema con il pdf, l’ho caricato io stesso. Stavo solo mostrando l’immagine per indicare che non c’è correlazione con le migliaia di utenti anonimi che discourse sta mostrando.

Ok, grazie.

Grazie @Falco
La riga di comando che hai fornito ci ha aiutato a tracciare gli IP responsabili del balzo. Per ora, continueremo la nostra osservazione prima di decidere se vogliamo bloccare i crawler.

4 Mi Piace

Solo per segnalare, nel mio caso la stragrande maggioranza degli accessi sono POST a un endpoint message-bus. In altre parole, probabilmente i browser degli utenti. In un caso ogni minuto e in un altro caso molto più spesso.

"POST /message-bus/<hash>/poll?dlp=t HTTP/1.1"
1 Mi Piace

Queste sono la maggior parte delle richieste in qualsiasi sito Discourse, in effetti, ma non vengono conteggiate come pageview, quindi non si rifletteranno sul grafico “Pageview consolidate” nella dashboard, rendendo questo un po’ fuori tema.

1 Mi Piace

Giusto. Forse potresti aggiungere grep -v POST alla tua pipe?

1 Mi Piace