MegaIndex bot ha fatto circa 4.000 pageview in un giorno.

EricGT · 10 Febbraio 2022, 10:35pm

Per tua informazione

Per coloro che tengono d’occhio le visualizzazioni di pagina dei loro siti, il 02/07/2022 il nostro sito ha registrato circa 4.000 visualizzazioni di pagina dal bot MegaIndex.ru. Si è sicuramente distinto.

IAmGav · 10 Febbraio 2022, 10:59pm

potresti bloccarlo o rallentarlo

EricGT · 11 Febbraio 2022, 1:05am

Grazie per le informazioni.

Non stavo facendo una domanda, ma lo segnalavo ad altri per tenerlo d’occhio. Sembra essere un nuovo crawler che non distribuisce i suoi accessi nel tempo. Forse era la prima volta che vedeva il nostro sito, quindi stava facendo tutte le pagine, ma se continua con questi accessi massicci un giorno indagherò ulteriormente.

codinghorror · 11 Febbraio 2022, 1:43am

Grazie per l’avviso. Questi bot / web indexer / web spider scritti male possono davvero mettere a dura prova un server!

Mr.X_Mr.X · 11 Febbraio 2022, 5:06am

L’ho notato anch’io. È il bot che effettua la maggior parte delle visualizzazioni di pagina sulla mia istanza e subito dopo viene Seekport (35.000 visualizzazioni di pagina in un giorno) e mj12bot. A volte subisco attacchi DOS a causa loro. La funzione anti-bot di Cloudflare mi ha aiutato a limitare la maggior parte di questi bot senza molto monitoraggio.

Jonathan5 · 11 Febbraio 2022, 8:21am

È possibile rallentare tutti i crawler, aggiungendo di fatto un crawl-delay a robots.txt?

Jagster · 12 Febbraio 2022, 7:36pm

No. Pochi seguono affatto il robots.txt e ancora meno rispettano il ritardo.

Jonathan5 · 12 Febbraio 2022, 7:50pm

Peccato. Sarebbe una buona funzionalità per Discourse.

Per curiosità, il sistema esistente (che ti permette di bloccare ogni crawler ma di aggiungere un ritardo di scansione solo per un elenco finito) funziona tramite disallow e crawl-delay di robots.txt?

Questa è una questione completamente diversa. Anche se, personalmente, ho trovato crawl-delay su un altro sito efficace.

Jagster · 12 Febbraio 2022, 7:56pm

Solo con bot white hat, e non ce ne sono troppi. Tutti gli altri, il rapporto tra buoni e cattivi è più o meno 1:100, non importa cosa hai o non hai in robots.txt. I migliori sembrano solo scoprire dove un sysadmin/webmaster non vuole mostrare e quelli prendono subito quelle direzioni.

(Davvero, agisce come tag html Discourse non dovrebbe usare solo < > per quello, secondo me)

I bot SEO sono quelli che si comportano davvero male. Ma la maggior parte sta dicendo un user agent falso creato da script kiddies.

Si possono bloccare completamente molti bot ma ciò dovrebbe essere fatto a livello di server, non a livello di applicazione.

Jonathan5 · 12 Febbraio 2022, 8:00pm

Tutto questo è un preambolo. La mia esperienza è stata diversa e vorrei che Discourse permettesse di impostare crawl-delay senza dover nominare singoli crawler.

Canapin · 2 Marzo 2022, 2:05pm

Ho anche un picco di crawler.

Come posso identificare quale/i crawler sta/stanno abusando delle visualizzazioni di pagina?

codinghorror · 2 Marzo 2022, 10:04pm

È uno dei report predefiniti nella pagina dei report.

Canapin · 2 Marzo 2022, 10:49pm

Grazie, l’ho trovato.

User Agent	Pageviews
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	5514
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)	5212
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	1427
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)	872

Quindi questi picchi provengono da MJ21bot e Nexus 5X Build, che è un bot Google legittimo dopo aver controllato il suo IP nei log di nginx.

Qualche idea sul perché farebbero così tante pageview? MJ12bot sembra legittimo anche lui (almeno, questo è quello che dicono le mie ricerche su Google…). Nota che il forum è online, ma richiede un login per vedere il contenuto. Sarà aperto al pubblico tra qualche giorno.

A volte vedo picchi di crawler sui miei forum, ma durano solo uno o due giorni e poi spariscono per molto tempo.

Esempi:

Jagster · 2 Marzo 2022, 11:25pm

Controlla gli IP. È anche uno dei finti più usati. Inoltre è totalmente inutile per te, come tutti i cosiddetti bot SEO.

Canapin · 4 Marzo 2022, 1:08pm

Non so quasi nulla dei crawler. I crawler ufficiali di Google non sono utili per quanto riguarda la SEO? Scusa se sto andando fuori tema.

EricGT · 5 Marzo 2022, 8:19am

Dato che sono stato io ad aver aperto l’argomento, non considero la tua domanda fuori tema. Il mio post era un avviso e tu stai solo cercando di capire meglio i dettagli delle informazioni.

Anche se non sono un esperto di SEO, se vuoi che le persone trovino il tuo sito tramite un motore di ricerca, devi consentire al crawler del motore di ricerca di scansionare il tuo sito per creare e aggiornare i suoi indici.

Il problema è che alcuni crawler non portano gli utenti a un sito e, in tal caso, se non si desiderano visite eccessive alla pagina, si chiederà loro di non scansionare il sito utilizzando robots.txt. Tuttavia, i motori di ricerca scadenti ignoreranno robots.txt e si dovrà quindi utilizzare regole del firewall e simili. Il problema diventa quindi l’annoso problema che se qualcuno vuole accedere a un sito aperto (senza login), è difficile bloccarlo perché cambia identità ogni volta. Se si opta per il login obbligatorio, spesso ciò riduce il numero di persone che si iscriveranno.

Per quanto riguarda il post originale, non ho visto un altro aumento massiccio di visualizzazioni di pagine in un giorno dovuto a MeagIndex o ad altri crawler da quando è stato segnalato l’outlier.

EricGT · 13 Agosto 2022, 12:21pm

Aggiornamento: 13/08/2022

Il bot ha visitato il nostro sito di nuovo il 04/08/2022 (crawler site)

Report: Visualizzazioni di pagina consolidate

Report: User Agent Web Crawler

Report: Sorgente di traffico principale

Chiaramente, consentire al bot MegaIndex.ru/2.0 di indicizzare il sito non sembra generare traffico verso il sito.
Nota: Per quanto ne so, yandex.ru è diverso da Megaindex.ru.

Per bloccare i crawler c’è robots.txt che come notato

https:///admin/customize/robots

ma non tutti i crawler rispetteranno robots.txt.

Come notato sopra da IAmGav ci sono altre impostazioni per i crawler.

Jagster · 14 Agosto 2022, 5:10pm

robots.txt non serve a fermare i bot. È una linea guida per i bot che si comportano bene. Questi dovrebbero fermarsi a livello di server. Uno dei motivi principali per cui il mio discourse si trova dietro un reverse proxy.

EricGT · 11 Gennaio 2023, 8:51am

Il 22/12/2022 https://bot.seekport.com, che è un nuovo bot a me sconosciuto, ha generato un numero sproporzionato di visualizzazioni di pagine

kinetiksoft · 11 Gennaio 2023, 12:16pm

Un picco di attività dei crawler semi-regolari è una cosa usuale. Noi stessi li dividiamo per:

Crawler regolari da motori di ricerca legittimi
Crawler irregolari da motori di ricerca nuovi/personalizzati
Crawler mirati da concorrenti o altri "ricercatori" che possono utilizzare efficacemente i tuoi dati sottoposti a crawling per i loro scopi.

Sulla base della nostra esperienza, non è necessario prendersi cura e proteggersi dall’essere sottoposti a crawling a meno che tu non voglia che le tue informazioni vengano utilizzate per qualsiasi scopo o se riscontri gravi carichi del server a causa di ciò. Alla fine, se il tuo forum/progetto è pubblico, ci sarà sempre un modo per raccogliere i tuoi dati pubblici per qualsiasi scopo

Argomento		Risposte	Visualizzazioni
Pageviews from Anonymous Users have exploded but Google Analytics showed no traffic growth. How to find about where the increase come from? Data & reporting	23	2384	Gennaio 5, 2021
Has anyone seen the OpenAI web crawler GPTBot visit their site? Community Building	11	1929	Giugno 23, 2025
Sudden drop in traffic Community Building	40	4207	Dicembre 15, 2022
Handling Bingbot Feature	29	7435	Novembre 20, 2020
Anonymous views suddenly very high Data & reporting	48	1232	Dicembre 10, 2025

MegaIndex bot ha fatto circa 4.000 pageview in un giorno.

Argomenti correlati