Per tua informazione
Per coloro che tengono d’occhio le visualizzazioni di pagina dei loro siti, il 02/07/2022 il nostro sito ha registrato circa 4.000 visualizzazioni di pagina dal bot MegaIndex.ru. Si è sicuramente distinto.
Per tua informazione
Per coloro che tengono d’occhio le visualizzazioni di pagina dei loro siti, il 02/07/2022 il nostro sito ha registrato circa 4.000 visualizzazioni di pagina dal bot MegaIndex.ru. Si è sicuramente distinto.
Grazie per le informazioni.
Non stavo facendo una domanda, ma lo segnalavo ad altri per tenerlo d’occhio. Sembra essere un nuovo crawler che non distribuisce i suoi accessi nel tempo. Forse era la prima volta che vedeva il nostro sito, quindi stava facendo tutte le pagine, ma se continua con questi accessi massicci un giorno indagherò ulteriormente.
Grazie per l’avviso. Questi bot / web indexer / web spider scritti male possono davvero mettere a dura prova un server!
L’ho notato anch’io. È il bot che effettua la maggior parte delle visualizzazioni di pagina sulla mia istanza e subito dopo viene Seekport (35.000 visualizzazioni di pagina in un giorno) e mj12bot. A volte subisco attacchi DOS a causa loro. La funzione anti-bot di Cloudflare mi ha aiutato a limitare la maggior parte di questi bot senza molto monitoraggio.
È possibile rallentare tutti i crawler, aggiungendo di fatto un crawl-delay a robots.txt?
No. Pochi seguono affatto il robots.txt e ancora meno rispettano il ritardo.
Peccato. Sarebbe una buona funzionalità per Discourse.
Per curiosità, il sistema esistente (che ti permette di bloccare ogni crawler ma di aggiungere un ritardo di scansione solo per un elenco finito) funziona tramite disallow e crawl-delay di robots.txt?
Questa è una questione completamente diversa. Anche se, personalmente, ho trovato crawl-delay su un altro sito efficace.
Solo con bot white hat, e non ce ne sono troppi. Tutti gli altri, il rapporto tra buoni e cattivi è più o meno 1:100, non importa cosa hai o non hai in robots.txt. I migliori sembrano solo scoprire dove un sysadmin/webmaster non vuole mostrare e quelli prendono subito quelle direzioni.
(Davvero, agisce come tag html
Discourse non dovrebbe usare solo < > per quello, secondo me)
I bot SEO sono quelli che si comportano davvero male. Ma la maggior parte sta dicendo un user agent falso creato da script kiddies.
Si possono bloccare completamente molti bot ma ciò dovrebbe essere fatto a livello di server, non a livello di applicazione.
Tutto questo è un preambolo. La mia esperienza è stata diversa e vorrei che Discourse permettesse di impostare crawl-delay senza dover nominare singoli crawler.
Ho anche un picco di crawler.
Come posso identificare quale/i crawler sta/stanno abusando delle visualizzazioni di pagina?
È uno dei report predefiniti nella pagina dei report.
Grazie, l’ho trovato.
| User Agent | Pageviews |
|---|---|
| Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 5514 |
| Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) | 5212 |
| Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 1427 |
| Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) | 872 |
Quindi questi picchi provengono da MJ21bot e Nexus 5X Build, che è un bot Google legittimo dopo aver controllato il suo IP nei log di nginx.
Qualche idea sul perché farebbero così tante pageview? MJ12bot sembra legittimo anche lui (almeno, questo è quello che dicono le mie ricerche su Google…). Nota che il forum è online, ma richiede un login per vedere il contenuto. Sarà aperto al pubblico tra qualche giorno.
A volte vedo picchi di crawler sui miei forum, ma durano solo uno o due giorni e poi spariscono per molto tempo.
Esempi:
Controlla gli IP. È anche uno dei finti più usati. Inoltre è totalmente inutile per te, come tutti i cosiddetti bot SEO.
Non so quasi nulla dei crawler. I crawler ufficiali di Google non sono utili per quanto riguarda la SEO? Scusa se sto andando fuori tema.
Dato che sono stato io ad aver aperto l’argomento, non considero la tua domanda fuori tema. Il mio post era un avviso e tu stai solo cercando di capire meglio i dettagli delle informazioni.
Anche se non sono un esperto di SEO, se vuoi che le persone trovino il tuo sito tramite un motore di ricerca, devi consentire al crawler del motore di ricerca di scansionare il tuo sito per creare e aggiornare i suoi indici.
Il problema è che alcuni crawler non portano gli utenti a un sito e, in tal caso, se non si desiderano visite eccessive alla pagina, si chiederà loro di non scansionare il sito utilizzando robots.txt. Tuttavia, i motori di ricerca scadenti ignoreranno robots.txt e si dovrà quindi utilizzare regole del firewall e simili. Il problema diventa quindi l’annoso problema che se qualcuno vuole accedere a un sito aperto (senza login), è difficile bloccarlo perché cambia identità ogni volta. Se si opta per il login obbligatorio, spesso ciò riduce il numero di persone che si iscriveranno.
Per quanto riguarda il post originale, non ho visto un altro aumento massiccio di visualizzazioni di pagine in un giorno dovuto a MeagIndex o ad altri crawler da quando è stato segnalato l’outlier.
Aggiornamento: 13/08/2022
Il bot ha visitato il nostro sito di nuovo il 04/08/2022 (crawler site)
Report: Visualizzazioni di pagina consolidate
Report: User Agent Web Crawler
Report: Sorgente di traffico principale
Chiaramente, consentire al bot MegaIndex.ru/2.0 di indicizzare il sito non sembra generare traffico verso il sito.
Nota: Per quanto ne so, yandex.ru è diverso da Megaindex.ru.
Per bloccare i crawler c’è robots.txt che come notato
https:///admin/customize/robots
ma non tutti i crawler rispetteranno robots.txt. ![]()
Come notato sopra da IAmGav ci sono altre impostazioni per i crawler.
robots.txt non serve a fermare i bot. È una linea guida per i bot che si comportano bene. Questi dovrebbero fermarsi a livello di server. Uno dei motivi principali per cui il mio discourse si trova dietro un reverse proxy.
Il 22/12/2022 https://bot.seekport.com, che è un nuovo bot a me sconosciuto, ha generato un numero sproporzionato di visualizzazioni di pagine
Un picco di attività dei crawler semi-regolari è una cosa usuale. Noi stessi li dividiamo per:
Sulla base della nostra esperienza, non è necessario prendersi cura e proteggersi dall’essere sottoposti a crawling a meno che tu non voglia che le tue informazioni vengano utilizzate per qualsiasi scopo o se riscontri gravi carichi del server a causa di ciò. Alla fine, se il tuo forum/progetto è pubblico, ci sarà sempre un modo per raccogliere i tuoi dati pubblici per qualsiasi scopo ![]()