MegaIndex bot erzielte an einem Tag rund 4.000 Seitenaufrufe.

EricGT · 10. Februar 2022 um 22:35

Zur gefälligen Kenntnisnahme

Für diejenigen, die ihre Seitenaufrufe im Auge behalten: Am 02.07.2022 verzeichnete unsere Website etwa 4.000 Seitenaufrufe durch den Bot MegaIndex.ru. Das fiel definitiv auf.

IAmGav · 10. Februar 2022 um 22:59

Sie könnten es entweder blockieren oder verlangsamen

EricGT · 11. Februar 2022 um 01:05

Danke für die Info.

Ich habe keine Frage gestellt, sondern andere darauf hingewiesen, wachsam zu sein. Es scheint ein neuer Crawler zu sein, der seine Zugriffe nicht über die Zeit verteilt. Vielleicht war dies das erste Mal, dass er unsere Seite gesehen hat, und hat deshalb alle Seiten abgerufen, aber wenn er mit diesen massiven Zugriffen an einem Tag fortfährt, werde ich mehr untersuchen.

codinghorror · 11. Februar 2022 um 01:43

Danke für den Hinweis. Diese schlecht geschriebenen Bots / Web-Indexer / Web-Spider können einen Server wirklich zum Absturz bringen!

Mr.X_Mr.X · 11. Februar 2022 um 05:06

Ist mir auch aufgefallen. Es ist der Bot, der die meisten Seitenaufrufe auf meiner Instanz verursacht, gefolgt von Seekport (35.000 Seitenaufrufe an einem Tag) und mj12bot. Ich werde manchmal wegen ihnen mit DOS angegriffen. Die Anti-Bot-Funktion von Cloudflare hat mir geholfen, die meisten dieser Bots ohne viel Überwachung einzudämmen.

Jonathan5 · 11. Februar 2022 um 08:21

Ist es möglich, alle Crawler zu verlangsamen – effektiv eine crawl-delay-Anweisung in der robots.txt hinzuzufügen?

Jagster · 12. Februar 2022 um 19:36

Nein. Nur wenige halten sich überhaupt an robots.txt und noch weniger befolgen die Verzögerung.

Jonathan5 · 12. Februar 2022 um 19:50

Das ist schade. Es wäre eine gute Funktion für Discourse.

Interessenshalber: Funktioniert das bestehende System (das es Ihnen erlaubt, jeden Crawler zu blockieren, aber nur eine Crawl-Verzögerung für eine endliche Liste hinzuzufügen) über robots.txt disallow und crawl-delay?

Das ist eine ganz andere Sache. Obwohl ich persönlich crawl-delay auf einer anderen Website als wirksam empfunden habe.

Jagster · 12. Februar 2022 um 19:56

Nur mit White-Hat-Bots, und davon gibt es nicht allzu viele. Alle anderen, das Verhältnis von guten zu schlechten ist mehr oder weniger 1:100, denen ist es egal, was du in der robots.txt hast oder nicht. Die besten scheinen nur herauszufinden, wo ein Systemadministrator/Webmaster nicht hin will und diese Richtungen sofort einschlagen.

(Wirklich, wirkt wie ein HTML-Tag Discourse sollte meiner Meinung nach nicht nur < > dafür verwenden)

SEO-Bots sind wirklich schlecht erzogene Bots. Aber die Mehrheit gibt einen gefälschten User-Agent an, der von Script Kiddies erstellt wurde.

Man kann viele Bots komplett stoppen, aber das sollte auf Serverebene geschehen, nicht auf App-Ebene.

Jonathan5 · 12. Februar 2022 um 20:00

Das ist alles nebensächlich. Meine Erfahrung war anders und ich möchte, dass Discourse es erlaubt, crawl-delay festzulegen, ohne einzelne Crawler benennen zu müssen.

Canapin · 2. März 2022 um 14:05

Ich habe auch einen Anstieg von Crawlern.

Wie kann ich identifizieren, welcher Crawler die Seitenaufrufe missbraucht?

codinghorror · 2. März 2022 um 22:04

Es ist einer der integrierten Berichte auf der Berichtsseite.

Canapin · 2. März 2022 um 22:49

Danke, gefunden.

User Agent	Seitenaufrufe
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	5514
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)	5212
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	1427
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)	872

Diese Spitzen stammen also von MJ21bot und Nexus 5X Build, was nach Überprüfung seiner IP in den Nginx-Protokollen ein legitimer Google-Bot ist.

Irgendeine Idee, warum sie so viele Seitenaufrufe tätigen sollten? MJ12bot scheint auch legitim zu sein (zumindest sagen das meine Google-Suchen…). Beachten Sie, dass das Forum online ist, aber eine Anmeldung erfordert, um den Inhalt anzuzeigen. Es wird in wenigen Tagen öffentlich zugänglich sein.

Ich sehe manchmal Crawler-Spitzen in meinen Foren, aber sie dauern nur ein oder zwei Tage und verschwinden dann für lange Zeit.

Beispiele:

Jagster · 2. März 2022 um 23:25

Überprüfen Sie die IPs. Es ist auch eine der am häufigsten verwendeten gefälschten. Außerdem ist es für Sie völlig nutzlos, wie alle sogenannten SEO-Bots.

Canapin · 4. März 2022 um 13:08

Ich weiß so gut wie nichts über Crawler. Sind die offiziellen Google-Crawler nicht nützlich in Bezug auf SEO? Entschuldigen Sie, falls ich vom Thema abkomme.

EricGT · 5. März 2022 um 08:19

Da ich derjenige bin, der das Thema begonnen hat, sehe ich Ihre Frage nicht als vom Thema abweichend an. Mein Beitrag war eine Information und Sie versuchen lediglich, die Details der Informationen besser zu verstehen.

Obwohl ich kein SEO Experte bin, wenn Sie möchten, dass Leute Ihre Website über eine Suchmaschine finden, müssen Sie dem Suchmaschinen-Crawler erlauben, Ihre Website zu crawlen, um seine Indizes zu erstellen und zu aktualisieren.

Das Problem ist, dass einige Crawler Benutzer nicht zu einer Website führen und wenn das der Fall ist und Sie keine übermäßigen Seitenaufrufe wünschen, würden Sie darum bitten, dass sie Ihre Website nicht über robots.txt crawlen. Schlechte Suchmaschinen ignorieren jedoch robots.txt und man müsste dann Firewall-Regeln und Ähnliches verwenden. Das Problem wird dann das alte Problem, dass es schwierig ist, jemanden zu blockieren, der Zugang zu einer offenen Website (ohne Login) erhalten möchte, da er jedes Mal seine Identität ändert. Wenn man sich für eine Anmeldung entscheidet, reduziert das oft die Anzahl der Leute, die sich anmelden werden.

In Bezug auf den ursprünglichen Beitrag habe ich seit dem gemeldeten Ausreißer keinen weiteren massiven Anstieg der Seitenaufrufe an einem Tag aufgrund von MeagIndex oder einem anderen Crawler mehr gesehen.

EricGT · 13. August 2022 um 12:21

Update: 08/13/2022

Der Bot hat unsere Seite am 08.04.2022 erneut besucht (Crawler-Seite)

Bericht: Konsolidierte Seitenaufrufe

Bericht: Web-Crawler-User-Agents

Bericht: Top-Traffic-Quelle

Offensichtlich scheint das Indizieren der Website durch den Bot MegaIndex.ru/2.0 keinen Traffic auf die Website zu generieren.
Hinweis: Soweit ich weiß, ist yandex.ru etwas anderes als Megaindex.ru.

Zum Blockieren von Crawlern gibt es robots.txt, wie bereits erwähnt

https:///admin/customize/robots

aber nicht alle Crawler werden robots.txt respektieren.

Wie bereits oben von IAmGav erwähnt, gibt es andere Crawler-Einstellungen.

Jagster · 14. August 2022 um 17:10

robots.txt dient nicht dazu, Bots aufzuhalten. Es ist eine Richtlinie für gut funktionierende Bots. Diese sollten auf Serverebene gestoppt werden. Einer der größten Gründe, warum mein Discourse hinter einem Reverse-Proxy steht.

EricGT · 11. Januar 2023 um 08:51

Am 22.12.2022 hat https://bot.seekport.com, ein mir neuer und unbekannter Bot, eine übermäßige Anzahl von Seitenaufrufen generiert.

kinetiksoft · 11. Januar 2023 um 12:16

Ein Anstieg der Aktivität von Semi-Regular-Crawlern ist üblich. Wir selbst unterteilen diese in:\n* Regelmäßige Crawler von legitimen Suchmaschinen\n* Unregelmäßige Crawler von neuen/benutzerdefinierten Suchmaschinen\n* Gezielte Crawler von Wettbewerbern oder anderen „Forschern“, die Ihre gecrawlten Daten effektiv für ihre Zwecke nutzen können.\n\nNach unserer Erfahrung ist es nicht notwendig, sich vor dem Crawling zu schützen, es sei denn, Sie möchten nicht, dass Ihre Informationen für irgendeinen Zweck verwendet werden, oder Sie erleben dadurch eine starke Serverauslastung. Wenn Ihr Forum/Projekt öffentlich ist, wird es letztendlich immer einen Weg geben, Ihre öffentlichen Daten für jeden Zweck zu sammeln \n\n\n

Thema		Antworten	Aufrufe
Pageviews from Anonymous Users have exploded but Google Analytics showed no traffic growth. How to find about where the increase come from? Data & reporting	23	2461	5. Januar 2021
Has anyone seen the OpenAI web crawler GPTBot visit their site? Community Building	11	2017	23. Juni 2025
Sudden drop in traffic Community Building	40	4375	15. Dezember 2022
Handling Bingbot Feature	29	7516	20. November 2020
Anonymous views suddenly very high Data & reporting	48	1448	10. Dezember 2025

MegaIndex bot erzielte an einem Tag rund 4.000 Seitenaufrufe.

Verwandte Themen