MegaIndex bot erzielte an einem Tag rund 4.000 Seitenaufrufe.

Zur gefälligen Kenntnisnahme

Für diejenigen, die ihre Seitenaufrufe im Auge behalten: Am 02.07.2022 verzeichnete unsere Website etwa 4.000 Seitenaufrufe durch den Bot MegaIndex.ru. Das fiel definitiv auf.

7 „Gefällt mir“

Sie könnten es entweder blockieren oder verlangsamen

5 „Gefällt mir“

Danke für die Info.

Ich habe keine Frage gestellt, sondern andere darauf hingewiesen, wachsam zu sein. Es scheint ein neuer Crawler zu sein, der seine Zugriffe nicht über die Zeit verteilt. Vielleicht war dies das erste Mal, dass er unsere Seite gesehen hat, und hat deshalb alle Seiten abgerufen, aber wenn er mit diesen massiven Zugriffen an einem Tag fortfährt, werde ich mehr untersuchen.

4 „Gefällt mir“

Danke für den Hinweis. Diese schlecht geschriebenen Bots / Web-Indexer / Web-Spider können einen Server wirklich zum Absturz bringen!

13 „Gefällt mir“

Ist mir auch aufgefallen. Es ist der Bot, der die meisten Seitenaufrufe auf meiner Instanz verursacht, gefolgt von Seekport (35.000 Seitenaufrufe an einem Tag) und mj12bot. Ich werde manchmal wegen ihnen mit DOS angegriffen. Die Anti-Bot-Funktion von Cloudflare hat mir geholfen, die meisten dieser Bots ohne viel Überwachung einzudämmen.

5 „Gefällt mir“

Ist es möglich, alle Crawler zu verlangsamen – effektiv eine crawl-delay-Anweisung in der robots.txt hinzuzufügen?

2 „Gefällt mir“

Nein. Nur wenige halten sich überhaupt an robots.txt und noch weniger befolgen die Verzögerung.

2 „Gefällt mir“

Das ist schade. Es wäre eine gute Funktion für Discourse.

Interessenshalber: Funktioniert das bestehende System (das es Ihnen erlaubt, jeden Crawler zu blockieren, aber nur eine Crawl-Verzögerung für eine endliche Liste hinzuzufügen) über robots.txt disallow und crawl-delay?

Das ist eine ganz andere Sache. Obwohl ich persönlich crawl-delay auf einer anderen Website als wirksam empfunden habe.

2 „Gefällt mir“

Nur mit White-Hat-Bots, und davon gibt es nicht allzu viele. Alle anderen, das Verhältnis von guten zu schlechten ist mehr oder weniger 1:100, denen ist es egal, was du in der robots.txt hast oder nicht. Die besten scheinen nur herauszufinden, wo ein Systemadministrator/Webmaster nicht hin will und diese Richtungen sofort einschlagen.

(Wirklich, wirkt wie ein HTML-Tag :thinking: Discourse sollte meiner Meinung nach nicht nur < > dafür verwenden)

SEO-Bots sind wirklich schlecht erzogene Bots. Aber die Mehrheit gibt einen gefälschten User-Agent an, der von Script Kiddies erstellt wurde.

Man kann viele Bots komplett stoppen, aber das sollte auf Serverebene geschehen, nicht auf App-Ebene.

2 „Gefällt mir“

Das ist alles nebensächlich. Meine Erfahrung war anders und ich möchte, dass Discourse es erlaubt, crawl-delay festzulegen, ohne einzelne Crawler benennen zu müssen.

2 „Gefällt mir“

Ich habe auch einen Anstieg von Crawlern.

Wie kann ich identifizieren, welcher Crawler die Seitenaufrufe missbraucht?

4 „Gefällt mir“

Es ist einer der integrierten Berichte auf der Berichtsseite.

3 „Gefällt mir“

Danke, gefunden.

User Agent Seitenaufrufe
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 5514
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) 5212
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 1427
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) 872

Diese Spitzen stammen also von MJ21bot und Nexus 5X Build, was nach Überprüfung seiner IP in den Nginx-Protokollen ein legitimer Google-Bot ist.

Irgendeine Idee, warum sie so viele Seitenaufrufe tätigen sollten? MJ12bot scheint auch legitim zu sein (zumindest sagen das meine Google-Suchen…). Beachten Sie, dass das Forum online ist, aber eine Anmeldung erfordert, um den Inhalt anzuzeigen. Es wird in wenigen Tagen öffentlich zugänglich sein.

Ich sehe manchmal Crawler-Spitzen in meinen Foren, aber sie dauern nur ein oder zwei Tage und verschwinden dann für lange Zeit.

Beispiele:

3 „Gefällt mir“

Überprüfen Sie die IPs. Es ist auch eine der am häufigsten verwendeten gefälschten. Außerdem ist es für Sie völlig nutzlos, wie alle sogenannten SEO-Bots.

3 „Gefällt mir“

Ich weiß so gut wie nichts über Crawler. Sind die offiziellen Google-Crawler nicht nützlich in Bezug auf SEO? Entschuldigen Sie, falls ich vom Thema abkomme.

3 „Gefällt mir“

Da ich derjenige bin, der das Thema begonnen hat, sehe ich Ihre Frage nicht als vom Thema abweichend an. Mein Beitrag war eine Information und Sie versuchen lediglich, die Details der Informationen besser zu verstehen.

Obwohl ich kein SEO Experte bin, wenn Sie möchten, dass Leute Ihre Website über eine Suchmaschine finden, müssen Sie dem Suchmaschinen-Crawler erlauben, Ihre Website zu crawlen, um seine Indizes zu erstellen und zu aktualisieren.

Das Problem ist, dass einige Crawler Benutzer nicht zu einer Website führen und wenn das der Fall ist und Sie keine übermäßigen Seitenaufrufe wünschen, würden Sie darum bitten, dass sie Ihre Website nicht über robots.txt crawlen. Schlechte Suchmaschinen ignorieren jedoch robots.txt und man müsste dann Firewall-Regeln und Ähnliches verwenden. Das Problem wird dann das alte Problem, dass es schwierig ist, jemanden zu blockieren, der Zugang zu einer offenen Website (ohne Login) erhalten möchte, da er jedes Mal seine Identität ändert. Wenn man sich für eine Anmeldung entscheidet, reduziert das oft die Anzahl der Leute, die sich anmelden werden.

In Bezug auf den ursprünglichen Beitrag habe ich seit dem gemeldeten Ausreißer keinen weiteren massiven Anstieg der Seitenaufrufe an einem Tag aufgrund von MeagIndex oder einem anderen Crawler mehr gesehen.

2 „Gefällt mir“

Update: 08/13/2022

Der Bot hat unsere Seite am 08.04.2022 erneut besucht (Crawler-Seite)

Bericht: Konsolidierte Seitenaufrufe

Bericht: Web-Crawler-User-Agents

Bericht: Top-Traffic-Quelle

Offensichtlich scheint das Indizieren der Website durch den Bot MegaIndex.ru/2.0 keinen Traffic auf die Website zu generieren.
Hinweis: Soweit ich weiß, ist yandex.ru etwas anderes als Megaindex.ru.


Zum Blockieren von Crawlern gibt es robots.txt, wie bereits erwähnt

https:///admin/customize/robots

aber nicht alle Crawler werden robots.txt respektieren. :slightly_frowning_face:


Wie bereits oben von IAmGav erwähnt, gibt es andere Crawler-Einstellungen.

4 „Gefällt mir“

robots.txt dient nicht dazu, Bots aufzuhalten. Es ist eine Richtlinie für gut funktionierende Bots. Diese sollten auf Serverebene gestoppt werden. Einer der größten Gründe, warum mein Discourse hinter einem Reverse-Proxy steht.

4 „Gefällt mir“

Am 22.12.2022 hat https://bot.seekport.com, ein mir neuer und unbekannter Bot, eine übermäßige Anzahl von Seitenaufrufen generiert.

2 „Gefällt mir“

Ein Anstieg der Aktivität von Semi-Regular-Crawlern ist üblich. Wir selbst unterteilen diese in:\n* Regelmäßige Crawler von legitimen Suchmaschinen\n* Unregelmäßige Crawler von neuen/benutzerdefinierten Suchmaschinen\n* Gezielte Crawler von Wettbewerbern oder anderen „Forschern“, die Ihre gecrawlten Daten effektiv für ihre Zwecke nutzen können.\n\nNach unserer Erfahrung ist es nicht notwendig, sich vor dem Crawling zu schützen, es sei denn, Sie möchten nicht, dass Ihre Informationen für irgendeinen Zweck verwendet werden, oder Sie erleben dadurch eine starke Serverauslastung. Wenn Ihr Forum/Projekt öffentlich ist, wird es letztendlich immer einen Weg geben, Ihre öffentlichen Daten für jeden Zweck zu sammeln :slight_smile: \n\n\n

3 „Gefällt mir“