Zur gefälligen Kenntnisnahme
Für diejenigen, die ihre Seitenaufrufe im Auge behalten: Am 02.07.2022 verzeichnete unsere Website etwa 4.000 Seitenaufrufe durch den Bot MegaIndex.ru. Das fiel definitiv auf.
Zur gefälligen Kenntnisnahme
Für diejenigen, die ihre Seitenaufrufe im Auge behalten: Am 02.07.2022 verzeichnete unsere Website etwa 4.000 Seitenaufrufe durch den Bot MegaIndex.ru. Das fiel definitiv auf.
Danke für die Info.
Ich habe keine Frage gestellt, sondern andere darauf hingewiesen, wachsam zu sein. Es scheint ein neuer Crawler zu sein, der seine Zugriffe nicht über die Zeit verteilt. Vielleicht war dies das erste Mal, dass er unsere Seite gesehen hat, und hat deshalb alle Seiten abgerufen, aber wenn er mit diesen massiven Zugriffen an einem Tag fortfährt, werde ich mehr untersuchen.
Danke für den Hinweis. Diese schlecht geschriebenen Bots / Web-Indexer / Web-Spider können einen Server wirklich zum Absturz bringen!
Ist mir auch aufgefallen. Es ist der Bot, der die meisten Seitenaufrufe auf meiner Instanz verursacht, gefolgt von Seekport (35.000 Seitenaufrufe an einem Tag) und mj12bot. Ich werde manchmal wegen ihnen mit DOS angegriffen. Die Anti-Bot-Funktion von Cloudflare hat mir geholfen, die meisten dieser Bots ohne viel Überwachung einzudämmen.
Ist es möglich, alle Crawler zu verlangsamen – effektiv eine crawl-delay-Anweisung in der robots.txt hinzuzufügen?
Nein. Nur wenige halten sich überhaupt an robots.txt und noch weniger befolgen die Verzögerung.
Das ist schade. Es wäre eine gute Funktion für Discourse.
Interessenshalber: Funktioniert das bestehende System (das es Ihnen erlaubt, jeden Crawler zu blockieren, aber nur eine Crawl-Verzögerung für eine endliche Liste hinzuzufügen) über robots.txt disallow und crawl-delay?
Das ist eine ganz andere Sache. Obwohl ich persönlich crawl-delay auf einer anderen Website als wirksam empfunden habe.
Nur mit White-Hat-Bots, und davon gibt es nicht allzu viele. Alle anderen, das Verhältnis von guten zu schlechten ist mehr oder weniger 1:100, denen ist es egal, was du in der robots.txt hast oder nicht. Die besten scheinen nur herauszufinden, wo ein Systemadministrator/Webmaster nicht hin will und diese Richtungen sofort einschlagen.
(Wirklich, wirkt wie ein HTML-Tag
Discourse sollte meiner Meinung nach nicht nur < > dafür verwenden)
SEO-Bots sind wirklich schlecht erzogene Bots. Aber die Mehrheit gibt einen gefälschten User-Agent an, der von Script Kiddies erstellt wurde.
Man kann viele Bots komplett stoppen, aber das sollte auf Serverebene geschehen, nicht auf App-Ebene.
Das ist alles nebensächlich. Meine Erfahrung war anders und ich möchte, dass Discourse es erlaubt, crawl-delay festzulegen, ohne einzelne Crawler benennen zu müssen.
Ich habe auch einen Anstieg von Crawlern.
Wie kann ich identifizieren, welcher Crawler die Seitenaufrufe missbraucht?
Es ist einer der integrierten Berichte auf der Berichtsseite.
Danke, gefunden.
| User Agent | Seitenaufrufe |
|---|---|
| Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 5514 |
| Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) | 5212 |
| Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | 1427 |
| Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot) | 872 |
Diese Spitzen stammen also von MJ21bot und Nexus 5X Build, was nach Überprüfung seiner IP in den Nginx-Protokollen ein legitimer Google-Bot ist.
Irgendeine Idee, warum sie so viele Seitenaufrufe tätigen sollten? MJ12bot scheint auch legitim zu sein (zumindest sagen das meine Google-Suchen…). Beachten Sie, dass das Forum online ist, aber eine Anmeldung erfordert, um den Inhalt anzuzeigen. Es wird in wenigen Tagen öffentlich zugänglich sein.
Ich sehe manchmal Crawler-Spitzen in meinen Foren, aber sie dauern nur ein oder zwei Tage und verschwinden dann für lange Zeit.
Beispiele:
Überprüfen Sie die IPs. Es ist auch eine der am häufigsten verwendeten gefälschten. Außerdem ist es für Sie völlig nutzlos, wie alle sogenannten SEO-Bots.
Ich weiß so gut wie nichts über Crawler. Sind die offiziellen Google-Crawler nicht nützlich in Bezug auf SEO? Entschuldigen Sie, falls ich vom Thema abkomme.
Da ich derjenige bin, der das Thema begonnen hat, sehe ich Ihre Frage nicht als vom Thema abweichend an. Mein Beitrag war eine Information und Sie versuchen lediglich, die Details der Informationen besser zu verstehen.
Obwohl ich kein SEO Experte bin, wenn Sie möchten, dass Leute Ihre Website über eine Suchmaschine finden, müssen Sie dem Suchmaschinen-Crawler erlauben, Ihre Website zu crawlen, um seine Indizes zu erstellen und zu aktualisieren.
Das Problem ist, dass einige Crawler Benutzer nicht zu einer Website führen und wenn das der Fall ist und Sie keine übermäßigen Seitenaufrufe wünschen, würden Sie darum bitten, dass sie Ihre Website nicht über robots.txt crawlen. Schlechte Suchmaschinen ignorieren jedoch robots.txt und man müsste dann Firewall-Regeln und Ähnliches verwenden. Das Problem wird dann das alte Problem, dass es schwierig ist, jemanden zu blockieren, der Zugang zu einer offenen Website (ohne Login) erhalten möchte, da er jedes Mal seine Identität ändert. Wenn man sich für eine Anmeldung entscheidet, reduziert das oft die Anzahl der Leute, die sich anmelden werden.
In Bezug auf den ursprünglichen Beitrag habe ich seit dem gemeldeten Ausreißer keinen weiteren massiven Anstieg der Seitenaufrufe an einem Tag aufgrund von MeagIndex oder einem anderen Crawler mehr gesehen.
Update: 08/13/2022
Der Bot hat unsere Seite am 08.04.2022 erneut besucht (Crawler-Seite)
Bericht: Konsolidierte Seitenaufrufe
Bericht: Web-Crawler-User-Agents
Bericht: Top-Traffic-Quelle
Offensichtlich scheint das Indizieren der Website durch den Bot MegaIndex.ru/2.0 keinen Traffic auf die Website zu generieren.
Hinweis: Soweit ich weiß, ist yandex.ru etwas anderes als Megaindex.ru.
Zum Blockieren von Crawlern gibt es robots.txt, wie bereits erwähnt
https:///admin/customize/robots
aber nicht alle Crawler werden robots.txt respektieren. ![]()
Wie bereits oben von IAmGav erwähnt, gibt es andere Crawler-Einstellungen.
robots.txt dient nicht dazu, Bots aufzuhalten. Es ist eine Richtlinie für gut funktionierende Bots. Diese sollten auf Serverebene gestoppt werden. Einer der größten Gründe, warum mein Discourse hinter einem Reverse-Proxy steht.
Am 22.12.2022 hat https://bot.seekport.com, ein mir neuer und unbekannter Bot, eine übermäßige Anzahl von Seitenaufrufen generiert.
Ein Anstieg der Aktivität von Semi-Regular-Crawlern ist üblich. Wir selbst unterteilen diese in:\n* Regelmäßige Crawler von legitimen Suchmaschinen\n* Unregelmäßige Crawler von neuen/benutzerdefinierten Suchmaschinen\n* Gezielte Crawler von Wettbewerbern oder anderen „Forschern“, die Ihre gecrawlten Daten effektiv für ihre Zwecke nutzen können.\n\nNach unserer Erfahrung ist es nicht notwendig, sich vor dem Crawling zu schützen, es sei denn, Sie möchten nicht, dass Ihre Informationen für irgendeinen Zweck verwendet werden, oder Sie erleben dadurch eine starke Serverauslastung. Wenn Ihr Forum/Projekt öffentlich ist, wird es letztendlich immer einen Weg geben, Ihre öffentlichen Daten für jeden Zweck zu sammeln
\n\n\n