Steuerung von Web-Crawlern für eine Website

:bookmark: Dieser Leitfaden erklärt, wie Sie Web-Crawler auf Ihrer Discourse-Site verwalten.

:person_raising_hand: Erforderliches Benutzerniveau: Administrator

Web-Crawler können die Leistung Ihrer Website erheblich beeinträchtigen, indem sie Seitenaufrufe und Serverlast erhöhen.
Wenn eine Website einen Anstieg ihrer Seitenaufrufe feststellt, ist es wichtig zu prüfen, wie Web-Crawler in das Gesamtbild passen.


Crawler-Aktivität überprüfen

Um zu sehen, ob Crawler Ihre Website beeinträchtigen, navigieren Sie in Ihrem Admin-Dashboard zum Bericht Konsolidierte Seitenaufrufe (/admin/reports/consolidated_page_views). Dieser Bericht unterteilt die Seitenaufrufzahlen von angemeldeten Benutzern, anonymen Benutzern und Crawlern.

Spezifische Crawler identifizieren

Rufen Sie den Bericht Web-Crawler-User-Agent (/admin/reports/web_crawlers) auf, um eine Liste von Web-Crawler-Namen zu finden, sortiert nach Seitenaufrufzahl. Wenn ein problematischer Web-Crawler die Website besucht, wird die Anzahl seiner Seitenaufrufe viel höher sein als die anderer Web-Crawler. Beachten Sie, dass gleichzeitig eine Reihe von bösartigen Web-Crawlern aktiv sein können.

Crawler blockieren und einschränken

Es ist eine gute Angewohnheit, die Crawler der wichtigsten Suchmaschinen wie Google, Bing, Baidu (chinesisch), Yandex (russisch), Naver (koreanisch), DuckDuckGo, Yahoo und andere, je nach Ihrem Land, nicht zu blockieren. Wenn ein Web-Crawler außer Kontrolle gerät, besteht eine gute Chance, dass derselbe Crawler auch andere Websites besucht hat und jemand anderes bereits Informationen dazu angefordert oder Berichte darüber erstellt hat, die nützlich sind, um zu verstehen, ob dieser spezielle Crawler eingeschränkt oder blockiert werden soll. Beachten Sie, dass einige Crawler eine große Anzahl von Seitenaufrufen beitragen können, wenn Sie Dienste von Drittanbietern nutzen, um Ihre Website über Skripte usw. zu überwachen oder Funktionalität hinzuzufügen. Eine Liste von nicht vertrauenswürdigen Web-Crawlern finden Sie unter diesem Link: https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt

Crawler-Einstellungen anpassen

Unter Admin > Einstellungen gibt es einige Einstellungen, die helfen können, die Rate bestimmter Crawler zu begrenzen:

  • Crawler verlangsamen mit:

    • slow down crawler user agents
    • slow down crawler rate
  • Crawler blockieren mit:

    • blocked crawler user agents

Stellen Sie sicher, dass Sie den genauen User-Agent-Namen für die Crawler kennen, die Sie steuern möchten. Wenn Sie eine der oben genannten Einstellungen anpassen und keine Reduzierung der Seitenaufrufe dieses Agents feststellen, sollten Sie noch einmal überprüfen, ob Sie den richtigen Namen verwenden.
Wenn Sie unsicher sind, wie Sie vorgehen sollen, beginnen Sie immer mit der Option “verlangsamen” anstelle eines vollständigen Blocks. Prüfen Sie im Laufe der Zeit, ob es Verbesserungen gibt. Sie können mit einem vollständigen Block fortfahren, wenn Sie keine nennenswerten Ergebnisse feststellen.

17 „Gefällt mir“

Sollte es eine Art Haftungsausschluss geben, dass dies nur bei gut funktionierenden funktioniert? Und selbst Google wird all diese umgehen, wenn sie über Links aus Gmail kommen.

Beide werden auf dem Server erzwungen.

Wenn sich ein schlechter Bot jedoch als Chrome oder jemand anderes ausgibt, indem er Header fälscht, können wir keine Header verwenden, um ihn zu erkennen …

2 „Gefällt mir“

Killer-Fakt: Vorschaukarten zählen als Seitenaufruf!

Der Server, den ich verwalte, scheint mit Anfragen für Vorschaukarten vom Typ http.rb/5.1.0 (Mastodon/4.0.2; + [https://mstdn.science/](https://mstdn.science/)) überlastet worden zu sein.

Ich glaube nicht, dass Maßnahmen ergriffen werden können, außer den Mastodon-Postern zu sagen, sie sollen ein Bild einfügen, damit die Vorschaukarte nicht automatisch hinzugefügt wird.

1 „Gefällt mir“

Ich habe bereits über 1500 Treffer pro Tag durch Crawler. :tired_face: Kann ich sie alle mit Cloudflare DNS blockieren? Oder welche Option ist erforderlich, um sie alle zu blockieren? (Private Instanz)

Ich will sie einfach nicht.

Mit Nginx als Reverse Proxy und dem Blockieren unerwünschter User Agents. Das hilft sehr. Auch das Blockieren von Ländern, die man nicht benötigt, hilft ziemlich gut.

Ich kann nicht die USA, Frankreich und Deutschland blockieren (große VPS-Länder), aber für mich haben Russland, Vietnam, Iran, Irak usw. ziemlich viel geholfen.

Aber Discourse ist ziemlich… ist “resilient” das richtige Wort. Die Situation ist ganz anders als bei WordPress, wo diese nutzlosen SEO-Bots, Klopfer, Script Kiddies und böswilligen Akteure einen Server leicht in die Knie zwingen können.

2 „Gefällt mir“

Ich hoste bei Hetzner Deutschland, mit nur zwei offenen Ports in meiner Firewall (80/443). Und Discourse läuft hinter dem NGINX Proxy Manager (sicher, es gibt bessere Lösungen, aber ich bin zu faul zum Coden und mag Webfrontends).

Jetzt gehe ich den Whitelist-Weg, mit einem zufälligen String als einzigem erlaubten Eintrag … von nun an keine Seitenaufrufe mehr :smiley:

Eine Frage dazu, was genau in „Crawler-User-Agents verlangsamen“ eingetragen werden soll.
Für uns ist Facebook ein Hauptschuldiger, dicht gefolgt von Bing auf Platz 3.
Der Bericht zeigt die folgenden Agents als die wichtigsten Crawler, die Seitenaufrufe verbrauchen:

Was genau sollte in „Crawler-User-Agents verlangsamen“ eingetragen werden – diese exakten URLs inklusive „https“ oder „http“? Oder alles nach den doppelten Schrägstrichen? Oder etwas anderes? Oder sollen wir es einfach durch Ausprobieren herausfinden?

Danke!

Um die Dinge einfach zu halten, sollten Sie die Namen dieser Bots verwenden. Sie können jedoch jeden Teil des User-Agent-Strings verwenden, aber stellen Sie sicher, dass dies nicht mehr beeinträchtigt, als Sie möchten.

Das Verlangsamen von Bots ist eine sehr unzuverlässige Methode, aber einige halten sich an diese Regel. Diese stammen jedoch von Ihren Shares usw. und verursachen nicht so viel Arbeitsaufwand. WordPress wäre eine andere Geschichte.

Aber dies ist Teil meiner Liste blockierter Bots. Sie verstehen den Punkt daraus.

1 „Gefällt mir“

Danke dafür, @Jagster – sehr hilfreich. Fühlt sich manchmal wie ein Whac-a-Mole-Spiel an, aber ich verstehe die Idee, einen Teil des Crawler-Namensstrings anstelle des gesamten Strings zu verwenden.

Ein fortlaufendes Projekt für mich als Site-Admin, schätze ich – weiter geht’s!

1 „Gefällt mir“

Es kann mehrere Gründe geben, aber Googlebot hat sein Budget, und wenn Sitemaps der wichtigste Weg sind, Links zu finden, erreicht es niemals interne Links, wenn das tägliche/wöchentliche/monatliche Budget aufgebraucht ist.

Und in einem Forum sind interne Links für Benutzer wichtig, nicht für Google.

Aber ich weiß nicht, ob Googlebot interne Links sieht. Das sollte es aber.

1 „Gefällt mir“