Dieser Leitfaden erklärt, wie Sie Web-Crawler auf Ihrer Discourse-Site verwalten.
Erforderliches Benutzerniveau: Administrator
Web-Crawler können die Leistung Ihrer Website erheblich beeinträchtigen, indem sie Seitenaufrufe und Serverlast erhöhen.
Wenn eine Website einen Anstieg ihrer Seitenaufrufe feststellt, ist es wichtig zu prüfen, wie Web-Crawler in das Gesamtbild passen.
Crawler-Aktivität überprüfen
Um zu sehen, ob Crawler Ihre Website beeinträchtigen, navigieren Sie in Ihrem Admin-Dashboard zum Bericht Konsolidierte Seitenaufrufe (/admin/reports/consolidated_page_views). Dieser Bericht unterteilt die Seitenaufrufzahlen von angemeldeten Benutzern, anonymen Benutzern und Crawlern.
-
Eine Website, auf der Crawler normal funktionieren:
-
Eine Website, auf der Crawler außer Kontrolle geraten sind:
Spezifische Crawler identifizieren
Rufen Sie den Bericht Web-Crawler-User-Agent (/admin/reports/web_crawlers) auf, um eine Liste von Web-Crawler-Namen zu finden, sortiert nach Seitenaufrufzahl. Wenn ein problematischer Web-Crawler die Website besucht, wird die Anzahl seiner Seitenaufrufe viel höher sein als die anderer Web-Crawler. Beachten Sie, dass gleichzeitig eine Reihe von bösartigen Web-Crawlern aktiv sein können.
Crawler blockieren und einschränken
Es ist eine gute Angewohnheit, die Crawler der wichtigsten Suchmaschinen wie Google, Bing, Baidu (chinesisch), Yandex (russisch), Naver (koreanisch), DuckDuckGo, Yahoo und andere, je nach Ihrem Land, nicht zu blockieren. Wenn ein Web-Crawler außer Kontrolle gerät, besteht eine gute Chance, dass derselbe Crawler auch andere Websites besucht hat und jemand anderes bereits Informationen dazu angefordert oder Berichte darüber erstellt hat, die nützlich sind, um zu verstehen, ob dieser spezielle Crawler eingeschränkt oder blockiert werden soll. Beachten Sie, dass einige Crawler eine große Anzahl von Seitenaufrufen beitragen können, wenn Sie Dienste von Drittanbietern nutzen, um Ihre Website über Skripte usw. zu überwachen oder Funktionalität hinzuzufügen. Eine Liste von nicht vertrauenswürdigen Web-Crawlern finden Sie unter diesem Link: https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt
Crawler-Einstellungen anpassen
Unter Admin > Einstellungen gibt es einige Einstellungen, die helfen können, die Rate bestimmter Crawler zu begrenzen:
-
Crawler verlangsamen mit:
slow down crawler user agentsslow down crawler rate
-
Crawler blockieren mit:
blocked crawler user agents
Stellen Sie sicher, dass Sie den genauen User-Agent-Namen für die Crawler kennen, die Sie steuern möchten. Wenn Sie eine der oben genannten Einstellungen anpassen und keine Reduzierung der Seitenaufrufe dieses Agents feststellen, sollten Sie noch einmal überprüfen, ob Sie den richtigen Namen verwenden.
Wenn Sie unsicher sind, wie Sie vorgehen sollen, beginnen Sie immer mit der Option “verlangsamen” anstelle eines vollständigen Blocks. Prüfen Sie im Laufe der Zeit, ob es Verbesserungen gibt. Sie können mit einem vollständigen Block fortfahren, wenn Sie keine nennenswerten Ergebnisse feststellen.


