Dieser Leitfaden erklärt, wie Sie Web-Crawler auf Ihrer Discourse-Seite verwalten.
Erforderliche Benutzerebene: Administrator
Web-Crawler können die Leistung Ihrer Seite erheblich beeinträchtigen, indem sie Seitenaufrufe und Serverlast erhöhen.
Wenn eine Seite eine Spitze bei ihren Seitenaufrufen bemerkt, ist es wichtig zu prüfen, wie Web-Crawler dabei ins Spiel kommen.
Crawler-Aktivität überprüfen
Um festzustellen, ob Crawler Ihre Seite beeinträchtigen, navigieren Sie in Ihrem Admin-Dashboard zum Bericht Site Traffic (/admin/reports/site_traffic). Dieser Bericht schlüsselt die Seitenaufrufzahlen nach angemeldeten Browser-Benutzern, anonymen Browser-Benutzern, Crawlern und anderen Quellen auf.
Eine Seite, auf der Crawler normal arbeiten:
Eine Seite, auf der Crawler außer Kontrolle geraten sind:
Spezifische Crawler identifizieren
Rufen Sie den Bericht Web Crawler User Agent (/admin/reports/web_crawlers) auf, um eine Liste der Namen von Web-Crawlern, sortiert nach der Anzahl der Seitenaufrufe, zu finden.
Wenn ein problematischer Web-Crawler die Seite besucht, wird die Anzahl seiner Seitenaufrufe viel höher sein als bei den anderen Web-Crawlern. Beachten Sie, dass gleichzeitig eine Reihe bösartiger Web-Crawler aktiv sein können.
Crawler blockieren und begrenzen
Es ist ratsam, die Crawler der wichtigsten Suchmaschinen nicht zu blockieren, wie zum Beispiel Google, Bing, Baidu (chinesisch), Yandex (russisch), Naver (koreanisch), DuckDuckGo, Yahoo und andere, abhängig von Ihrem Land.
Wenn ein Web-Crawler außer Kontrolle gerät, besteht eine gute Chance, dass derselbe Crawler auch andere Websites besucht hat und jemand anderes bereits nach Informationen gefragt oder Berichte darüber erstellt hat, die hilfreich sein können, um zu verstehen, ob dieser spezielle Crawler eingeschränkt oder blockiert werden soll.
Beachten Sie, dass einige Crawler eine große Anzahl von Seitenaufrufen verursachen können, wenn Sie Dienste von Drittanbietern verwenden, um Ihre Seite über Skripte usw. zu überwachen oder Funktionalität hinzuzufügen.
Um eine Liste nicht vertrauenswürdiger Web-Crawler zu erhalten, können Sie sich auf diese Liste beziehen: https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/robots.txt/robots.txt
Anpassen der Crawler-Einstellungen
Unter Admin > Einstellungen gibt es einige Einstellungen, die helfen können, die Rate für bestimmte Crawler zu begrenzen:
-
Crawler verlangsamen mit:
slow down crawler user agents– Standardmäßig enthält diesgptbot,claudebot,anthropic-aiundbrightbotslow down crawler rate– die Anzahl der Sekunden zwischen erlaubten Anfragen pro Crawler (Standard: 60)
-
Crawler blockieren mit:
blocked crawler user agents– Standardmäßig enthält diesmauibot,semrushbot,ahrefsbot,blexbotundseo spider
-
Nur bestimmte Crawler zulassen mit:
allowed crawler user agents– Wenn diese Einstellung vorgenommen wird, dürfen nur die aufgelisteten Crawler auf die Seite zugreifen; alle anderen werden blockiert. Dies fungiert als strikte Positivliste. Warnung: Diese Einstellung überschreibtblocked crawler user agentsund blockiert alle Crawler, die nicht auf der Liste stehen, einschließlich großer Suchmaschinen, falls sie nicht aufgeführt sind.
Stellen Sie sicher, dass Sie den genauen User-Agent-Namen der Crawler kennen, die Sie steuern möchten. Wenn Sie eine der oben genannten Einstellungen anpassen und keine Reduzierung der Seitenaufrufe dieses Agents feststellen, sollten Sie möglicherweise noch einmal überprüfen, ob Sie den korrekten Namen verwenden.
Im Zweifelsfall sollten Sie immer mit der Option „verlangsamen“ beginnen, anstatt eine vollständige Blockierung vorzunehmen. Prüfen Sie im Laufe der Zeit, ob es Verbesserungen gibt. Sie können mit einer vollständigen Blockierung fortfahren, wenn Sie keine nennenswerten Ergebnisse feststellen.


