Dunkle Besucher

:information_source: Zusammenfassung Integriert den Known Agents-Dienst mit Discourse, um unerwünschte Crawler und Scraper zu verfolgen, die Ihr Forum besuchen.
:hammer_and_wrench: Repository-Link \u003chttps://github.com/magicball-network/discourse-darkvisitors\u003e
:open_book: Installationsanleitung Plugins in Discourse installieren

:information_source: Ab dem 3. Februar 2026 wurde der Dienst Dark Visitors in Known Agents umbenannt. Das Discourse-Plugin wurde nicht umbenannt.

Funktionen

Known Agents ist ein Dienst, der Agents (Crawler, Scraper und andere Arten von Bots) verfolgt, die Ihre Websites besuchen. Ihr Hauptaugenmerk liegt auf der Analyse von KI-Agents.

Es bietet zwei Dienste:

  • robots.txt-Generierung und -Überwachung
  • Agentenanalyse; sowohl serverseitig als auch clientseitig

Der robots.txt-Dienst ist kostenlos. Die Analysedienste bieten eine kostenlose Stufe. Ich empfehle Ihnen, deren Website für weitere Informationen zu besuchen.

Dieses Discourse-Plugin verbindet sich mit all diesen Diensten, die alle optional und in gewissem Maße konfigurierbar sind.

robots.txt-Generierung

Discourse bietet bereits eine Option zur Konfiguration der robots.txt. Dieses Plugin erweitert diese. Wenn es aktiviert ist, ruft das Plugin eine Liste von Agents in verschiedenen Kategorien ab (derzeit werden nur KI-Kategorien unterstützt) und fügt diejenigen hinzu, die in den bereits konfigurierten Agents fehlen. Die Liste wird täglich aktualisiert. Auf diese Weise wird jeder neu erkannte KI-Scraper zu Ihrer robots.txt hinzugefügt.

Diese Funktion funktioniert nur, wenn Discourse die robots.txt verwaltet und Sie diese nicht manuell überschrieben haben. Das Plugin ändert nicht die Einstellung Blockierte Crawler-User-Agents, sondern erweitert die robots.txt um fehlende neue Agents. Sie behalten also die volle Kontrolle über die Verwaltung dieser Liste.

Wenn Sie die robots.txt Ihrer Website besuchen, sehen Sie einen einleitenden Kommentar über das letzte Update und die Anzahl der von Known Agents zurückgegebenen Agents. Die noch nicht konfigurierten Agents werden am Ende der Liste hinzugefügt. Sie sollten sich zwischen Googlebot und der Sitemap-Direktive (falls konfiguriert) befinden.

Agentenanalyse

Sowohl die serverseitige als auch die clientseitige Analyse können einzeln aktiviert werden. Sie kann für alle Besucher oder nur für nicht authentifizierte Besucher aktiviert werden.

Die serverseitige Analyse meldet getrackte Besuche an Known Agents. Sie sendet den Anfragepfad, die Remote-Adresse des Besuchers, den User-Agent-Header und einige weitere Browser-Header.

Es gibt zusätzliche Einstellungen, welche Anfragen gemeldet werden, siehe Einstellungen unten. Standardmäßig werden nur Anfragen getrackt, die Discourse als Aufrufe markiert. Die folgenden Anfragen an Discourse werden niemals gemeldet:

  • Anfragen an den Admin-Bereich
  • Hintergrund- und API-Anfragen

Die clientseitige Analyse wird dadurch gehandhabt, dass Javascript zu Ihrer Seite hinzugefügt wird, das unter bestimmten Bedingungen einen Aufruf an Known Agents tätigt:

  • Der Browser scheint automatisiert oder ein KI-Browser zu sein
  • Der Benutzer kam von einem KI-Chat-Dienst

Alle getrackten Anfragen zählen zu den Ereignissen, die Ihren Zahlungsplan beeinflussen.

Konfiguration

Sie müssen sich bei Known Agents registrieren, um dieses Plugin nutzen zu können. Die kostenlose Stufe gewährt Ihnen 100.000 Ereignisse pro Monat. Wenn dieses Limit erreicht ist, werden keine neueren Ereignisse in deren Analysen angezeigt, aber Sie können weiterhin neue Informationen senden und den robots.txt-Dienst weiterhin nutzen.

Nach der Registrierung müssen Sie ein Projekt erstellen (d.h. eine zu trackende Website). Dies liefert Ihnen einen Zugriffstoken, der für die robots.txt- und serverseitige Analysefunktionalität erforderlich ist.

Wenn Sie die robots.txt-Funktionalität aktivieren, dauert es einen Moment, bis sie aktualisiert wird. Besuchen Sie https://ihreseite/robots.txt, um zu sehen, ob sie funktioniert. Oben sollte ein Kommentar stehen:

# Augmented by Dark Visitors on 2025-05-07T12:46:00+00:00 with 28 agents

Wenn Sie die serverseitige Analyse aktivieren, können Sie testen, ob sie funktioniert, indem Sie einen Testbesuch über die Projekteinstellungen von Known Agents anfordern. Dies kann einige Sekunden dauern. Sie sollten das Ergebnis auf der Seite Echtzeit bei Known Agents sehen.

Einstellungen

Name Beschreibung
darkvisitors enabled Globales Flag, um das gesamte Plugin zu aktivieren
darkvisitors access token Der geheime Zugriffstoken, der für die robots.txt und die serverseitige Analyse zur Kommunikation mit Known Agents erforderlich ist. Sie finden diesen im Known Agents-Projekt unter Einstellungen.
darkvisitors robots txt enabled Wenn aktiviert, wird die Discourse robots.txt mit zusätzlichen Agents erweitert
darkvisitors robots txt agents Die Art von Agents, die zur robots.txt hinzugefügt werden sollen.
darkvisitors robots txt path Der Pfad, für den der Zugriff für die Agents verweigert werden soll. Es ist wahrscheinlich am besten, diesen auf / zu belassen, sodass der Zugriff auf die gesamte Website verweigert wird.
darkvisitors server analytics Aktiviert die serverseitige Analyse. Ich empfehle, sie nur für anonyme Benutzer zu aktivieren.
darkvisitors server analytics include Zusätzliche Anfragen, die getrackt werden sollen. Sie können auch Anfragen zu hochgeladenen Dateien oder sogar 404 Not Found-Anfragen tracken.
darkvisitors server analytics ignore Teilzeichenketten in den User Agents, die ignoriert werden sollen (case-sensitiv). Wenn Sie eine Uptime-Überwachung verwenden, empfehle ich dringend, deren identifizierenden User Agent in diese Liste aufzunehmen.
darkvisitors client analytics Aktiviert die clientseitige Analyse. Dies gibt Ihnen auch Einblicke in normale Benutzer, die Ihr Forum besuchen, während sie von einem KI-Chat-Dienst kommen.
darkvisitors client analytics project key Für die clientseitige Analyse müssen Sie den (öffentlichen) Projektschlüssel konfigurieren. Sie finden diesen in den Projekteinstellungen von Known Agents im Abschnitt JavaScript Tag, es ist der Code nach project_key=
5 „Gefällt mir“

Danke dafür, elmuerte! Ich habe es eingerichtet und es funktioniert super.

Ich sehe, dass in den Plugin-Einstellungen die Agententypen, die über robots.txt ausgeschlossen werden können, sind:

  • AI Data Scraper [standardmäßig ausgewählt]
  • Undocumented AI Agent [standardmäßig ausgewählt]
  • AI Agent
  • AI Assistant
  • AI Search Crawler

Aber die vollständige Liste der Dark Visitors Agententypen ist:
(fett = zusätzlich)

Crawlers & Scrapers…

  • AI Assistant
  • AI Data Scraper
  • AI Search Crawler
  • Archiver
  • Developer Helper
  • Fetcher
  • Intelligence Gatherer
  • Scraper
  • Search Engine Crawler
  • Security Scanner
  • SEO Crawler
  • Uncategorized Agent
  • Undocumented AI Agent

AI Agents…

  • AI Agent
  • Headless Agent

Nicht alle dieser Agententypen sind Dinge, die man blockieren möchte, aber ich würde gerne ein paar wie Scraper, AI Data Scraper, SEO Crawler einschließen…

Sind diese zusätzlichen Agententypen neuer als Ihr Plugin? Könnten sie zu den aktuellen Listenoptionen in settings.yml hinzugefügt werden?

Außer robots.txt ist nur eine Anfrage. Ein Bot folgt ihr oder nicht. Firewall ist der einzige Weg, diese zu stoppen.

Ja, das verstehe ich – aber da Dark Visitors nur mit robots.txt funktioniert, möchte ich es so gut wie möglich zum Laufen bringen.

(Ich lese gerade ein paar Beiträge, in denen Sie echtes Blocking mit Nginx Reverse Proxy vorschlagen, aber ich bin mir nicht sicher, ob ich schon so weit gehen muss.)

Das ist ein bisschen hart. Aber Dark Visitor sollte mit der Sperrliste von Discourse nützlich sein. Sicher, damit müssen Sie nicht manuell z. B. OpenAI oder anderes hinzufügen, das robots.txt folgt.

Ich habe Dark Visitors am 3. Mai dieses Jahres wegen dieser Angelegenheit kontaktiert, und ihre Antwort war „Im Moment nicht“. Aber ich sehe, dass die aktuelle Dokumentation jetzt noch mehr Typen auflistet.

Derzeit werden die folgenden Typen von der Dark Visitors API unterstützt:

Ich habe sichergestellt, dass die Einstellung in Discourse durch Hinzufügen einfach um zusätzliche Agententypen erweitert werden kann.

Nachdem der neue Typ hinzugefügt und die Einstellung gespeichert wurde, sollte die robots.txt sofort mit all den neuen Agenten aktualisiert werden.

1 „Gefällt mir“

OMG, ich habe das Feld „Suchen oder erstellen“ total übersehen. Mein Theme hat dort einen sehr geringen Kontrast und es ist mir entgangen. Danke für die Klarstellung!