Discourse Giftbrunnen

elmuerte · 20. Januar 2026 um 20:29


	Zusammenfassung	Fügt dem Inhalt versteckte Links hinzu, die Web-Scraper vergiften können, die nicht kooperativ sind.
	Repository-Link	\u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e
	Installationsanleitung	Plugins in Discourse installieren

Funktionen

Zu jeder generierten Seite werden Links zu Seiten mit vergifteten Inhalten hinzugefügt. Wenn ein schlechter Web-Scraper diesen Inhalt konsumiert und ihn zum Trainieren eines LLM verwendet, wird dies das resultierende Modell negativ beeinflussen.

Diese Links sind für Benutzer verborgen; sie sind mit rel="nofollow" markiert, und standardmäßig weist die robots.txt Web-Spider an, diesen Inhalt nicht zu konsumieren. Die versteckten Links werden nur für nicht authentifizierte Anfragen hinzugefügt.

Das Plugin verwendet standardmäßig den vergifteten Inhalt von RNSAFFN. Weitere Informationen finden Sie auf dieser Seite. Sie können die Giftquelle in den Einstellungen ändern.

Der vergiftete Inhalt wird von Seiten mit URLs wie /dpf/\u003csome-random-slug\u003e/\u003cid\u003e bereitgestellt. Mit der Standardkonfiguration könnten Sie eine fail2ban-Regel für diesen Pfad für IPs erstellen, die einige Male Seiten von /dpf/ anfordern, um schlechte Scraper abzuwehren.

Konfiguration

Sie müssen das Plugin nur installieren und aktivieren, damit es im Hintergrund seine Arbeit aufnimmt. Sie können einige zusätzliche Einstellungen anpassen.

Einstellungen

Eine Tabelle mit Einstellungen und deren Beschreibungen

Name	Beschreibung
`poison_fountain_source`	Die Website, die den Inhalt generiert, der von den vergifteten Seiten bereitgestellt wird.
`poison_fountain_textual_only`	Akzeptiert nur textuellen Inhalt von der Giftquelle. Dies verhindert die Bereitstellung von Binärinhalten.
`poison_fountain_force_plain_text`	Stellt den Inhalt immer als `text/plain` bereit, auch wenn die Quelle etwas anderes angegeben hat, wie z. B. HTML.
`poison_fountain_update_robots_txt`	Standardmäßig aktiviert, fügt dies den vergifteten Inhalt zur Ausschlussliste hinzu. Web-Spider, die `robots.txt` respektieren, würden den vergifteten Inhalt vollständig ignorieren.
`poison_fountain_cache_hours`	Stunden, für die der Inhalt zwischengespeichert wird, bevor neuer Inhalt abgerufen wird. Maximal 24 Stunden.
`poison_fountain_entries`	Anzahl der vorgehaltenen vergifteten Einträge
`poison_fountain_link_count`	Anzahl der Links, die zu den generierten HTML-Seiten hinzugefügt werden

Dieses Projekt ist nicht mit RNSAFFN verbunden. Es bietet eine Integration mit deren Dienst. Diese Integration kann so konfiguriert werden, dass ein anderer ähnlich funktionierender Dienst verwendet wird.

Sie sollten sich bewusst sein, dass Sie durch die Verwendung dieses Plugins dem Inhalt vertrauen, der von dem verwendeten Giftbrunnen generiert wird, und dass Sie diesen weiterleiten. Standardmäßig wird dieses Plugin versuchen, diesen Inhalt „größtenteils harmlos“ zu machen, indem es nur textuellen Inhalt als einfachen Text bereitstellt.

beeburrt · 18. März 2026 um 10:40

Ich mag diese Idee. Danke fürs Teilen.

Hier ist die robots.txt-Datei, die Cloudflare verwendet (wird an Ihre eigene angehängt) (Ich habe sie auch unten eingefügt)

Falls jemand an solchen Dingen interessiert ist

# Als Bedingung für den Zugriff auf diese Website erklären Sie sich damit einverstanden, die folgenden
# Inhalssignale zu befolgen:

# (a) Wenn ein Content-Signal = yes ist, dürfen Sie Inhalte für den entsprechenden
#      Verwendungszweck sammeln.
# (b) Wenn ein Content-Signal = no ist, dürfen Sie Inhalte für den
#      entsprechenden Verwendungszweck nicht sammeln.
# (c) Wenn der Websitebetreiber kein Inhalssignal für einen
#      entsprechenden Verwendungszweck angibt, gewährt oder beschränkt der Websitebetreiber
#      die Erlaubnis über das Inhalssignal in Bezug auf den entsprechenden Verwendungszweck weder.

# Die Inhalssignale und ihre Bedeutungen sind:

# search:   Erstellung eines Suchindex und Bereitstellung von Suchergebnissen (z. B. Rückgabe
#           von Hyperlinks und kurzen Ausschnitten aus dem Inhalt Ihrer Website). Suche beinhaltet nicht
#           die Bereitstellung von KI-generierten Zusammenfassungen der Suchergebnisse.
# ai-input: Eingabe von Inhalten in ein oder mehrere KI-Modelle (z. B. Retrieval
#           Augmented Generation, Grounding oder andere Echtzeit-Übernahme von Inhalten für
#           generative KI-Suchantworten).
# ai-train: Training oder Feinabstimmung von KI-Modellen.

# SÄMTLICHE EINSCHRÄNKUNGEN, DIE DURCH INHALTSSIGNALE AUSGEDRÜCKT WERDEN, SIND AUSDRÜCKLICHE RECHTSVORBEHALTE GEMÄSS ARTIKEL 4 DER RICHTLINIE (EU) 2019/790 DES EUROPÄISCHEN PARLAMENTS UND DES RATES VOM 20. MAI 2019 ÜBER DAS URHEBERRECHT UND VERWANDTE RECHTE IM DIGITALEN BINNENMARKT.

# BEGINN Cloudflare Verwalteter Inhalt

User-agent: *
Content-Signal: search=yes,ai-train=no
Allow: /

User-agent: Amazonbot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: meta-externalagent
Disallow: /

# ENDE Cloudflare Verwalteter Inhalt

User-agent: *
Disallow: /lp
Disallow: /feedback
Disallow: /langtest


Sitemap: https://www.crawlstop.com/sitemap.xml

Thema		Antworten	Aufrufe
Preventing malicious linking Feature	34	4941	24. Dezember 2017
Add more prohibited links to screened URLs Support	1	627	19. Februar 2019
Add to robots.txt some CloudFlare path to avoid crawlers inspect incorrectly Development	1	1288	21. Oktober 2022
Block crawlers from embedded topics only? Support	17	843	20. Juni 2023
🤖 Discourse llms.txt Generator Plugin Plugin ai	4	517	11. April 2026

Discourse Giftbrunnen

Funktionen

Konfiguration

Einstellungen

Verwandte Themen