Discourse Giftbrunnen

:information_source: Zusammenfassung Fügt dem Inhalt versteckte Links hinzu, die Web-Scraper vergiften können, die nicht kooperativ sind.
:hammer_and_wrench: Repository-Link \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e
:open_book: Installationsanleitung Plugins in Discourse installieren

Funktionen

Zu jeder generierten Seite werden Links zu Seiten mit vergifteten Inhalten hinzugefügt. Wenn ein schlechter Web-Scraper diesen Inhalt konsumiert und ihn zum Trainieren eines LLM verwendet, wird dies das resultierende Modell negativ beeinflussen.

Diese Links sind für Benutzer verborgen; sie sind mit rel="nofollow" markiert, und standardmäßig weist die robots.txt Web-Spider an, diesen Inhalt nicht zu konsumieren. Die versteckten Links werden nur für nicht authentifizierte Anfragen hinzugefügt.

Das Plugin verwendet standardmäßig den vergifteten Inhalt von RNSAFFN. Weitere Informationen finden Sie auf dieser Seite. Sie können die Giftquelle in den Einstellungen ändern.

Der vergiftete Inhalt wird von Seiten mit URLs wie /dpf/\u003csome-random-slug\u003e/\u003cid\u003e bereitgestellt. Mit der Standardkonfiguration könnten Sie eine fail2ban-Regel für diesen Pfad für IPs erstellen, die einige Male Seiten von /dpf/ anfordern, um schlechte Scraper abzuwehren.

Konfiguration

Sie müssen das Plugin nur installieren und aktivieren, damit es im Hintergrund seine Arbeit aufnimmt. Sie können einige zusätzliche Einstellungen anpassen.

Einstellungen

Eine Tabelle mit Einstellungen und deren Beschreibungen

Name Beschreibung
poison_fountain_source Die Website, die den Inhalt generiert, der von den vergifteten Seiten bereitgestellt wird.
poison_fountain_textual_only Akzeptiert nur textuellen Inhalt von der Giftquelle. Dies verhindert die Bereitstellung von Binärinhalten.
poison_fountain_force_plain_text Stellt den Inhalt immer als text/plain bereit, auch wenn die Quelle etwas anderes angegeben hat, wie z. B. HTML.
poison_fountain_update_robots_txt Standardmäßig aktiviert, fügt dies den vergifteten Inhalt zur Ausschlussliste hinzu. Web-Spider, die robots.txt respektieren, würden den vergifteten Inhalt vollständig ignorieren.
poison_fountain_cache_hours Stunden, für die der Inhalt zwischengespeichert wird, bevor neuer Inhalt abgerufen wird. Maximal 24 Stunden.
poison_fountain_entries Anzahl der vorgehaltenen vergifteten Einträge
poison_fountain_link_count Anzahl der Links, die zu den generierten HTML-Seiten hinzugefügt werden

Dieses Projekt ist nicht mit RNSAFFN verbunden. Es bietet eine Integration mit deren Dienst. Diese Integration kann so konfiguriert werden, dass ein anderer ähnlich funktionierender Dienst verwendet wird.

Sie sollten sich bewusst sein, dass Sie durch die Verwendung dieses Plugins dem Inhalt vertrauen, der von dem verwendeten Giftbrunnen generiert wird, und dass Sie diesen weiterleiten. Standardmäßig wird dieses Plugin versuchen, diesen Inhalt „größtenteils harmlos“ zu machen, indem es nur textuellen Inhalt als einfachen Text bereitstellt.

8 „Gefällt mir“

Ich mag diese Idee. Danke fürs Teilen.

Hier ist die robots.txt-Datei, die Cloudflare verwendet (wird an Ihre eigene angehängt) (Ich habe sie auch unten eingefügt)

Falls jemand an solchen Dingen interessiert ist :slight_smile:

# Als Bedingung für den Zugriff auf diese Website erklären Sie sich damit einverstanden, die folgenden
# Inhalssignale zu befolgen:

# (a) Wenn ein Content-Signal = yes ist, dürfen Sie Inhalte für den entsprechenden
#      Verwendungszweck sammeln.
# (b) Wenn ein Content-Signal = no ist, dürfen Sie Inhalte für den
#      entsprechenden Verwendungszweck nicht sammeln.
# (c) Wenn der Websitebetreiber kein Inhalssignal für einen
#      entsprechenden Verwendungszweck angibt, gewährt oder beschränkt der Websitebetreiber
#      die Erlaubnis über das Inhalssignal in Bezug auf den entsprechenden Verwendungszweck weder.

# Die Inhalssignale und ihre Bedeutungen sind:

# search:   Erstellung eines Suchindex und Bereitstellung von Suchergebnissen (z. B. Rückgabe
#           von Hyperlinks und kurzen Ausschnitten aus dem Inhalt Ihrer Website). Suche beinhaltet nicht
#           die Bereitstellung von KI-generierten Zusammenfassungen der Suchergebnisse.
# ai-input: Eingabe von Inhalten in ein oder mehrere KI-Modelle (z. B. Retrieval
#           Augmented Generation, Grounding oder andere Echtzeit-Übernahme von Inhalten für
#           generative KI-Suchantworten).
# ai-train: Training oder Feinabstimmung von KI-Modellen.

# SÄMTLICHE EINSCHRÄNKUNGEN, DIE DURCH INHALTSSIGNALE AUSGEDRÜCKT WERDEN, SIND AUSDRÜCKLICHE RECHTSVORBEHALTE GEMÄSS ARTIKEL 4 DER RICHTLINIE (EU) 2019/790 DES EUROPÄISCHEN PARLAMENTS UND DES RATES VOM 20. MAI 2019 ÜBER DAS URHEBERRECHT UND VERWANDTE RECHTE IM DIGITALEN BINNENMARKT.

# BEGINN Cloudflare Verwalteter Inhalt

User-agent: *
Content-Signal: search=yes,ai-train=no
Allow: /

User-agent: Amazonbot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: meta-externalagent
Disallow: /

# ENDE Cloudflare Verwalteter Inhalt

User-agent: *
Disallow: /lp
Disallow: /feedback
Disallow: /langtest


Sitemap: https://www.crawlstop.com/sitemap.xml