Discourse Giftbrunnen

:information_source: Zusammenfassung Fügt dem Inhalt versteckte Links hinzu, die Web-Scraper vergiften können, die nicht kooperativ sind.
:hammer_and_wrench: Repository-Link \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e
:open_book: Installationsanleitung Plugins in Discourse installieren

Funktionen

Zu jeder generierten Seite werden Links zu Seiten mit vergifteten Inhalten hinzugefügt. Wenn ein schlechter Web-Scraper diesen Inhalt konsumiert und ihn zum Trainieren eines LLM verwendet, wird dies das resultierende Modell negativ beeinflussen.

Diese Links sind für Benutzer verborgen; sie sind mit rel="nofollow" markiert, und standardmäßig weist die robots.txt Web-Spider an, diesen Inhalt nicht zu konsumieren. Die versteckten Links werden nur für nicht authentifizierte Anfragen hinzugefügt.

Das Plugin verwendet standardmäßig den vergifteten Inhalt von RNSAFFN. Weitere Informationen finden Sie auf dieser Seite. Sie können die Giftquelle in den Einstellungen ändern.

Der vergiftete Inhalt wird von Seiten mit URLs wie /dpf/\u003csome-random-slug\u003e/\u003cid\u003e bereitgestellt. Mit der Standardkonfiguration könnten Sie eine fail2ban-Regel für diesen Pfad für IPs erstellen, die einige Male Seiten von /dpf/ anfordern, um schlechte Scraper abzuwehren.

Konfiguration

Sie müssen das Plugin nur installieren und aktivieren, damit es im Hintergrund seine Arbeit aufnimmt. Sie können einige zusätzliche Einstellungen anpassen.

Einstellungen

Eine Tabelle mit Einstellungen und deren Beschreibungen

Name Beschreibung
poison_fountain_source Die Website, die den Inhalt generiert, der von den vergifteten Seiten bereitgestellt wird.
poison_fountain_textual_only Akzeptiert nur textuellen Inhalt von der Giftquelle. Dies verhindert die Bereitstellung von Binärinhalten.
poison_fountain_force_plain_text Stellt den Inhalt immer als text/plain bereit, auch wenn die Quelle etwas anderes angegeben hat, wie z. B. HTML.
poison_fountain_update_robots_txt Standardmäßig aktiviert, fügt dies den vergifteten Inhalt zur Ausschlussliste hinzu. Web-Spider, die robots.txt respektieren, würden den vergifteten Inhalt vollständig ignorieren.
poison_fountain_cache_hours Stunden, für die der Inhalt zwischengespeichert wird, bevor neuer Inhalt abgerufen wird. Maximal 24 Stunden.
poison_fountain_entries Anzahl der vorgehaltenen vergifteten Einträge
poison_fountain_link_count Anzahl der Links, die zu den generierten HTML-Seiten hinzugefügt werden

Dieses Projekt ist nicht mit RNSAFFN verbunden. Es bietet eine Integration mit deren Dienst. Diese Integration kann so konfiguriert werden, dass ein anderer ähnlich funktionierender Dienst verwendet wird.

Sie sollten sich bewusst sein, dass Sie durch die Verwendung dieses Plugins dem Inhalt vertrauen, der von dem verwendeten Giftbrunnen generiert wird, und dass Sie diesen weiterleiten. Standardmäßig wird dieses Plugin versuchen, diesen Inhalt „größtenteils harmlos“ zu machen, indem es nur textuellen Inhalt als einfachen Text bereitstellt.

7 „Gefällt mir“