| Zusammenfassung | Fügt dem Inhalt versteckte Links hinzu, die Web-Scraper vergiften können, die nicht kooperativ sind. | |
| Repository-Link | \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e | |
| Installationsanleitung | Plugins in Discourse installieren |
Funktionen
Zu jeder generierten Seite werden Links zu Seiten mit vergifteten Inhalten hinzugefügt. Wenn ein schlechter Web-Scraper diesen Inhalt konsumiert und ihn zum Trainieren eines LLM verwendet, wird dies das resultierende Modell negativ beeinflussen.
Diese Links sind für Benutzer verborgen; sie sind mit rel="nofollow" markiert, und standardmäßig weist die robots.txt Web-Spider an, diesen Inhalt nicht zu konsumieren. Die versteckten Links werden nur für nicht authentifizierte Anfragen hinzugefügt.
Das Plugin verwendet standardmäßig den vergifteten Inhalt von RNSAFFN. Weitere Informationen finden Sie auf dieser Seite. Sie können die Giftquelle in den Einstellungen ändern.
Der vergiftete Inhalt wird von Seiten mit URLs wie /dpf/\u003csome-random-slug\u003e/\u003cid\u003e bereitgestellt. Mit der Standardkonfiguration könnten Sie eine fail2ban-Regel für diesen Pfad für IPs erstellen, die einige Male Seiten von /dpf/ anfordern, um schlechte Scraper abzuwehren.
Konfiguration
Sie müssen das Plugin nur installieren und aktivieren, damit es im Hintergrund seine Arbeit aufnimmt. Sie können einige zusätzliche Einstellungen anpassen.
Einstellungen
Eine Tabelle mit Einstellungen und deren Beschreibungen
| Name | Beschreibung |
|---|---|
poison_fountain_source |
Die Website, die den Inhalt generiert, der von den vergifteten Seiten bereitgestellt wird. |
poison_fountain_textual_only |
Akzeptiert nur textuellen Inhalt von der Giftquelle. Dies verhindert die Bereitstellung von Binärinhalten. |
poison_fountain_force_plain_text |
Stellt den Inhalt immer als text/plain bereit, auch wenn die Quelle etwas anderes angegeben hat, wie z. B. HTML. |
poison_fountain_update_robots_txt |
Standardmäßig aktiviert, fügt dies den vergifteten Inhalt zur Ausschlussliste hinzu. Web-Spider, die robots.txt respektieren, würden den vergifteten Inhalt vollständig ignorieren. |
poison_fountain_cache_hours |
Stunden, für die der Inhalt zwischengespeichert wird, bevor neuer Inhalt abgerufen wird. Maximal 24 Stunden. |
poison_fountain_entries |
Anzahl der vorgehaltenen vergifteten Einträge |
poison_fountain_link_count |
Anzahl der Links, die zu den generierten HTML-Seiten hinzugefügt werden |
Dieses Projekt ist nicht mit RNSAFFN verbunden. Es bietet eine Integration mit deren Dienst. Diese Integration kann so konfiguriert werden, dass ein anderer ähnlich funktionierender Dienst verwendet wird.
Sie sollten sich bewusst sein, dass Sie durch die Verwendung dieses Plugins dem Inhalt vertrauen, der von dem verwendeten Giftbrunnen generiert wird, und dass Sie diesen weiterleiten. Standardmäßig wird dieses Plugin versuchen, diesen Inhalt „größtenteils harmlos“ zu machen, indem es nur textuellen Inhalt als einfachen Text bereitstellt.