Discourse Giftbrunnen

:information_source: Zusammenfassung Fügt dem Inhalt versteckte Links hinzu, die Web-Scraper vergiften können, die sich nicht gut verhalten.
:hammer_and_wrench: Repository-Link GitHub - elmuerte/discourse-poison-fountain: Discourse plugin which adds hidden poisoned content to trip bad webscrapers
:open_book: Installationsanleitung Wie man Plugins in Discourse installiert

Funktionen

Zu jeder generierten Seite werden Links zu Seiten mit vergifteten Inhalten hinzugefügt. Wenn ein schlechter Web-Scraper diesen Inhalt konsumiert und ihn zum Trainieren eines LLM verwendet, wirkt sich dies negativ auf das resultierende Modell aus.

Diese Links sind für Benutzer verborgen, sie sind mit rel="nofollow" gekennzeichnet und standardmäßig weist die robots.txt Web-Spider an, diesen Inhalt nicht zu konsumieren. Die versteckten Links werden nur für nicht authentifizierte Anfragen hinzugefügt.

Das Plugin verwendet standardmäßig den vergifteten Inhalt von RNSAFFN. Weitere Informationen finden Sie auf dieser Seite. Sie können die Giftquelle in den Einstellungen ändern.

Der vergiftete Inhalt wird von Seiten mit URLs wie /dpf/<einige-zufällige-slug>/<id> bereitgestellt. Mit der Standardkonfiguration könnten Sie eine fail2ban-Regel für diesen Pfad für IPs erstellen, die einige Male Seiten von /dpf/ anfordern, um schlechte Scraper abzuwehren.

Konfiguration

Sie müssen das Plugin nur installieren und aktivieren, damit es im Hintergrund seine Arbeit aufnimmt. Sie können einige zusätzliche Einstellungen anpassen.

Einstellungen

Eine Tabelle mit Einstellungen und deren Beschreibungen

Name Beschreibung
poison_fountain_source Die Website, die den Inhalt generiert, der von den vergifteten Seiten bereitgestellt wird.
poison_fountain_update_robots_txt Standardmäßig aktiviert, fügt dies den vergifteten Inhalt zur Ausschlussliste hinzu. Web-Spider, die robots.txt respektieren, würden den vergifteten Inhalt vollständig ignorieren.
poison_fountain_cache_hours Stunden, für die der Inhalt zwischengespeichert wird, bevor neuer Inhalt abgerufen wird. Maximal 24 Stunden.
poison_fountain_entries Anzahl der vorgehaltenen vergifteten Einträge
poison_fountain_link_count Anzahl der Links, die zu den generierten HTML-Seiten hinzugefügt werden sollen
3 „Gefällt mir“