Einrichtung der NSFW-Erkennung in Ihrer Community

Saif · 10. Oktober 2024 um 04:26

Dies ist eine Anleitung zur Einrichtung der Erkennung von NSFW-Inhalten in Ihrer Community mithilfe der Discourse AI-Automatisierung zur Identifizierung und Moderation unangemessener Bilder und Texte.

Erforderliches Benutzerniveau: Administrator

Einrichtung der NSFW-Erkennung in Ihrer Community

Erkennen und moderieren Sie automatisch NSFW-Inhalte (Not Safe for Work) in Ihrer Discourse-Community mithilfe KI-gestützter Automatisierung. Diese Anleitung hilft Ihnen bei der Konfiguration der automatisierten Erkennung von unangemessenen Bildern und Textinhalten, sodass Sie Community-Standards mit minimalem manuellem Eingriff aufrechterhalten können.

Zusammenfassung

Diese Dokumentation behandelt die Konfiguration der Discourse AI Post Classifier-Automatisierung zur:

Erkennung von NSFW-Bildern mithilfe von Vision-fähigen KI-Modellen
Identifizierung unangemessener Textinhalte und Sprache
Automatisches Markieren, Kategorisieren und Moderieren problematischer Beiträge
Einrichtung benutzerdefinierter Antworten und Moderationsaktionen

Die Automatisierung verwendet große Sprachmodelle (LLMs), um den Beitragsinhalt zu analysieren und vordefinierte Aktionen auszuführen, wenn NSFW-Material erkannt wird.

Voraussetzungen

Stellen Sie vor der Einrichtung der NSFW-Erkennung sicher, dass Folgendes aktiviert ist:

Discourse AI Plugin: Das Kern-Plugin für KI-Funktionalität
Discourse Automation Plugin: Erforderlich für die Erstellung automatisierter Regeln
Persona: Persona mit einer Systemaufforderung, die definiert, was NSFW-Inhalte ausmacht. Verwenden Sie eine eindeutige Sprache für positive und negative Klassifizierungen, um Verwirrung zu vermeiden.
Vision-fähiges LLM: Nur für die Bilderkennung erforderlich; Standard-LLMs funktionieren für die reine Texterkennung.
- Von Discourse gehostete Kunden können unser CDCK Hosted Small LLM bei der Konfiguration von Personas auswählen.
- Selbst gehostete Discourse-Benutzer müssen ein Drittanbieter-LLM konfigurieren.

Beispiel-Prompts:

Für die Bilderkennung:

Sie sind ein Bot, der sich auf Bildklassifizierung spezialisiert hat. Antworten Sie nur mit NSFW oder SAFE und nichts anderem. NSFW ist Pornografie oder Gore, und SAFE ist alles andere. Im Zweifelsfall antworten Sie mit SAFE.

Für die Text-Erkennung:

Sie sind ein fortschrittliches KI-System zur Inhaltsmoderation, das zur Triage von benutzergenerierten Beiträgen entwickelt wurde. Ihre Aufgabe ist es, Inhalte zu erkennen und zu markieren, die schlechte Sprache, unangemessene Begriffe oder NSFW-Inhalte (Not Safe for Work) enthalten.

NSFW-Inhalte umfassen explizite sexuelle Inhalte, Gewalt, Hassreden, grafische Sprache, Diskriminierung, Hinweise auf Selbstverletzung oder illegale Aktivitäten.

Antworten Sie mit genau einem Wort:
* "SAFE": Der Beitrag ist angemessen und enthält keine schlechten oder NSFW-Inhalte
* "NSFW": Wenn schlechte, unangemessene oder NSFW-Inhalte erkannt werden

Seien Sie kontextbewusst und vermeiden Sie Fehlalarme.

Konfigurationsschritte

Erforderliche Plugins aktivieren

Navigieren Sie zum Admin-Panel Ihrer Website
Gehen Sie zu Plugins > Installierte Plugins
Aktivieren Sie sowohl das Discourse AI- als auch das Automation-Plugin

Automatisierungsregel erstellen

Navigieren Sie im Admin-Panel zu Plugins > Automation
Klicken Sie auf + Erstellen, um mit der Erstellung einer neuen Automatisierungsregel zu beginnen
Wählen Sie Beiträge mithilfe von KI triagieren
Geben Sie einen beschreibenden Namen ein (z. B. „NSFW-Inhalts-Erkennung“)

Trigger und Einschränkungen konfigurieren

Legen Sie den Trigger fest:

Wählen Sie Beitrag erstellt/bearbeitet als Trigger
Geben Sie optional den Aktionstyp, die Kategorie, Tags, Gruppen oder Vertrauensstufen an, um den Automatisierungsbereich einzuschränken
Lassen Sie Felder leer, um die Automatisierung website-weit anzuwenden

Optionale Einschränkungen:
Konfigurieren Sie zusätzliche Einstellungen im Abschnitt „Was/Wann“, um den Automatisierungsbereich weiter einzuschränken, z. B. nur die ersten Beiträge von neuen Benutzern anzusprechen.

KI-Klassifizierung konfigurieren

Das Feld für die Systemaufforderung wurde zugunsten von Personas als veraltet markiert. Wenn Sie vor dieser Änderung eine KI-Automatisierung hatten, wird automatisch eine neue Persona mit der zugehörigen Systemaufforderung erstellt.

Persona:
Wählen Sie die für die NSFW-Erkennungsautomatisierung definierte Persona aus.

Suchtext:
Geben Sie die exakte Ausgabe Ihrer Aufforderung ein, die die Automatisierungsaktionen auslöst. Verwenden Sie die obigen Beispiele und geben Sie NSFW ein.

Moderationsaktionen festlegen

Kategorisierung und Tagging:

Definieren Sie die Kategorie, in die markierte Beiträge verschoben werden sollen
Geben Sie Tags an, die zu identifizierten NSFW-Inhalten hinzugefügt werden sollen

Flagging-Optionen:

Wählen Sie den Flag-Typ: Spam (automatisch ausblenden) oder Überprüfungswarteschlange (manuelle Überprüfung)
Aktivieren Sie „Thema ausblenden“, um markierte Inhalte automatisch auszublenden

Automatisierte Antworten:

Legen Sie einen Antwortbenutzer für Systemantworten fest
Erstellen Sie eine benutzerdefinierte Nachricht, die erklärt, warum der Beitrag markiert wurde
Verwenden Sie optional eine KI-Persona für dynamische Antworten

Hinweise

Denken Sie daran, dass LLM-Aufrufe teuer sein können. Seien Sie bei der Anwendung eines Klassifikators vorsichtig, überwachen Sie die Kosten und erwägen Sie immer, dies nur bei kleinen Teilmengen auszuführen.
Besser performende Modelle, z. B. GPT-4o, liefern zwar bessere Ergebnisse, können aber mit höheren Kosten verbunden sein. Wir haben jedoch gesehen, dass die Kosten im Laufe der Zeit sinken, da LLMs immer besser und günstiger werden.

Andere Verwendungen

Die Aufforderung könnte angepasst werden, um alle Arten von Erkennungen durchzuführen, wie z. B. die Offenlegung von PII und Spam-Erkennung. Wir würden uns freuen zu hören, wie Sie diese Automatisierung zum Nutzen Ihrer Community einsetzen!

fokx · 1. Januar 2026 um 16:03

LLMs können langsam sein, daher kann der Beitrag, der NSFW-Bilder enthält, mehrere Sekunden lang sichtbar sein, bevor er markiert und ausgeblendet wird.
Ich frage mich, ob die NSFW-Erkennung erfolgen kann, nachdem der Benutzer Bilder hochgeladen hat und bevor der Beitrag übermittelt wird?
Selbst wenn Benutzer warten müssen, bis die Triage abgeschlossen ist, bevor sie den Beitrag absenden können. In manchen Szenarien ist dies akzeptabel.

Thema		Antworten	Aufrufe
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	419	7. Juli 2023
Setting up toxicity detection in your community Site Management moderation , automation , how-to , ai	0	896	7. August 2024
Discourse AI - Spam detection Site Management moderation , how-to , ai , spam	22	2793	25. September 2025
NSFW image blurring in chat Support chat , ai	5	526	26. September 2024
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	757	26. Mai 2025

Einrichtung der NSFW-Erkennung in Ihrer Community

Einrichtung der NSFW-Erkennung in Ihrer Community

Zusammenfassung

Voraussetzungen

Konfigurationsschritte

Erforderliche Plugins aktivieren

Automatisierungsregel erstellen

Trigger und Einschränkungen konfigurieren

KI-Klassifizierung konfigurieren

Moderationsaktionen festlegen

Hinweise

Andere Verwendungen

Verwandte Themen