NSFW-Erkennung in Ihrer Community einrichten

:bookmark: Dies ist eine Anleitung zur Einrichtung der Erkennung von NSFW-Inhalten in Ihrer Community mithilfe der Discourse AI-Automatisierung, um unangemessene Bilder und Texte zu identifizieren und zu moderieren.

:person_raising_hand: Erforderliches Benutzerniveau: Administrator

NSFW-Erkennung in Ihrer Community einrichten

Erkennen und moderieren Sie NSFW-Inhalte (Not Safe for Work) automatisch in Ihrer Discourse-Community mithilfe von KI-gestützter Automatisierung. Diese Anleitung hilft Ihnen bei der Konfiguration der automatisierten Erkennung sowohl für unangemessene Bilder als auch für Textinhalte, sodass Sie die Community-Standards mit minimalem manuellem Eingriff aufrechterhalten können.

Zusammenfassung

Diese Dokumentation behandelt die Konfiguration der Discourse AI Beiträge mit KI klassifizieren (Triage posts using AI) Automatisierung, um:

  • NSFW-Bilder mithilfe von vision-fähigen KI-Modellen zu erkennen
  • Unangemessene Textinhalte und Sprache zu identifizieren
  • Problematische Beiträge automatisch zu kennzeichnen, zu kategorisieren und zu moderieren
  • Benutzerdefinierte Antworten und Moderationsaktionen einzurichten

Die Automatisierung verwendet große Sprachmodelle (LLMs), um den Beitragsinhalt zu analysieren, und ergreift vordefinierte Maßnahmen, wenn NSFW-Material erkannt wird.

Voraussetzungen

Stellen Sie sicher, dass Sie die folgenden Punkte aktiviert haben, bevor Sie die NSFW-Erkennung einrichten:

  • Discourse AI Plugin: Das Kern-Plugin für KI-Funktionalität
  • Discourse Automation Plugin: Erforderlich für die Erstellung automatisierter Regeln
  • Agent: Agent mit einem System-Prompt, der definiert, was NSFW-Inhalte ausmacht. Verwenden Sie eine eindeutige Sprache für positive und negative Klassifizierungen, um Verwechslungen zu vermeiden.
  • Vision-fähiges LLM: Nur für die Bilderkennung erforderlich; Standard-LLMs funktionieren für die reine Texterkennung. Stellen Sie sicher, dass „Vision enabled“ sowohl für das LLM-Modell als auch für den Agenten aktiviert ist.
    • Kunden, die bei Discourse gehostet werden, können unser CDCK Hosted Small LLM bei der Konfiguration von Agents auswählen.
    • Benutzer mit selbst gehostetem Discourse müssen ein externes LLM konfigurieren.

Beispiel-Prompts:

Für die Bilderkennung:

You are a bot specializing in image classification. Respond only with either NSFW or SAFE, and nothing else. NSFW is porn or gore, and SAFE is everything else. When in doubt reply with SAFE.

Für die Texterkennung:

You are an advanced AI content moderation system designed to triage user-generated posts. Your task is to detect and flag any content that includes bad language, inappropriate terms, or NSFW (Not Safe for Work) content.

NSFW content includes explicit sexual content, violence, hate speech, graphic language, discrimination, self-harm references, or illegal activity.

Respond with exactly one word:
* "SAFE": The post is appropriate and doesn't contain bad or NSFW content
* "NSFW": If bad, inappropriate, or NSFW content is detected

Be context-aware and avoid false positives.

Konfigurationsschritte

Erforderliche Plugins aktivieren

  1. Navigieren Sie zum Admin-Panel Ihrer Seite.
  2. Gehen Sie zu Plugins > Installierte Plugins
  3. Aktivieren Sie sowohl das Discourse AI als auch das Automation Plugin.

Automatisierungsregel erstellen

  1. Navigieren Sie im Admin-Panel zu Plugins > Automation.
  2. Klicken Sie auf + Erstellen, um mit der Erstellung einer neuen Automatisierungsregel zu beginnen.
  3. Wählen Sie Beiträge mit KI klassifizieren (Triage Posts Using AI).
  4. Geben Sie einen beschreibenden Namen ein (z. B. „NSFW-Inhaltserkennung“).

Trigger und Einschränkungen konfigurieren

Legen Sie den Trigger fest:

  • Wählen Sie Beitrag erstellt/bearbeitet als Trigger für das Scannen neuer oder bearbeiteter Beiträge.
  • Alternativ wählen Sie Thema ins Stocken geraten (Stalled topic), um Themen zu klassifizieren, die für eine bestimmte Dauer ohne Antworten geblieben sind.
  • Optional können Sie den Aktionstyp, Kategorien, Tags, Gruppen, Vertrauensstufen oder Beitragsfunktionen festlegen, um den Automatisierungsbereich einzuschränken.
  • Lassen Sie Felder leer, um die Automatisierung auf der gesamten Seite anzuwenden.

Optionale Einschränkungen (Trigger „Beitrag erstellt/bearbeitet“):
Konfigurieren Sie zusätzliche Einstellungen, um den Automatisierungsbereich weiter einzugrenzen:

  • Nur erster Beitrag oder Nur Originalbeitrag, um nur neue Themen anzusprechen.
  • Nur erstes Thema, um nur das erste Thema eines Benutzers anzusprechen.
  • Beitragsfunktionen, um auf Beiträge mit Bildern, Links, Code oder Uploads zu beschränken – nützlich für bildbasierte NSFW-Erkennung.
  • Eingeschränkter Archetyp, um die Beschränkung auf reguläre Themen, öffentliche Themen oder persönliche Nachrichten festzulegen.

KI-Klassifizierung konfigurieren

:spiral_notepad: Das Feld für den System-Prompt wurde zugunsten von Agents eingestellt. Wenn Sie vor dieser Änderung eine AI-Automatisierung hatten, wird automatisch ein neuer Agent mit dem zugehörigen System-Prompt erstellt.

Agent:
Wählen Sie den für die NSFW-Erkennungsautomatisierung definierten Agenten aus.

Suchtext:
Geben Sie die exakte Ausgabe Ihres Prompts ein, die die Automatisierungsaktionen auslöst. Verwenden Sie bei den obigen Beispielen NSFW.

Erweiterte Optionen:

  • Max. Beitragstoken: Begrenzt, wie viele Token des Beitrags an das LLM gesendet werden.
  • Max. Ausgabetoken: Legt eine Obergrenze für die Anzahl der Token fest, die das Modell generieren kann.
  • Stop-Sequenzen: Weist das Modell an, die Generierung zu beenden, wenn es auf bestimmte Werte stößt.

Moderationsaktionen festlegen

Kategorisierung und Tagging:

  • Definieren Sie die Kategorie, in die gekennzeichnete Beiträge verschoben werden sollen.
  • Legen Sie Tags fest, die zu identifizierten NSFW-Inhalten hinzugefügt werden sollen.

Kennzeichnungsoptionen (Flagging):

  • Aktivieren Sie Beitrag kennzeichnen (Flag post), um die Kennzeichnung zu aktivieren, und wählen Sie dann einen Flag-Typ:
    • Beitrag zur Überprüfungswarteschlange hinzufügen — sendet den Beitrag zur manuellen Moderatorenprüfung an die Überprüfungswarteschlange.
    • Beitrag zur Überprüfungswarteschlange hinzufügen und Beitrag ausblenden — Überprüfungswarteschlange + blendet den Beitrag sofort aus.
    • Beitrag zur Überprüfungswarteschlange hinzufügen und Beitrag löschen — Überprüfungswarteschlange + weiches Löschen des Beitrags.
    • Beitrag zur Überprüfungswarteschlange hinzufügen, Beitrag löschen und Benutzer stummschalten — Überprüfungswarteschlange + weiches Löschen des Beitrags + Stummschalten des Autors.
    • Als Spam kennzeichnen und Beitrag ausblenden — kennzeichnet den Beitrag als Spam (blendet ihn automatisch aus).
    • Als Spam kennzeichnen, Beitrag ausblenden und Benutzer stummschalten — Spam-Kennzeichnung + Stummschalten des Autors.
  • Aktivieren Sie Thema ausblenden (Hide Topic), um das gesamte Thema automatisch auszublenden.

Automatisierte Antworten:

  • Legen Sie einen Antwort-Benutzer (Reply User) und eine Antwort (vordefinierte Antwort) fest, um eine feste Nachricht zu posten, die erklärt, warum der Beitrag gekennzeichnet wurde.
  • Wählen Sie einen Antwort-Agenten (Reply Agent), um einen separaten KI-Agenten für die Generierung dynamischer Antworten zu verwenden (dies hat Vorrang vor einer vordefinierten Antwort).
  • Aktivieren Sie Als Whisper antworten (Reply as Whisper), damit die Antwort nur für das Personal sichtbar ist.

Benutzerbenachrichtigungen:

  • Aktivieren Sie Autor per PN benachrichtigen (Notify author via PM), um dem Beitragsautor eine persönliche Nachricht zu senden, wenn sein Inhalt gekennzeichnet wird.
  • Legen Sie einen PN-Absender (PM sender) fest (Standard ist das System) und geben Sie optional einen benutzerdefinierten PN-Inhalt (PM content) an.

Weitere Optionen:

  • Aktivieren Sie Persönliche Nachrichten einschließen (Include personal messages), um auch persönliche Nachrichten zu scannen und zu klassifizieren.

Einschränkungen

  • Denken Sie daran, dass LLM-Aufrufe teuer sein können. Seien Sie vorsichtig, wenn Sie einen Klassifikator anwenden, überwachen Sie die Kosten und ziehen Sie immer in Betracht, dies nur auf kleinen Teilmengen auszuführen.
  • Während besser funktionierende Modelle, z. B. GPT-4o, bessere Ergebnisse liefern, kann dies mit höheren Kosten verbunden sein. Wir haben jedoch festgestellt, dass die Kosten im Laufe der Zeit sinken, wenn LLMs noch besser und günstiger werden.

Andere Verwendungszwecke

Der Prompt könnte angepasst werden, um alle möglichen Arten von Erkennungen durchzuführen, wie z. B. das Aufdecken von PII (Persönlich identifizierbare Informationen) und Spam-Erkennung. Wir würden uns freuen zu hören, wie Sie diese Automatisierung nutzen, um Ihrer Community Vorteile zu verschaffen!

8 „Gefällt mir“

Ein Beitrag wurde in ein neues Thema verschoben: LLM und Verzögerung bei der Erkennung von NSFW-Inhalten