Einrichtung der NSFW-Erkennung in Ihrer Community

:bookmark: Dies ist eine Anleitung zur Einrichtung der Erkennung von NSFW-Inhalten in Ihrer Community mithilfe der Discourse AI-Automatisierung zur Identifizierung und Moderation unangemessener Bilder und Texte.

:person_raising_hand: Erforderliches Benutzerniveau: Administrator

Einrichtung der NSFW-Erkennung in Ihrer Community

Erkennen und moderieren Sie automatisch NSFW-Inhalte (Not Safe for Work) in Ihrer Discourse-Community mithilfe KI-gestützter Automatisierung. Diese Anleitung hilft Ihnen bei der Konfiguration der automatisierten Erkennung von unangemessenen Bildern und Textinhalten, sodass Sie Community-Standards mit minimalem manuellem Eingriff aufrechterhalten können.

Zusammenfassung

Diese Dokumentation behandelt die Konfiguration der Discourse AI Post Classifier-Automatisierung zur:

  • Erkennung von NSFW-Bildern mithilfe von Vision-fähigen KI-Modellen
  • Identifizierung unangemessener Textinhalte und Sprache
  • Automatisches Markieren, Kategorisieren und Moderieren problematischer Beiträge
  • Einrichtung benutzerdefinierter Antworten und Moderationsaktionen

Die Automatisierung verwendet große Sprachmodelle (LLMs), um den Beitragsinhalt zu analysieren und vordefinierte Aktionen auszuführen, wenn NSFW-Material erkannt wird.

Voraussetzungen

Stellen Sie vor der Einrichtung der NSFW-Erkennung sicher, dass Folgendes aktiviert ist:

  • Discourse AI Plugin: Das Kern-Plugin für KI-Funktionalität
  • Discourse Automation Plugin: Erforderlich für die Erstellung automatisierter Regeln
  • Persona: Persona mit einer Systemaufforderung, die definiert, was NSFW-Inhalte ausmacht. Verwenden Sie eine eindeutige Sprache für positive und negative Klassifizierungen, um Verwirrung zu vermeiden.
  • Vision-fähiges LLM: Nur für die Bilderkennung erforderlich; Standard-LLMs funktionieren für die reine Texterkennung.
    • Von Discourse gehostete Kunden können unser CDCK Hosted Small LLM bei der Konfiguration von Personas auswählen.
    • Selbst gehostete Discourse-Benutzer müssen ein Drittanbieter-LLM konfigurieren.

Beispiel-Prompts:

Für die Bilderkennung:

Sie sind ein Bot, der sich auf Bildklassifizierung spezialisiert hat. Antworten Sie nur mit NSFW oder SAFE und nichts anderem. NSFW ist Pornografie oder Gore, und SAFE ist alles andere. Im Zweifelsfall antworten Sie mit SAFE.

Für die Text-Erkennung:

Sie sind ein fortschrittliches KI-System zur Inhaltsmoderation, das zur Triage von benutzergenerierten Beiträgen entwickelt wurde. Ihre Aufgabe ist es, Inhalte zu erkennen und zu markieren, die schlechte Sprache, unangemessene Begriffe oder NSFW-Inhalte (Not Safe for Work) enthalten.

NSFW-Inhalte umfassen explizite sexuelle Inhalte, Gewalt, Hassreden, grafische Sprache, Diskriminierung, Hinweise auf Selbstverletzung oder illegale Aktivitäten.

Antworten Sie mit genau einem Wort:
* "SAFE": Der Beitrag ist angemessen und enthält keine schlechten oder NSFW-Inhalte
* "NSFW": Wenn schlechte, unangemessene oder NSFW-Inhalte erkannt werden

Seien Sie kontextbewusst und vermeiden Sie Fehlalarme.

Konfigurationsschritte

Erforderliche Plugins aktivieren

  1. Navigieren Sie zum Admin-Panel Ihrer Website
  2. Gehen Sie zu Plugins > Installierte Plugins
  3. Aktivieren Sie sowohl das Discourse AI- als auch das Automation-Plugin

Automatisierungsregel erstellen

  1. Navigieren Sie im Admin-Panel zu Plugins > Automation
  2. Klicken Sie auf + Erstellen, um mit der Erstellung einer neuen Automatisierungsregel zu beginnen
  3. Wählen Sie Beiträge mithilfe von KI triagieren
  4. Geben Sie einen beschreibenden Namen ein (z. B. „NSFW-Inhalts-Erkennung“)

Trigger und Einschränkungen konfigurieren

Legen Sie den Trigger fest:

  • Wählen Sie Beitrag erstellt/bearbeitet als Trigger
  • Geben Sie optional den Aktionstyp, die Kategorie, Tags, Gruppen oder Vertrauensstufen an, um den Automatisierungsbereich einzuschränken
  • Lassen Sie Felder leer, um die Automatisierung website-weit anzuwenden

Optionale Einschränkungen:
Konfigurieren Sie zusätzliche Einstellungen im Abschnitt „Was/Wann“, um den Automatisierungsbereich weiter einzuschränken, z. B. nur die ersten Beiträge von neuen Benutzern anzusprechen.

KI-Klassifizierung konfigurieren

:spiral_notepad: Das Feld für die Systemaufforderung wurde zugunsten von Personas als veraltet markiert. Wenn Sie vor dieser Änderung eine KI-Automatisierung hatten, wird automatisch eine neue Persona mit der zugehörigen Systemaufforderung erstellt.

Persona:
Wählen Sie die für die NSFW-Erkennungsautomatisierung definierte Persona aus.

Suchtext:
Geben Sie die exakte Ausgabe Ihrer Aufforderung ein, die die Automatisierungsaktionen auslöst. Verwenden Sie die obigen Beispiele und geben Sie NSFW ein.

Moderationsaktionen festlegen

Kategorisierung und Tagging:

  • Definieren Sie die Kategorie, in die markierte Beiträge verschoben werden sollen
  • Geben Sie Tags an, die zu identifizierten NSFW-Inhalten hinzugefügt werden sollen

Flagging-Optionen:

  • Wählen Sie den Flag-Typ: Spam (automatisch ausblenden) oder Überprüfungswarteschlange (manuelle Überprüfung)
  • Aktivieren Sie „Thema ausblenden“, um markierte Inhalte automatisch auszublenden

Automatisierte Antworten:

  • Legen Sie einen Antwortbenutzer für Systemantworten fest
  • Erstellen Sie eine benutzerdefinierte Nachricht, die erklärt, warum der Beitrag markiert wurde
  • Verwenden Sie optional eine KI-Persona für dynamische Antworten

Hinweise

  • Denken Sie daran, dass LLM-Aufrufe teuer sein können. Seien Sie bei der Anwendung eines Klassifikators vorsichtig, überwachen Sie die Kosten und erwägen Sie immer, dies nur bei kleinen Teilmengen auszuführen.
  • Besser performende Modelle, z. B. GPT-4o, liefern zwar bessere Ergebnisse, können aber mit höheren Kosten verbunden sein. Wir haben jedoch gesehen, dass die Kosten im Laufe der Zeit sinken, da LLMs immer besser und günstiger werden.

Andere Verwendungen

Die Aufforderung könnte angepasst werden, um alle Arten von Erkennungen durchzuführen, wie z. B. die Offenlegung von PII und Spam-Erkennung. Wir würden uns freuen zu hören, wie Sie diese Automatisierung zum Nutzen Ihrer Community einsetzen!

6 „Gefällt mir“