NSFW-Erkennung in deiner Community einrichten

:bookmark: Dies ist eine Anleitung zur Einrichtung der Erkennung von NSFW-Inhalten in Ihrer Community mithilfe der Discourse AI-Automatisierung, um unangemessene Bilder und Texte zu identifizieren und zu moderieren.

:person_raising_hand: Erforderliches Benutzerniveau: Administrator

NSFW-Erkennung in Ihrer Community einrichten

Erkennen und moderieren Sie automatisch NSFW-Inhalte (Not Safe for Work) in Ihrer Discourse-Community mithilfe KI-gesteuerter Automatisierung. Diese Anleitung hilft Ihnen bei der Konfiguration der automatisierten Erkennung sowohl für unangemessene Bilder als auch für Textinhalte, sodass Sie die Community-Standards mit minimalem manuellem Eingriff aufrechterhalten können.

Zusammenfassung

Diese Dokumentation behandelt die Konfiguration der Discourse AI Post Classifier-Automatisierung, um:

  • NSFW-Bilder mithilfe von Vision-fähigen KI-Modellen zu erkennen
  • Unangemessene Textinhalte und Sprache zu identifizieren
  • Problematische Beiträge automatisch zu kennzeichnen, zu kategorisieren und zu moderieren
  • Benutzerdefinierte Antworten und Moderationsaktionen einzurichten

Die Automatisierung verwendet große Sprachmodelle (LLMs), um Beitragsinhalte zu analysieren und vordefinierte Aktionen auszuführen, wenn NSFW-Material erkannt wird.

Voraussetzungen

Bevor Sie die NSFW-Erkennung einrichten, stellen Sie sicher, dass Folgendes aktiviert ist:

  • Discourse AI Plugin: Das Kern-Plugin für KI-Funktionalität
  • Discourse Automation Plugin: Erforderlich für die Erstellung automatisierter Regeln
  • Agent: Agent mit einem System-Prompt, der definiert, was NSFW-Inhalte ausmacht. Verwenden Sie eine eindeutige Sprache für positive und negative Klassifizierungen, um Verwirrung zu vermeiden.
  • Vision-fähiges LLM: Nur für die Bilderkennung erforderlich; Standard-LLMs funktionieren für die reine Texterkennung.
    • Kunden mit gehosteter Discourse-Lösung können Small LLM bei CDCK-Hosting auswählen, wenn sie Agenten konfigurieren.
    • Benutzer von selbst gehostetem Discourse müssen ein Drittanbieter-LLM konfigurieren.

Beispiel-Prompts:

Für die Bilderkennung:

Sie sind ein Bot, der auf Bildklassifizierung spezialisiert ist. Antworten Sie nur mit NSFW oder SAFE und nichts anderem. NSFW ist Pornografie oder Gore, und SAFE ist alles andere. Im Zweifelsfall antworten Sie mit SAFE.

Für die Texterkennung:

Sie sind ein fortschrittliches KI-Inhaltsmoderationssystem, das zur Sichtung von benutzergenerierten Beiträgen entwickelt wurde. Ihre Aufgabe ist es, Inhalte zu erkennen und zu kennzeichnen, die schlechte Sprache, unangemessene Begriffe oder NSFW-Inhalte (Not Safe for Work) enthalten.

NSFW-Inhalte umfassen explizit sexuelle Inhalte, Gewalt, Hassrede, grafische Sprache, Diskriminierung, Verweise auf Selbstverletzung oder illegale Aktivitäten.

Antworten Sie mit genau einem Wort:
* "SAFE": Der Beitrag ist angemessen und enthält keine schlechten oder NSFW-Inhalte
* "NSFW": Wenn schlechte, unangemessene oder NSFW-Inhalte erkannt werden

Achten Sie auf den Kontext und vermeiden Sie Fehlalarme.

Konfigurationsschritte

Erforderliche Plugins aktivieren

  1. Navigieren Sie zum Admin-Panel Ihrer Seite
  2. Gehen Sie zu Plugins > Installierte Plugins
  3. Aktivieren Sie sowohl das Discourse AI als auch das Automation Plugin

Automatisierungsregel erstellen

  1. Navigieren Sie im Admin-Panel zu Plugins > Automation
  2. Klicken Sie auf + Erstellen, um mit der Erstellung einer neuen Automatisierungsregel zu beginnen
  3. Wählen Sie Beiträge mithilfe von KI sichten
  4. Legen Sie einen beschreibenden Namen fest (z. B. „NSFW-Inhaltserkennung“)

Auslöser und Einschränkungen konfigurieren

Legen Sie den Auslöser fest:

  • Wählen Sie Beitrag erstellt/bearbeitet als Auslöser
  • Optional können Sie Aktionstyp, Kategorie, Tags, Gruppen oder Vertrauensstufen angeben, um den Automatisungsbereich einzuschränken
  • Lassen Sie Felder leer, um die Automatisierung seitenweit anzuwenden

Optionale Einschränkungen:
Konfigurieren Sie zusätzliche Einstellungen im Abschnitt „Was/Wann“, um den Automatisierungsbereich weiter einzugrenzen, z. B. nur die ersten Beiträge neuer Benutzer anzuzielen.

KI-Klassifizierung konfigurieren

:spiral_notepad: Das Feld für den System-Prompt wurde zugunsten von Agents abgeschafft. Wenn Sie vor dieser Änderung eine KI-Automatisierung hatten, wird automatisch ein neuer Agent mit dem zugehörigen System-Prompt erstellt.

Agent:
Wählen Sie den Agenten aus, der für die NSFW-Erkennungsautomatisierung definiert wurde.

Suchtext:
Geben Sie die exakte Ausgabe Ihres Prompts ein, die die Automatisierungsaktionen auslöst. Verwenden Sie die obigen Beispiele und geben Sie NSFW ein.

Moderationsaktionen festlegen

Kategorisierung und Kennzeichnung:

  • Definieren Sie die Kategorie, in die gekennzeichnete Beiträge verschoben werden sollen
  • Geben Sie Tags an, die zu identifizierten NSFW-Inhalten hinzugefügt werden sollen

Kennzeichnungsoptionen:

  • Wählen Sie den Flag-Typ: Spam (automatisch ausblenden) oder Warteschlange überprüfen (manuelle Überprüfung)
  • Aktivieren Sie „Thema ausblenden“, um gekennzeichnete Inhalte automatisch auszublenden

Automatisierte Antworten:

  • Legen Sie einen Antwortbenutzer für Systemantworten fest
  • Erstellen Sie eine benutzerdefinierte Nachricht, die erklärt, warum der Beitrag gekennzeichnet wurde
  • Verwenden Sie optional den KI-Agenten für dynamische Antworten

Einschränkungen

  • Denken Sie daran, dass LLM-Aufrufe teuer sein können. Seien Sie vorsichtig, wenn Sie einen Klassifikator anwenden, überwachen Sie die Kosten und ziehen Sie immer in Betracht, ihn nur auf kleinen Teilmengen auszuführen.
  • Obwohl leistungsfähigere Modelle, d. h. GPT-4o, bessere Ergebnisse liefern, können diese mit höheren Kosten verbunden sein. Wir haben jedoch festgestellt, dass die Kosten im Laufe der Zeit sinken, da LLMs noch besser und günstiger werden.

Andere Verwendungen

Der Prompt könnte angepasst werden, um alle möglichen Arten von Erkennungen durchzuführen, wie z. B. die Offenlegung personenbezogener Daten (PII) und Spam-Erkennung. Wir würden uns freuen zu erfahren, wie Sie diese Automatisierung zum Nutzen Ihrer Community einsetzen!

8 „Gefällt mir“

Ein Beitrag wurde in ein neues Thema verschoben: LLM und Verzögerung bei der Erkennung von NSFW-Inhalten