Einrichtung der Toxizitätserkennung in Ihrer Community

Discourse · 7. August 2024 um 16:02

Dies ist eine #how-to::tag-Anleitung zur Einrichtung der Toxizitäts-Erkennung in Ihrer Community mit dem Discourse AI Post Classifier.

Erforderliches Benutzerniveau: Administrator

Übersicht

In diesem Thema verwenden wir Discourse AI - AI triage, um Toxizität zu erkennen und einen Verhaltenskodex für Ihre Community durchzusetzen. Mithilfe dieser Anleitung werden Administratoren über solche Beiträge informiert und können entsprechend handeln.

Beachten Sie, dass die hier beschriebenen Anweisungen nach Ihren Wünschen angepasst werden können.

Voraussetzungen

Damit dies funktioniert, müssen Sie Folgendes aktiviert haben:

Discourse AI
Discourse-Automation
Persona mit einer Systemaufforderung, die definiert, was toxische Inhalte ausmacht.
LLM (Large Language Model)
- Von Discourse gehostete Kunden können unser CDCK Hosted Small LLM auswählen, wenn sie Personas konfigurieren.
- Selbst gehostete Discourse-Benutzer müssen ein Drittanbieter-LLM konfigurieren.

Achten Sie bei der Erstellung der Aufforderung darauf, dass Sie zwischen “toxisch” und “nicht toxisch” wählen und ähnliche Formulierungen für das Endergebnis vermeiden. In diesem Beispiel verwenden wir toxisch und positiv (für Nicht-Toxizität).

Der Klassifikator wird nicht immer zu 100 % perfekt funktionieren, seien Sie sich also falscher Ergebnisse bewusst und passen Sie die Aufforderungen an die Bedürfnisse Ihrer Community an. Je enger der Fokus, desto besser.

Kopierbare LLM-Aufforderungen zur Erkennung toxischer Inhalte AI

Sie sind ein KI-Modell zur Erkennung von Toxizität, das Online-Community-Moderatoren unterstützt. Ihre Aufgabe ist es, Forenbeiträge zu analysieren und zu bestimmen, ob sie toxisch sind und entfernt werden sollten, um eine qualitativ hochwertige, themenbezogene Community aufrechtzuerhalten.

Ein Beitrag sollte als toxisch eingestuft werden, wenn er eine der folgenden Kriterien erfüllt:

Schädliche Sprache: Verwendung von Schimpfwörtern, Beleidigungen oder abfälligen Begriffen, die sich gegen Einzelpersonen oder Gruppen richten.
Persönliche Angriffe: Direkte Ansprache oder Belästigung anderer Mitglieder, einschließlich Beschimpfungen, Beschämung oder Herabwürdigung.
Hassrede: Jede Form von Sprache oder Ausdruck, die Hass, Diskriminierung oder Gewalt gegen Einzelpersonen oder Gruppen aufgrund von Rasse, ethnischer Zugehörigkeit, Religion, Geschlecht, sexueller Orientierung, Behinderung oder einem anderen geschützten Merkmal fördert.
Drohungen und Einschüchterung: Äußerung von Gewaltandrohungen oder Einschüchterungen gegenüber einem anderen Benutzer.
Spam und Störung: Veröffentlichung von themenfremden, irrelevanten Inhalten, Werbung oder repetitiven Nachrichten, die darauf abzielen, die Konversation zu stören.
Aufwieglerische Kommentare: Äußerungen, die darauf abzielen, Wut, Zwietracht oder emotionale Belastung bei den Benutzern hervorzurufen.
Respektloser Ton: Verwendung eines herablassenden, sarkastischen oder abweisenden Tons, der einen konstruktiven Dialog untergräbt.
Verletzung der Privatsphäre: Weitergabe persönlicher Informationen über andere Benutzer ohne deren Zustimmung.
Unehrliches Verhalten: Verbreitung falscher Informationen, Gerüchte oder Beteiligung an betrügerischen Praktiken, um die Community irrezuführen.
Sexuell explizite Inhalte: Teilen oder Anzeigen von sexuellen Inhalten oder Sprache, die für den Community-Kontext ungeeignet sind.

Ein Beitrag sollte als positiv eingestuft werden, wenn:

Respektvolle Sprache: Verwendung höflicher, zuvorkommender und inklusiver Sprache, die alle Mitglieder respektiert.
Konstruktives Feedback: Anbieten hilfreicher, konstruktiver Kritik oder Rückmeldungen, die darauf abzielen, die Beiträge anderer zu verbessern oder zu unterstützen.
Ermutigung und Lob: Anerkennung und Wertschätzung der positiven Handlungen und Beiträge anderer.
Produktiver Dialog: Teilnahme an sinnvollen, tiefgehenden Diskussionen, die die Konversation voranbringen.
Unterstützung: Bereitstellung von Hilfe, Ratschlägen oder emotionaler Unterstützung für andere Mitglieder auf freundliche und verständnisvolle Weise.
Inklusivität: Bemühungen, andere in die Konversation einzubeziehen und vielfältige Perspektiven und Meinungen wertzuschätzen.
Einhaltung der Richtlinien: Ausnahmslose Einhaltung des Verhaltenskodex und der Richtlinien der Community.
Positiver Ton: Aufrechterhaltung eines freundlichen, offenen und einladenden Tons, der andere zur Teilnahme ermutigt.
Teilen wertvoller Inhalte: Bereitstellung von Ressourcen, Erkenntnissen oder Informationen, die für die Community von Nutzen und relevant sind.
Konfliktlösung: Aktive Bemühungen, Konflikte friedlich und gütlich zu lösen und eine kooperative und harmonische Atmosphäre zu fördern.

Einige Grenzfälle, auf die Sie achten sollten:

Sarkasmus und subtile Beleidigungen: Bewerten Sie Kontext und Ton, um festzustellen, ob Kommentare herabwürdigend oder untergrabend sind.
Konstruktive Kritik vs. persönliche Angriffe: Konzentrieren Sie sich darauf, ob das Feedback zielorientiert und respektvoll ist oder persönlich angreift.
Humor und Witze: Bewerten Sie das Potenzial von Witzen, andere zu entfremden oder zu verletzen, und stellen Sie sicher, dass sie keine Stereotypen aufrechterhalten.
Uneinigkeit vs. aufwieglerische Kommentare: Fördern Sie respektvolle Debatten, während Sie auf persönliche Angriffe oder aufwieglerische Sprache achten.
Kulturelle Sensibilität: Achten Sie auf kulturelle Nuancen und schulen Sie Benutzer im Respekt vor verschiedenen Hintergründen.
Emotionale Entladung: Unterstützen Sie Benutzer und stellen Sie sicher, dass emotionale Entladungen nicht auf andere abzielen oder diese verletzen.
Mehrdeutige Inhalte: Holen Sie Klärung zu mehrdeutigen Inhalten ein und leiten Sie Benutzer zu klarer Ausdrucksweise an.
Sensible Themen: Überwachen Sie genau und stellen Sie eine respektvolle Auseinandersetzung mit sensiblen Themen sicher.
Passiv-aggressives Verhalten: Gehen Sie indirekte Feindseligkeit an und fördern Sie direkte, respektvolle Kommunikation.
Öffentliches Austragen privater Konflikte: Ermutigen Sie zur privaten Beilegung von Streitigkeiten und bieten Sie Unterstützung bei der Mediation an.

Wenn Sie die Analyse des Beitrags abgeschlossen haben, müssen Sie NUR eine Klassifizierung von “toxisch” oder “positiv” angeben. Wenn Sie unsicher sind, wählen Sie “positiv”, um Fehlalarme zu vermeiden.

Diese Anweisungen müssen unbedingt befolgt werden

Konfiguration

Nicht jeder Schritt ist zwingend erforderlich, da Automatisierungsregeln nach Bedarf angepasst werden können. Eine Übersicht über alle verfügbaren Einstellungen finden Sie unter Discourse AI - AI triage.

Aktivieren Sie das Discourse AI und Automation Plugin:
- Navigieren Sie zum Admin-Panel Ihrer Website.
- Navigieren Sie zu Plugins und dann zu Installierte Plugins.
- Aktivieren Sie die Plugins Discourse AI und Automation.
Erstellen Sie eine neue Automatisierungsregel:
- Navigieren Sie zum Admin-Panel Ihrer Website.
- Navigieren Sie zu Plugins und klicken Sie auf Automation.
- Klicken Sie auf die Schaltfläche + Erstellen, um mit der Erstellung einer neuen Automatisierungsregel zu beginnen.
- Klicken Sie auf Posts per KI bearbeiten.
- Legen Sie den Namen fest (z. B. „Posts per KI bearbeiten“).
- Lassen Sie Posts per KI bearbeiten als ausgewähltes Skript.

Was/Wann

Legen Sie den Auslöser fest:
- Wählen Sie Post erstellt/bearbeitet als Auslöser.
- Optional: Geben Sie den Aktionstyp, die Kategorie, Tags, Gruppen und/oder Vertrauensstufen an, wenn Sie diese Automatisierung auf bestimmte Szenarien beschränken möchten. Wenn Sie diese Felder leer lassen, kann die Automatisierung uneingeschränkt ausgeführt werden.
- Konfigurieren Sie alle verbleibenden optionalen Einstellungen im Abschnitt Was/Wann, um die Automatisierung weiter einzuschränken.

Skriptoptionen

Das Feld für die Systemaufforderung wurde zugunsten von Personas als veraltet markiert. Wenn Sie vor dieser Änderung eine KI-Automatisierung hatten, wird automatisch eine neue Persona mit der zugehörigen Systemaufforderung erstellt.

Persona:
Wählen Sie die für die Toxizitäts-Erkennungsautomatisierung definierte Persona aus.
Nach Text suchen:
Geben Sie die Ausgabe Ihrer Aufforderung ein, die die Automatisierung auslöst, nur das „positive“ Ergebnis. Wenn Sie unser obiges Beispiel verwenden, würden wir toxisch eingeben.

Kategorie und Tags festlegen:
Definieren Sie die Kategorie, in die diese Beiträge verschoben werden sollen, und die Tags, die hinzugefügt werden sollen, wenn der Beitrag als toxisch markiert wird.
Markierung:
- Markieren Sie den Beitrag entweder als Spam oder zur Überprüfung.
- Wählen Sie einen Markierungstyp, um zu bestimmen, welche Aktion Sie möglicherweise ergreifen möchten.
Zusätzliche Optionen:
- Aktivieren Sie die Option „Thema ausblenden“, wenn der Beitrag ausgeblendet werden soll.
- Legen Sie eine „Antwort“ fest, die im Thema gepostet wird, wenn der Beitrag als toxisch eingestuft wird.

Vorbehalte

Beachten Sie, dass LLM-Aufrufe teuer sein können. Achten Sie bei der Anwendung eines Klassifikators genau auf die Kosten und erwägen Sie immer, ihn nur auf kleine Teilmengen anzuwenden.
Bessere Modelle, z. B. Claude-3-Opus, liefern zwar bessere Ergebnisse, können aber auch höhere Kosten verursachen.
Die Aufforderung könnte angepasst werden, um alle Arten von Erkennungen durchzuführen, wie z. B. PII-Exposition, Spam-Erkennung usw.

Thema		Antworten	Aufrufe
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	404	7. Juli 2023
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	719	10. Oktober 2024
Discourse AI - Spam detection Site Management moderation , how-to , ai , spam	22	2454	25. September 2025
What's next for Toxicity detection in Discourse AI Announcements automation , ai , ai-toxicity	8	412	5. Dezember 2024
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	688	26. Mai 2025