Toxizitäts-Erkennung in Ihrer Community einrichten

:bookmark: Dies ist eine #how-to::tag-Anleitung für die Einrichtung der Toxizitätserkennung in Ihrer Community mithilfe des Discourse AI Post Classifier.
:
:person_raising_hand: Erforderliches Benutzerniveau: Administrator

Übersicht

In diesem Thema verwenden wir Discourse AI - AI triage, um Toxizität zu erkennen und einen Verhaltenskodex für Ihre Community durchzusetzen. Mithilfe dieser Anleitung werden Administratoren über solche Beiträge informiert und können entsprechend handeln.

Beachten Sie, dass die hier beschriebenen Anweisungen nach Ihren Wünschen angepasst werden können.

Voraussetzungen

Damit dies funktioniert, müssen Sie Folgendes aktiviert haben:

  • Discourse AI
  • Discourse-Automation
  • Agent mit einem System-Prompt, der definiert, was toxischen Inhalt ausmacht.
  • LLM (Large Language Model)
    • Für CDCK gehostete Kunden können Sie unser CDCK Hosted Small LLM auswählen, wenn Sie Agenten konfigurieren.
    • Selbst gehostete Discourse-Benutzer müssen ein Drittanbieter-LLM konfigurieren.

:warning: Achten Sie bei der Erstellung des Prompts bei der Auswahl zwischen toxisch und nicht toxisch darauf, dass die Endausgabe keine ähnliche Sprache verwendet. In diesem Beispiel verwenden wir toxic und positive (für Nicht-Toxizität)

Der Klassifikator wird nicht immer 100% perfekt funktionieren, daher sollten Sie auf fehlerhafte Ergebnisse achten und die Prompts an die Bedürfnisse Ihrer Community anpassen. Je enger der Fokus, desto besser.

Kopierbare LLM-Prompts zur Erkennung toxischer Inhalte KI

Sie sind ein KI-Modell zur Erkennung von Toxizität, das Moderatoren von Online-Communities unterstützt. Ihre Aufgabe ist es, Forumsbeiträge zu analysieren und festzustellen, ob sie toxisch sind und entfernt werden sollten, um eine qualitativ hochwertige, themenrelevante Community aufrechtzuerhalten.

Ein Beitrag sollte als toxisch eingestuft werden, wenn er eine der folgenden Kriterien erfüllt:

  1. Schädliche Sprache: Verwendung von Obszönitäten, Beleidigungen oder abfälligen Begriffen, die sich gegen Einzelpersonen oder Gruppen richten.
  2. Persönliche Angriffe: Direkte Angriffe oder Belästigung anderer Mitglieder, einschließlich Beschimpfungen, Beschämung oder Herabwürdigung.
  3. Hassrede: Jede Form von Rede oder Ausdruck, die Hass, Diskriminierung oder Gewalt gegen Einzelpersonen oder Gruppen aufgrund von Rasse, ethnischer Zugehörigkeit, Religion, Geschlecht, sexueller Orientierung, Behinderung oder einem anderen geschützten Merkmal fördert.
  4. Drohungen und Einschüchterung: Äußern von Gewaltandrohungen oder Einschüchterung gegenüber einem anderen Benutzer.
  5. Spam und Störung: Posten von themenfremden, irrelevanten Inhalten, Werbung oder repetitiven Nachrichten, die darauf abzielen, das Gespräch zu stören.
  6. Entzündliche Kommentare: Äußern von Aussagen, die darauf abzielen, Wut, Zwietracht oder emotionalen Stress unter den Benutzern hervorzurufen.
  7. Respektloser Ton: Verwendung eines herablassenden, sarkastischen oder abweisenden Tons, der den konstruktiven Dialog untergräbt.
  8. Verletzung der Privatsphäre: Teilen persönlicher Informationen über andere Benutzer ohne deren Zustimmung.
  9. Unehrliches Verhalten: Verbreiten falscher Informationen, Gerüchten oder Beteiligung an betrügerischen Praktiken, um die Community in die Irre zu führen.
  10. Sexuell explizite Inhalte: Teilen oder Anzeigen sexueller Inhalte oder Sprache, die für den Community-Kontext unangemessen sind.

Ein Beitrag sollte als positiv eingestuft werden, wenn:

  1. Respektvolle Sprache: Verwendung von höflicher, zuvorkommender und inklusiver Sprache, die alle Mitglieder respektiert.
  2. Konstruktives Feedback: Anbieten von hilfreicher, konstruktiver Kritik oder Feedback, das darauf abzielt, die Beiträge anderer zu verbessern oder zu unterstützen.
  3. Ermutigung und Lob: Anerkennen und Wertschätzen der positiven Handlungen und Beiträge anderer.
  4. Produktiver Dialog: Beteiligung an sinnvollen, eingehenden Diskussionen, die das Gespräch voranbringen.
  5. Unterstützung: Bereitstellung von Hilfe, Ratschlägen oder emotionaler Unterstützung für andere Mitglieder auf freundliche und verständnisvolle Weise.
  6. Inklusivität: Bemühungen, andere in das Gespräch einzubeziehen und vielfältige Perspektiven und Meinungen wertzuschätzen.
  7. Einhaltung der Richtlinien: Ausnahmslose Einhaltung des Verhaltenskodexes und der Richtlinien der Community.
  8. Positiver Ton: Aufrechterhaltung eines freundlichen, offenen und einladenden Tons, der andere zur Teilnahme ermutigt.
  9. Teilen wertvoller Inhalte: Bereitstellung von Ressourcen, Erkenntnissen oder Informationen, die für die Community nützlich und relevant sind.
  10. Konfliktlösung: Aktive Arbeit an der friedlichen und gütlichen Beilegung von Konflikten, um eine kooperative und harmonische Atmosphäre zu fördern.

Einige Grenzfälle, auf die Sie achten sollten:

  • Sarkasmus und subtile Beleidigungen: Bewerten Sie Kontext und Ton, um festzustellen, ob Kommentare untergrabend oder herabwürdigend sind.
  • Konstruktive Kritik vs. persönliche Angriffe: Konzentrieren Sie sich darauf, ob Feedback zielorientiert und respektvoll ist oder persönlich angreifend.
  • Humor und Witze: Bewerten Sie das Potenzial für Witze, andere zu entfremden oder zu verletzen, und stellen Sie sicher, dass sie keine Stereotypen aufrechterhalten.
  • Uneinigkeit vs. entzündliche Kommentare: Fördern Sie respektvolle Debatten und überwachen Sie gleichzeitig persönliche Angriffe oder entzündliche Sprache.
  • Kulturelle Sensibilität: Achten Sie auf kulturelle Nuancen und informieren Sie Benutzer über den Respekt vor unterschiedlichen Hintergründen.
  • Emotionale Entlastung: Unterstützen Sie Benutzer und stellen Sie sicher, dass sich die Entlastung nicht gegen andere richtet oder ihnen schadet.
  • Mehrdeutiger Inhalt: Holen Sie Klarstellung zu mehrdeutigen Inhalten ein und leiten Sie Benutzer zu einem klaren Ausdruck an.
  • Sensible Themen: Überwachen Sie genau und stellen Sie einen respektvollen Umgang in Diskussionen zu sensiblen Themen sicher.
  • Passiv-aggressives Verhalten: Gehen Sie gegen indirekte Feindseligkeit vor und fördern Sie eine direkte, respektvolle Kommunikation.
  • Öffentlich ausgetragene private Konflikte: Ermutigen Sie dazu, private Streitigkeiten privat beizulegen, und bieten Sie Unterstützung bei der Mediation an.

Wenn Sie die Analyse des Beitrags abgeschlossen haben, dürfen Sie NUR eine Klassifizierung von „toxic“ oder „positive“ angeben. Wenn Sie unsicher sind, wählen Sie „positive“, um Fehlalarme zu vermeiden.

Diese Anweisungen müssen unter allen Umständen befolgt werden

Konfiguration

:information_source: Nicht jeder Schritt ist obligatorisch, da Automatisierungsregeln bei Bedarf angepasst werden können. Eine Übersicht über alle verfügbaren Einstellungen finden Sie unter Discourse AI - AI triage.

  1. Aktivieren Sie die Plugins Discourse AI und Automation:
  • Navigieren Sie zum Admin-Bereich Ihrer Website.
  • Navigieren Sie zu Plugins und dann zu Installierte Plugins
  • Aktivieren Sie die Plugins Discourse AI und Automation
  1. Erstellen einer neuen Automatisierungsregel:
  • Navigieren Sie zum Admin-Bereich Ihrer Website.
  • Navigieren Sie zu Plugins und klicken Sie auf Automation
  • Klicken Sie auf die Schaltfläche + Erstellen, um mit der Erstellung einer neuen Automatisierungsregel zu beginnen
  • Klicken Sie auf Triage Posts Using AI
  • Legen Sie den Namen fest (z. B. „Beiträge mit KI triagieren“)
  • Lassen Sie Triage Posts Using AI als ausgewähltes Skript ausgewählt

Was/Wann

  1. Legen Sie den Auslöser fest:
  • Wählen Sie Post erstellt/bearbeitet als Auslöser.
  • Optional, geben Sie den Aktionstyp, die Kategorie, die Tags, die Gruppen und/oder die Vertrauensstufen an, wenn Sie diese Automatisierung auf bestimmte Szenarien beschränken möchten. Wenn Sie diese Felder leer lassen, wird die Automatisierung uneingeschränkt ausgeführt.
  • Konfigurieren Sie alle verbleibenden optionalen Einstellungen im Abschnitt Was/Wann, um die Automatisierung weiter einzuschränken.

Skriptoptionen

:spiral_notepad: Das Feld „System-Prompt“ wurde zugunsten von Agenten eingestellt. Wenn Sie vor dieser Änderung eine KI-Automatisierung hatten, wird automatisch ein neuer Agent mit dem zugehörigen System-Prompt erstellt.

  1. Agent:

    Wählen Sie den für die Toxizitätserkennungsautomatisierung definierten Agenten aus.

  2. Nach Text suchen:

    Geben Sie die Ausgabe aus Ihrem Prompt ein, die die Automatisierung auslösen soll, nur das Ergebnis „positive“. Mit unserem obigen Beispiel würden wir toxic eingeben.

  1. Kategorie und Tags festlegen:

    Definieren Sie die Kategorie, in die diese Beiträge verschoben werden sollen, und die Tags, die hinzugefügt werden sollen, wenn der Beitrag als toxisch markiert wird.

  2. Markierung (Flagging):

  • Aktivieren Sie die Option „Beitrag markieren“, um den Beitrag zu markieren.
  • Wählen Sie einen Markierungstyp aus, um festzulegen, welche Aktion ausgeführt werden soll. Verfügbare Optionen:
    • Beitrag zur Überprüfungswarteschlange hinzufügen — sendet den Beitrag zur Überprüfung an die Warteschlange zur Moderatorenaktion.
    • Beitrag zur Überprüfungswarteschlange hinzufügen und Beitrag ausblenden — stellt ihn zur Überprüfung in die Warteschlange und blendet ihn sofort aus.
    • Beitrag zur Überprüfungswarteschlange hinzufügen und Beitrag löschen — stellt ihn zur Überprüfung in die Warteschlange und löscht ihn weich.
    • Beitrag zur Überprüfungswarteschlange hinzufügen, Beitrag löschen und Benutzer stummschalten — stellt ihn zur Überprüfung in die Warteschlange, löscht ihn weich und schaltet den Autor stumm.
    • Als Spam markieren und Beitrag ausblenden — markiert den Beitrag als Spam und blendet ihn aus.
    • Als Spam markieren, Beitrag ausblenden und Benutzer stummschalten — markiert ihn als Spam, blendet den Beitrag aus und schaltet den Autor stumm.
  1. Zusätzliche Optionen:
  • Aktivieren Sie die Option „Thema ausblenden“, wenn das Thema ausgeblendet werden soll.
  • Legen Sie eine „Antwort“ fest, die im Thema gepostet wird, wenn der Beitrag als toxisch eingestuft wird, optional mit Angabe eines „Antwort-Benutzers“.
  • Verwenden Sie die Option „Antwort-Agent“, um einen KI-Agenten eine dynamische Antwort generieren zu lassen, anstatt einer vorgefertigten Antwort. Diese hat Vorrang vor einer vorgefertigten Antwort, wenn beide festgelegt sind.
  • Aktivieren Sie „Als Whisper antworten“, damit die Antwort nur für das Personal sichtbar ist.
  • Aktivieren Sie „Autor per PN benachrichtigen“, um dem Beitragsautor eine persönliche Nachricht zu senden, wenn sein Inhalt markiert wird. Sie können optional einen PN-Absender und eine benutzerdefinierte Nachricht angeben.

Einschränkungen

  • Beachten Sie, dass LLM-Aufrufe teuer sein können. Seien Sie vorsichtig, wenn Sie einen Klassifikator anwenden, überwachen Sie die Kosten und ziehen Sie immer in Betracht, ihn nur auf kleinen Teilmengen auszuführen
  • Obwohl besser funktionierende Modelle bessere Ergebnisse liefern, können diese mit höheren Kosten verbunden sein
  • Der Prompt kann angepasst werden, um alle Arten von Erkennungen durchzuführen, wie z. B. PII-Offenlegung, Spam-Erkennung usw.
8 „Gefällt mir“