Discourse AI - Toxicity

:bookmark: Dieses Thema behandelt die Konfiguration der Toxizitätsfunktion des Discourse AI Plugins.

:person_raising_hand: Erforderliches Benutzerniveau: Administrator

Die Toxizitätsmodule können den Toxizitätswert jedes neuen Beitrags und jeder neuen Chat-Nachricht in Ihrer Discourse-Instanz automatisch klassifizieren. Sie können auch die automatische Kennzeichnung von Inhalten aktivieren, die einen Schwellenwert überschreiten.

Klassifizierungen werden in der Datenbank gespeichert, sodass Sie das Plugin aktivieren und Data Explorer für Berichte über die Klassifizierung neuer Inhalte in Discourse sofort verwenden können. Wir werden bald einige Standard-Data-Explorer-Abfragen mit dem Plugin ausliefern, um dies zu erleichtern.

Einstellungen

  • ai_toxicity_enabled: Aktiviert oder deaktiviert das Modul

  • ai_toxicity_inference_service_api_endpoint: URL, unter der die API für das Toxizitätsmodul läuft. Wenn Sie CDCK-Hosting verwenden, wird dies automatisch für Sie erledigt. Wenn Sie selbst hosten, lesen Sie die Anleitung für Self-Hosting.

  • ai_toxicity_inference_service_api_key: API-Schlüssel für die oben konfigurierte Toxizitäts-API. Wenn Sie CDCK-Hosting verwenden, wird dies automatisch für Sie erledigt. Wenn Sie selbst hosten, lesen Sie die Anleitung für Self-Hosting.

  • ai_toxicity_inference_service_api_model: ai_toxicity_inference_service_api_model: Wir bieten drei verschiedene Modelle an: original, unbiased und multilingual. unbiased wird gegenüber original empfohlen, da es versucht, Voreingenommenheiten, die durch das Trainingsmaterial in die Klassifizierung eingebracht werden, nicht zu übernehmen. Für mehrsprachige Communities unterstützt das letzte Modell Italienisch, Französisch, Russisch, Portugiesisch, Spanisch und Türkisch.

  • ai_toxicity_flag_automatically: Beiträge/Chat-Nachrichten automatisch kennzeichnen, wenn die Klassifizierung für eine bestimmte Kategorie den konfigurierten Schwellenwert überschreitet. Verfügbare Kategorien sind toxicity, severe_toxicity, obscene, identity_attack, insult, threat und sexual_explicit. Für jede Kategorie gibt es eine Einstellung ai_toxicity_flag_threshold_${category}.

  • ai_toxicity_groups_bypass: Benutzer in diesen Gruppen werden von ihren Beiträgen nicht vom Toxizitätsmodul klassifiziert. Standardmäßig sind dies Staff-Benutzer.

Zusätzliche Ressourcen

10 „Gefällt mir“

Ich passe das gerade ein wenig an. Gehe ich richtig in der Annahme, dass ein höherer Schwellenwert strenger und ein niedrigerer Schwellenwert nachgiebiger ist?

1 „Gefällt mir“

Ich würde sagen, je höher der Schwellenwert, desto nachsichtiger wäre er. Ein niedrigerer Schwellenwert wäre eher geeignet, einen Beitrag als toxisch zu kennzeichnen, da weniger erforderlich wäre, um eine Kennzeichnung auszulösen. Ein höherer Schwellenwert würde daher mehr erfordern, um eine Kennzeichnung auszulösen.
Niedriger Schwellenwert = leicht zu überschreiten
Hoher Schwellenwert = schwerer zu überschreiten

2 „Gefällt mir“

Ich möchte einen Mechanismus haben, um Versuche kommerzieller Aktivitäten auf unserer Website abzufangen – nicht Toxizität an sich, aber sehr schädlich für unsere Community.

Das kommt dem nahe, aber ist nicht ganz das, wonach wir suchen.

Haben Sie diese Dimension berücksichtigt?

Das wird von Discourse AI Post Classifier - Automation rule abgedeckt. Lass mich wissen, wie es läuft.

4 „Gefällt mir“

Kann mir jemand helfen, es mit der Google Perspective API einzurichten? Ich würde eine Anzeige auf dem Marktplatz schalten, aber ich denke, hier ist es angemessener.

Ich weiß, das ist ein Jahr her, aber bitte lassen Sie mich wissen, wie diese Implementierung verlaufen ist! Ich bin persönlich daran interessiert ^^ Das gesagt, korrigieren Sie mich, wenn ich falsch liege @Discourse, aber die Attribute, die Sie auf dieser Seite erwähnen, SIND die atomaren Metriken von Perspective, wie sie durch Detoxify implementiert werden, sodass das Hinzufügen von Perspective ein wenig überflüssig ist, oder?

  • ai_toxicity_flag_automatically: Beiträge/Chatnachrichten automatisch markieren, wenn die Klassifizierung für eine bestimmte Kategorie den konfigurierten Schwellenwert überschreitet. Verfügbare Kategorien sind toxicity, severe_toxicity, obscene, identity_attack, insult, threat und sexual_explicit. Für jede gibt es eine Einstellung ai_toxicity_flag_threshold_${category}.

Unabhängig davon kann Detoxify von der Kaggle community implementiert werden. Das ist ein großartiger Ort, um jemanden zu finden, der es implementiert, denn genau das tut Kaggle :slight_smile:

2 „Gefällt mir“

Wir haben die Modelle von GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. integriert, um die automatische Klassifizierung von Toxizität in Beiträgen zu handhaben und bei Überschreitung eines konfigurierbaren Schwellenwerts automatisch zu markieren.

Wir stellten fest, dass dies zwar gut funktioniert, wenn Sie keinerlei Toleranz für typische Toxizität auf Ihren Instanzen haben, wie es bei Instanzen im Besitz von Marken der Fall ist. Für andere, stärker gemeinschaftsorientierte Discourse-Instanzen waren die Toxizitätsmodelle zu streng und erzeugten zu viele Markierungen in nachgiebigeren Instanzen.

Aus diesem Grund ist unser aktueller Plan, Toxizität abzuschaffen und diese Funktion in unser AI Triage-Plugin zu verlagern, wo wir Administratoren eine anpassbare Eingabeaufforderung geben, um ihre automatische Toxizitätserkennung an die zulässigen Werte auf ihrer Instanz anzupassen.

Wir planen außerdem, unseren Kunden ein gehostetes Moderations-LLM anzubieten, ähnlich wie https://ai.google.dev/gemma/docs/shieldgemma oder [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, das bei unseren internen Bewertungen gegen denselben Datensatz, der in der ursprünglichen Jigsaw Kaggle-Wettbewerb verwendet wurde, der Detoxify hervorbrachte, sehr gut abgeschnitten hat.

4 „Gefällt mir“