Discourse AI - Toxicity

:bookmark: Dieses Thema behandelt die Konfiguration der Toxizitätsfunktion des Discourse AI Plugins.

:person_raising_hand: Erforderliches Benutzerniveau: Administrator

Die Toxizitätsmodule können den Toxizitätswert jedes neuen Beitrags und jeder neuen Chat-Nachricht in Ihrer Discourse-Instanz automatisch klassifizieren. Sie können auch die automatische Kennzeichnung von Inhalten aktivieren, die einen Schwellenwert überschreiten.

Klassifizierungen werden in der Datenbank gespeichert, sodass Sie das Plugin aktivieren und Data Explorer für Berichte über die Klassifizierung neuer Inhalte in Discourse sofort verwenden können. Wir werden bald einige Standard-Data-Explorer-Abfragen mit dem Plugin ausliefern, um dies zu erleichtern.

Einstellungen

  • ai_toxicity_enabled: Aktiviert oder deaktiviert das Modul

  • ai_toxicity_inference_service_api_endpoint: URL, unter der die API für das Toxizitätsmodul läuft. Wenn Sie CDCK-Hosting verwenden, wird dies automatisch für Sie erledigt. Wenn Sie selbst hosten, lesen Sie die Anleitung für Self-Hosting.

  • ai_toxicity_inference_service_api_key: API-Schlüssel für die oben konfigurierte Toxizitäts-API. Wenn Sie CDCK-Hosting verwenden, wird dies automatisch für Sie erledigt. Wenn Sie selbst hosten, lesen Sie die Anleitung für Self-Hosting.

  • ai_toxicity_inference_service_api_model: ai_toxicity_inference_service_api_model: Wir bieten drei verschiedene Modelle an: original, unbiased und multilingual. unbiased wird gegenüber original empfohlen, da es versucht, Voreingenommenheiten, die durch das Trainingsmaterial in die Klassifizierung eingebracht werden, nicht zu übernehmen. Für mehrsprachige Communities unterstützt das letzte Modell Italienisch, Französisch, Russisch, Portugiesisch, Spanisch und Türkisch.

  • ai_toxicity_flag_automatically: Beiträge/Chat-Nachrichten automatisch kennzeichnen, wenn die Klassifizierung für eine bestimmte Kategorie den konfigurierten Schwellenwert überschreitet. Verfügbare Kategorien sind toxicity, severe_toxicity, obscene, identity_attack, insult, threat und sexual_explicit. Für jede Kategorie gibt es eine Einstellung ai_toxicity_flag_threshold_${category}.

  • ai_toxicity_groups_bypass: Benutzer in diesen Gruppen werden von ihren Beiträgen nicht vom Toxizitätsmodul klassifiziert. Standardmäßig sind dies Staff-Benutzer.

Zusätzliche Ressourcen

10 „Gefällt mir“