Diese Funktion ist jetzt Teil von Discourse AI. Dieses Plugin ist veraltet.
|||-|
| Zusammenfassung | Disorder hilft Moderatoren, indem es potenziell toxische Inhalte auf Ihrem Discourse-Forum automatisch kennzeichnet.
| Repository-Link | https://github.com/xfalcox/disorder
| Installationsanleitung | So installieren Sie Plugins in Discourse
Wenn Sie unseren offiziellen Hosting-Service nutzen, kontaktieren Sie bitte unseren Support, um Ihr Interesse an diesem Plugin zu bekunden.
Toxizität
Wie @hawk in Dealing with Toxicity in Online Communities sagte, ist die Bewältigung von Toxizität in Ihrer Community von grundlegender Bedeutung.
Während Discourse von Haus aus viele verschiedene Werkzeuge zur Bekämpfung von Toxizität in Ihrer Community mitbringt, erforschen wir ständig Wege, diese weiter zu verbessern. Insbesondere habe ich mögliche Anwendungen von Machine Learning und KI in Online-Foren erforscht. Dies ist nun ein experimentelles Plugin, das für alle Communities verfügbar ist.
Das Plugin
Disorder nutzt künstliche Intelligenz und maschinelles Lernen, um Ihnen bei der Moderation Ihrer Community zu helfen, wodurch es für Ihr Moderationsteam einfacher wird, potenziell problematische Inhalte im Auge zu behalten und sogar optional Ihre Benutzer aufzufordern, toxische Beiträge vor dem Absenden zu überarbeiten.
Dies ist ein erster Vorstoß in die Nutzung von selbst gehosteten ML-Modellen in Discourse, und obwohl es ein einfaches Modell ist, legt es ein Muster fest, das für die Anwendung komplexerer Modelle in Zukunft wiederverwendet werden kann.
Funktionen
Hintergrundkennzeichnung
Dies ist die Hauptfunktionsweise von Disorder, da sie für Ihre Benutzer völlig transparent ist und diese keine Änderungen bemerken werden.
Immer wenn ein neuer Beitrag (oder eine Chat-Nachricht mit Discourse Chat) erstellt wird, wird er asynchron in eine Klassifizierungswarteschlange gestellt. Wenn die Klassifizierung über einem konfigurierbaren Schwellenwert liegt, wird der Beitrag/die Chat-Nachricht gekennzeichnet, damit Ihr Moderationsteam gewarnt wird und die endgültige Entscheidung über die Kennzeichnung treffen kann.
Eingriff bei neuen Beiträgen
Wenn Sie der Meinung sind, dass Prävention die beste Medizin ist, sind Sie vielleicht an dieser aktiveren Option interessiert.
Sie können eine synchrone Klassifizierung jedes neuen Beitrags aktivieren, die, wenn sie über einem konfigurierbaren Toxizitätsgrad liegt, einen Eingriff in den Fluss neuer Beiträge auslöst und den Benutzer auffordert, die Nachricht zu überprüfen und zu ändern, die möglicherweise außerhalb der von Ihren Community-Regeln festgelegten Grenzen liegt.
Dies geschieht nur einmal, und nach dem Schließen des Modals kann der Benutzer normal posten.
Wie funktioniert es?
Dieses Plugin integriert die Open-Source-Modelle von Detoxify und verwendet ein Remote-API-Aufrufmodell, damit Administratoren die Inferenzrate entsprechend den Bedürfnigen jeder Community skalieren können.
Wir stellen ein einfaches Image bereit, das eine dünne HTTP-API bereitstellt, die Discourse aufruft, um die Inhaltsklassifizierung durchzuführen. Diese kann entweder auf demselben Server, auf dem Sie Discourse ausführen, oder auf einem ganz anderen Server ausgeführt werden.
Das Discourse-Plugin lauscht auf Ereignisse für neue Beiträge / neue Chat-Nachrichten und stellt einen Klassifizierungsauftrag in der Hintergrundwarteschlange ein. Die Ergebnisse werden in der Datenbank gespeichert, sodass Sie Berichte extrahieren können, und wir kennzeichnen Inhalte mit einem separaten Bot-Benutzer, damit wir die Genauigkeit der Kennzeichnungen im Laufe der Zeit verfolgen können.
Optionen
Zunächst funktioniert das Plugin sofort, sodass es nicht notwendig ist, sofort Einstellungen zu ändern. Wenn Sie jedoch das Verhalten des Plugins ändern möchten, gibt es einige Stellschrauben, die Sie verwenden können.
Wir bieten 3 verschiedene Klassifizierungsmodelle an, aus denen Sie in den Plugin-Optionen wählen können:
-
unbiased (Standard): Ein Modell, das versucht, die unbeabsichtigte Modellverzerrung bei der Toxizitätsklassifizierung zu reduzieren.
-
multilingual: Ein Modell, das Italienisch, Französisch, Russisch, Portugiesisch, Spanisch und Türkisch klassifizieren kann.
-
original: Das einfachste Modell.
Sie können auch einstellen, ob das Plugin:
- automatisch kennzeichnet
- synchrone Eingriffe bei toxischen Beiträgen mit Warnung (experimentell) aktiviert
- synchrone Eingriffe bei toxischen Beiträgen aktiviert (nicht empfohlen)
All dies geschieht nur, wenn der Kommentar über den Schwellenwerten für die jeweilige Klassifizierungsart als toxisch eingestuft wird:
- toxizität
- schwere_toxizität
- identitätsangriff
- beleidigung
- bedrohung
- sexuell_explizit
Sie können die Schwellenwerte für jede Klassifizierung für automatische Aktionen anpassen.
Klassifizierungsdienst
Das Plugin wird vorkonfiguriert und funktioniert sofort. Dazu kontaktiert es einen von Discourse (CDCK) betriebenen Dienst zur Klassifizierung der Benutzerinhalte. Dieser Classifier-API-Dienst ist Open Source, und Sie können bei Bedarf Ihre eigene Kopie des Dienstes ausführen.



