Diskursstörung

kinetiksoft · 1. März 2023 um 12:45

Ich habe Ihre Abfrage auch so modifiziert, dass die Bewertung auf bequemere Weise mit dem Data Explorer angezeigt wird.
Die Credits gehen an ChatGPT und PostgreSQL-Hinweise von Leonardo:

SELECT
  json_extract_path_text(pcf.value::json, 'classification', 'toxicity') AS toxicity,
  json_extract_path_text(pcf.value::json, 'classification', 'severe_toxicity') AS severe_toxicity,
  json_extract_path_text(pcf.value::json, 'classification', 'obscene') AS obscene,
  json_extract_path_text(pcf.value::json, 'classification', 'identity_attack') AS identity_attack,
  json_extract_path_text(pcf.value::json, 'classification', 'insult') AS insult,
  json_extract_path_text(pcf.value::json, 'classification', 'threat') AS threat,
  json_extract_path_text(pcf.value::json, 'classification', 'sexual_explicit') AS sexual_explicit,
  json_extract_path_text(pcf.value::json, 'model') AS model,
  pcf.created_at,
  p.raw
FROM
  post_custom_fields AS pcf
INNER JOIN
  posts AS p ON p.id = pcf.post_id
INNER JOIN
  topics AS t ON t.id = p.topic_id
WHERE
  pcf.name = 'disorder' 
  AND t.archetype = 'regular'
ORDER BY created_at DESC

Und diese Modifikation gibt die Zeilen zurück, bei denen einer der Klassifizierungswerte größer als 50 (oder was auch immer Sie einstellen) ist

-- [params]
-- int :threshold = 50
SELECT DISTINCT ON (p.id, pcf.created_at)
  json_extract_path_text(pcf.value::json, 'classification', 'toxicity') AS toxicity,
  json_extract_path_text(pcf.value::json, 'classification', 'severe_toxicity') AS severe_toxicity,
  json_extract_path_text(pcf.value::json, 'classification', 'obscene') AS obscene,
  json_extract_path_text(pcf.value::json, 'classification', 'identity_attack') AS identity_attack,
  json_extract_path_text(pcf.value::json, 'classification', 'insult') AS insult,
  json_extract_path_text(pcf.value::json, 'classification', 'threat') AS threat,
  json_extract_path_text(pcf.value::json, 'classification', 'sexual_explicit') AS sexual_explicit,
  json_extract_path_text(pcf.value::json, 'model') AS model,
  p.id as post_id,
  pcf.created_at,
  p.raw
FROM
  post_custom_fields AS pcf
INNER JOIN
  posts AS p ON p.id = pcf.post_id
INNER JOIN
  topics AS t ON t.id = p.topic_id
WHERE
  pcf.name = 'disorder' 
  AND t.archetype = 'regular'
GROUP BY p.id, pcf.value, pcf.created_at
HAVING 
  CAST(json_extract_path_text(pcf.value::json, 'classification', 'toxicity') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'severe_toxicity') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'obscene') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'identity_attack') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'insult') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'threat') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'sexual_explicit') AS FLOAT) > :threshold
ORDER BY pcf.created_at DESC, p.id

Sie können es auch modifizieren, indem Sie mehrere weitere Parameter einführen, um unterschiedliche Schwellenwerte für die Berichterstattung über den Data Explorer festlegen zu können.

Bitte beachten Sie: Dies gibt nur öffentliche Beiträge zurück, ohne auf private Nachrichten zuzugreifen.

Falco · 1. März 2023 um 16:33

Wir arbeiten gerade an genau dieser Funktion!

Wir planen außerdem, die Raten für falsch positive und falsch negative Ergebnisse zu verwenden, um einen Optimierer auszuführen, der Ihnen die besten Schwellenwerte für jede Option vorschlagen kann. Behalten Sie diese Informationen also im Hinterkopf, da sie in naher Zukunft nützlich sein werden.

kinetiksoft · 1. März 2023 um 16:47

Klingt großartig. Schön zu hören.
Bisher neige ich dazu, alle von Disorderbot gemachten Flags abzulehnen/zu ignorieren, selbst wenn die Schwellenwerte auf maximal 90-100 erhöht wurden. Aufgrund der Natur des Forums, auf dem wir es testen (NSFW), ist die KI leicht verwirrt, ob die Kommunikation wirklich toxisch ist oder nicht. Solange es für unseren Anwendungsfall nicht so zuverlässig ist, werden wir es weiterhin verwenden, aber seine Berichte nur dazu verwenden, andere Berichte über wirklich toxische Beiträge zu “verstärken”.

Sobald wir einige bessere Schwellenwerte für die langfristige Nutzung gefunden haben, werden wir vorsorgliche Warnungen aktivieren können, wenn ein Benutzer versucht, etwas wirklich Toxisches zu posten.

satonotdead · 1. März 2023 um 17:01

Das vermute ich, wenn KI Mainstream wird. Sie wird Zensur ermöglichen und die echte Infragestellung des Status quo einschränken, die für die Gesundheit jeder Gemeinschaft auf der Welt notwendig ist.

Nicht einschränken oder verbieten, sondern aufklären und diskutieren. Vielleicht gibt es eine Möglichkeit, die Werkzeuge ohne die Nebenwirkung (da ich befürchte, dass dies der gewünschte Effekt ist) zu nutzen, aber ich sehe, dass dies im Moment nicht möglich ist.

Vielen Dank für Ihr Feedback, es hat für mich Wert. Und natürlich danke an das Team, dass es Discourse wie immer auf dem neuesten Stand hält und verbessert

Falco · 1. März 2023 um 17:50

Alle Schwellenwerte auf 100 zu setzen und sich nur auf die extremeren zu verlassen, wie „schwere Toxizität“ und „Bedrohung“, ist etwas, das ich in solchen Communities als übernommen ansehen kann.

kinetiksoft · 1. März 2023 um 17:56

Danke. Es ist derzeit so eingestellt und immer noch zu empfindlich. Ich werde einige noch weiter erhöhen und sehen, wie es läuft

Falco · 1. März 2023 um 17:57

Ich müsste die Rohklassifizierungen sehen, aber ich würde zuerst die Beleidigungsklassifizierung erhöhen.

kinetiksoft · 1. März 2023 um 18:09

Ich sollte dich besser davon abhalten, das zu lesen Das könnte wirklich NSFW sein, selbst in Textform
Ich habe die erste Schwelle auf 100 erhöht, mal sehen, wie es jetzt läuft

kinetiksoft · 1. März 2023 um 19:00

Ich hoffe wirklich, dass es in zukünftigen Versionen möglich sein wird, dass Disorder private Nachrichten nicht überprüft (oder nicht meldet). Wir greifen nicht darauf zu und finden, dass KI, die private Gespräche überprüft, höchst unethisch ist.

Falco · 1. März 2023 um 19:11

Ja, das ist dasselbe, was @davidkingham gefragt hat, wir werden es in unsere Roadmap aufnehmen.

ganncamp · 1. März 2023 um 19:28

…und Englisch?

Außerdem frage ich mich, inwieweit dies Akismet ersetzen kann. Wir haben derzeit eine Ablehnungsrate von 97 % bei den Akismet-Markierungen. Es scheint einfach auf Beiträge mit vielen Ziffern zu reagieren. Wenn Sie also Job-Protokolle posten, bei denen jede Zeile mit einem Zeitstempel beginnt…

Falco · 1. März 2023 um 19:35

Der Rüstungskrieg zwischen Spam und Spam-Erkennung ist mit dem Aufkommen von weit verbreiteten LLMs geradezu eskaliert. Wir arbeiten intensiv an Funktionen, die eine breite Palette von Modellen nutzen, und obwohl Spam im Moment keine Priorität hat, werden wir uns damit befassen.

mattdm · 2. März 2023 um 16:34

Okay, also: Ich habe es eingeschaltet. Woher weiß ich, dass es funktioniert?

Abgesehen davon, die Schwellenwerte wirklich niedrig einzustellen, um alles zu erfassen, meine ich.

Gibt es einen Diagnosemodus oder ein Protokoll, in dem ich sehen kann, wie ein bestimmter Beitrag bewertet wurde?

kinetiksoft · 2. März 2023 um 16:41

Der einfachste Weg ist, es zu provozieren, indem man etwas Beleidigendes postet. Stellen Sie sicher, dass Ihre Benutzergruppe in den Plugin-Einstellungen nicht umgangen wird.

Der bessere Weg ist, den Data Explorer abzufragen. Bitte beziehen Sie sich auf eine meiner Abfragen in diesem Beitrag:

mattdm · 2. März 2023 um 16:46

Danke. Das gibt bisher für alle Beiträge Nullwerte zurück… ist das zu erwarten?

kinetiksoft · 2. März 2023 um 16:48

Die Mehrheit unserer Beiträge weist ebenfalls Nullen bei allen Kriterien auf. Dies ist normal für ein Forum mit gesunder Kommunikation.

mattdm · 2. März 2023 um 16:49

Cool – ich war mir nicht sicher, wie schnell das Modell auslöst.

danielabc · 15. April 2023 um 05:08

Ich habe das Plugin installiert, aber es funktioniert nicht. Muss ich zusätzliche Konfigurationen vornehmen?

mjr4684 · 20. April 2023 um 17:44

Ich sehe eine große Anzahl von Fehlern von dem Plugin:
Job exception: uninitialized constant Jobs::ClassifyChatMessage::ChatMessage

Das Problem scheint aufzutreten, wenn eines meiner Plugins eine Chat-Nachricht mit dem folgenden Befehl erstellt:
Chat::MessageCreator.create(chat_channel: matching_channel, user: message_user, content: raw).chat_message

Danke

Falco · 20. April 2023 um 18:06

Ohhh, das hätte mit der neuen Chat-Reorganisation kaputtgehen sollen. Wir stehen kurz vor der Einführung eines neuen Plugins, das die Funktionalität dieses hier in den nächsten Tagen integrieren wird, also bleiben Sie dran.

Thema		Antworten	Aufrufe
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	428	7. Juli 2023
Introducing Discourse AI Blog	26	3671	4. Mai 2023
Setting up toxicity detection in your community Site Management automation , ai , how-to , moderation	0	939	7. August 2024
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	822	26. Mai 2025
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	1	876	1. Januar 2026

Diskursstörung

Verwandte Themen