Diskursstörung

Ich habe Ihre Abfrage auch so modifiziert, dass die Bewertung auf bequemere Weise mit dem Data Explorer angezeigt wird.
Die Credits gehen an ChatGPT und PostgreSQL-Hinweise von Leonardo:

SELECT
  json_extract_path_text(pcf.value::json, 'classification', 'toxicity') AS toxicity,
  json_extract_path_text(pcf.value::json, 'classification', 'severe_toxicity') AS severe_toxicity,
  json_extract_path_text(pcf.value::json, 'classification', 'obscene') AS obscene,
  json_extract_path_text(pcf.value::json, 'classification', 'identity_attack') AS identity_attack,
  json_extract_path_text(pcf.value::json, 'classification', 'insult') AS insult,
  json_extract_path_text(pcf.value::json, 'classification', 'threat') AS threat,
  json_extract_path_text(pcf.value::json, 'classification', 'sexual_explicit') AS sexual_explicit,
  json_extract_path_text(pcf.value::json, 'model') AS model,
  pcf.created_at,
  p.raw
FROM
  post_custom_fields AS pcf
INNER JOIN
  posts AS p ON p.id = pcf.post_id
INNER JOIN
  topics AS t ON t.id = p.topic_id
WHERE
  pcf.name = 'disorder' 
  AND t.archetype = 'regular'
ORDER BY created_at DESC
Und diese Modifikation gibt die Zeilen zurück, bei denen einer der Klassifizierungswerte größer als 50 (oder was auch immer Sie einstellen) ist
-- [params]
-- int :threshold = 50
SELECT DISTINCT ON (p.id, pcf.created_at)
  json_extract_path_text(pcf.value::json, 'classification', 'toxicity') AS toxicity,
  json_extract_path_text(pcf.value::json, 'classification', 'severe_toxicity') AS severe_toxicity,
  json_extract_path_text(pcf.value::json, 'classification', 'obscene') AS obscene,
  json_extract_path_text(pcf.value::json, 'classification', 'identity_attack') AS identity_attack,
  json_extract_path_text(pcf.value::json, 'classification', 'insult') AS insult,
  json_extract_path_text(pcf.value::json, 'classification', 'threat') AS threat,
  json_extract_path_text(pcf.value::json, 'classification', 'sexual_explicit') AS sexual_explicit,
  json_extract_path_text(pcf.value::json, 'model') AS model,
  p.id as post_id,
  pcf.created_at,
  p.raw
FROM
  post_custom_fields AS pcf
INNER JOIN
  posts AS p ON p.id = pcf.post_id
INNER JOIN
  topics AS t ON t.id = p.topic_id
WHERE
  pcf.name = 'disorder' 
  AND t.archetype = 'regular'
GROUP BY p.id, pcf.value, pcf.created_at
HAVING 
  CAST(json_extract_path_text(pcf.value::json, 'classification', 'toxicity') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'severe_toxicity') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'obscene') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'identity_attack') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'insult') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'threat') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'sexual_explicit') AS FLOAT) > :threshold
ORDER BY pcf.created_at DESC, p.id

Sie können es auch modifizieren, indem Sie mehrere weitere Parameter einführen, um unterschiedliche Schwellenwerte für die Berichterstattung über den Data Explorer festlegen zu können.

Bitte beachten Sie: Dies gibt nur öffentliche Beiträge zurück, ohne auf private Nachrichten zuzugreifen.

3 „Gefällt mir“

Wir arbeiten gerade an genau dieser Funktion!

Wir planen außerdem, die Raten für falsch positive und falsch negative Ergebnisse zu verwenden, um einen Optimierer auszuführen, der Ihnen die besten Schwellenwerte für jede Option vorschlagen kann. Behalten Sie diese Informationen also im Hinterkopf, da sie in naher Zukunft nützlich sein werden.

5 „Gefällt mir“

Klingt großartig. Schön zu hören.
Bisher neige ich dazu, alle von Disorderbot gemachten Flags abzulehnen/zu ignorieren, selbst wenn die Schwellenwerte auf maximal 90-100 erhöht wurden. Aufgrund der Natur des Forums, auf dem wir es testen (NSFW), ist die KI leicht verwirrt, ob die Kommunikation wirklich toxisch ist oder nicht. Solange es für unseren Anwendungsfall nicht so zuverlässig ist, werden wir es weiterhin verwenden, aber seine Berichte nur dazu verwenden, andere Berichte über wirklich toxische Beiträge zu “verstärken”.

Sobald wir einige bessere Schwellenwerte für die langfristige Nutzung gefunden haben, werden wir vorsorgliche Warnungen aktivieren können, wenn ein Benutzer versucht, etwas wirklich Toxisches zu posten.

Das vermute ich, wenn KI Mainstream wird. Sie wird Zensur ermöglichen und die echte Infragestellung des Status quo einschränken, die für die Gesundheit jeder Gemeinschaft auf der Welt notwendig ist.

Nicht einschränken oder verbieten, sondern aufklären und diskutieren. Vielleicht gibt es eine Möglichkeit, die Werkzeuge ohne die Nebenwirkung (da ich befürchte, dass dies der gewünschte Effekt ist) zu nutzen, aber ich sehe, dass dies im Moment nicht möglich ist.

Vielen Dank für Ihr Feedback, es hat für mich Wert. Und natürlich danke an das Team, dass es Discourse wie immer auf dem neuesten Stand hält und verbessert :slight_smile:

Alle Schwellenwerte auf 100 zu setzen und sich nur auf die extremeren zu verlassen, wie „schwere Toxizität“ und „Bedrohung“, ist etwas, das ich in solchen Communities als übernommen ansehen kann.

3 „Gefällt mir“

Danke. Es ist derzeit so eingestellt und immer noch zu empfindlich. Ich werde einige noch weiter erhöhen und sehen, wie es läuft

1 „Gefällt mir“

Ich müsste die Rohklassifizierungen sehen, aber ich würde zuerst die Beleidigungsklassifizierung erhöhen.

Ich sollte dich besser davon abhalten, das zu lesen :smiley: Das könnte wirklich NSFW sein, selbst in Textform
Ich habe die erste Schwelle auf 100 erhöht, mal sehen, wie es jetzt läuft :smiley:

1 „Gefällt mir“

Ich hoffe wirklich, dass es in zukünftigen Versionen möglich sein wird, dass Disorder private Nachrichten nicht überprüft (oder nicht meldet). Wir greifen nicht darauf zu und finden, dass KI, die private Gespräche überprüft, höchst unethisch ist.

4 „Gefällt mir“

Ja, das ist dasselbe, was @davidkingham gefragt hat, wir werden es in unsere Roadmap aufnehmen.

3 „Gefällt mir“

…und Englisch? :sweat_smile:

Außerdem frage ich mich, inwieweit dies Akismet ersetzen kann. Wir haben derzeit eine Ablehnungsrate von 97 % bei den Akismet-Markierungen. Es scheint einfach auf Beiträge mit vielen Ziffern zu reagieren. Wenn Sie also Job-Protokolle posten, bei denen jede Zeile mit einem Zeitstempel beginnt…

1 „Gefällt mir“

Der Rüstungskrieg zwischen Spam und Spam-Erkennung ist mit dem Aufkommen von weit verbreiteten LLMs geradezu eskaliert. Wir arbeiten intensiv an Funktionen, die eine breite Palette von Modellen nutzen, und obwohl Spam im Moment keine Priorität hat, werden wir uns damit befassen.

4 „Gefällt mir“

Okay, also: Ich habe es eingeschaltet. Woher weiß ich, dass es funktioniert?

Abgesehen davon, die Schwellenwerte wirklich niedrig einzustellen, um alles zu erfassen, meine ich.

Gibt es einen Diagnosemodus oder ein Protokoll, in dem ich sehen kann, wie ein bestimmter Beitrag bewertet wurde?

2 „Gefällt mir“

Der einfachste Weg ist, es zu provozieren, indem man etwas Beleidigendes postet. Stellen Sie sicher, dass Ihre Benutzergruppe in den Plugin-Einstellungen nicht umgangen wird.

Der bessere Weg ist, den Data Explorer abzufragen. Bitte beziehen Sie sich auf eine meiner Abfragen in diesem Beitrag:

1 „Gefällt mir“

Danke. Das gibt bisher für alle Beiträge Nullwerte zurück… ist das zu erwarten?

1 „Gefällt mir“

Die Mehrheit unserer Beiträge weist ebenfalls Nullen bei allen Kriterien auf. Dies ist normal für ein Forum mit gesunder Kommunikation.

2 „Gefällt mir“

Cool – ich war mir nicht sicher, wie schnell das Modell auslöst. :slight_smile:

1 „Gefällt mir“

Ich habe das Plugin installiert, aber es funktioniert nicht. Muss ich zusätzliche Konfigurationen vornehmen?

Ich sehe eine große Anzahl von Fehlern von dem Plugin:
Job exception: uninitialized constant Jobs::ClassifyChatMessage::ChatMessage

Das Problem scheint aufzutreten, wenn eines meiner Plugins eine Chat-Nachricht mit dem folgenden Befehl erstellt:
Chat::MessageCreator.create(chat_channel: matching_channel, user: message_user, content: raw).chat_message

Danke

1 „Gefällt mir“

Ohhh, das hätte mit der neuen Chat-Reorganisation kaputtgehen sollen. Wir stehen kurz vor der Einführung eines neuen Plugins, das die Funktionalität dieses hier in den nächsten Tagen integrieren wird, also bleiben Sie dran.

5 „Gefällt mir“