Trastorno del Discurso

kinetiksoft · 1 Marzo, 2023 12:45

También he modificado tu consulta para mostrar la puntuación de una manera más conveniente utilizando el Explorador de Datos.
Los créditos van a ChatGPT y Pistas de PostgreSQL de Leonardo:

SELECT
  json_extract_path_text(pcf.value::json, 'classification', 'toxicity') AS toxicity,
  json_extract_path_text(pcf.value::json, 'classification', 'severe_toxicity') AS severe_toxicity,
  json_extract_path_text(pcf.value::json, 'classification', 'obscene') AS obscene,
  json_extract_path_text(pcf.value::json, 'classification', 'identity_attack') AS identity_attack,
  json_extract_path_text(pcf.value::json, 'classification', 'insult') AS insult,
  json_extract_path_text(pcf.value::json, 'classification', 'threat') AS threat,
  json_extract_path_text(pcf.value::json, 'classification', 'sexual_explicit') AS sexual_explicit,
  json_extract_path_text(pcf.value::json, 'model') AS model,
  pcf.created_at,
  p.raw
FROM
  post_custom_fields AS pcf
INNER JOIN
  posts AS p ON p.id = pcf.post_id
INNER JOIN
  topics AS t ON t.id = p.topic_id
WHERE
  pcf.name = 'disorder' 
  AND t.archetype = 'regular'
ORDER BY created_at DESC

Y esta modificación devolverá aquellas filas donde cualquiera de los valores de clasificación sea mayor que 50 (o lo que sea que establezcas)

-- [params]
-- int :threshold = 50
SELECT DISTINCT ON (p.id, pcf.created_at)
  json_extract_path_text(pcf.value::json, 'classification', 'toxicity') AS toxicity,
  json_extract_path_text(pcf.value::json, 'classification', 'severe_toxicity') AS severe_toxicity,
  json_extract_path_text(pcf.value::json, 'classification', 'obscene') AS obscene,
  json_extract_path_text(pcf.value::json, 'classification', 'identity_attack') AS identity_attack,
  json_extract_path_text(pcf.value::json, 'classification', 'insult') AS insult,
  json_extract_path_text(pcf.value::json, 'classification', 'threat') AS threat,
  json_extract_path_text(pcf.value::json, 'classification', 'sexual_explicit') AS sexual_explicit,
  json_extract_path_text(pcf.value::json, 'model') AS model,
  p.id as post_id,
  pcf.created_at,
  p.raw
FROM
  post_custom_fields AS pcf
INNER JOIN
  posts AS p ON p.id = pcf.post_id
INNER JOIN
  topics AS t ON t.id = p.topic_id
WHERE
  pcf.name = 'disorder' 
  AND t.archetype = 'regular'
GROUP BY p.id, pcf.value, pcf.created_at
HAVING 
  CAST(json_extract_path_text(pcf.value::json, 'classification', 'toxicity') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'severe_toxicity') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'obscene') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'identity_attack') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'insult') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'threat') AS FLOAT) > :threshold 
  OR CAST(json_extract_path_text(pcf.value::json, 'classification', 'sexual_explicit') AS FLOAT) > :threshold
ORDER BY pcf.created_at DESC, p.id

También puedes modificarlo introduciendo varios parámetros más para poder establecer diferentes umbrales para informar utilizando el explorador de datos.

Ten en cuenta: esto solo devolverá publicaciones públicas, sin acceder a mensajes privados.

Falco · 1 Marzo, 2023 16:33

¡Estamos trabajando en esta función exacta ahora mismo!

También estamos planeando usar las tasas de falsos positivos/negativos para ejecutar un optimizador que pueda sugerirle los mejores umbrales para cada opción, así que conserve esa información, ya que será útil en el futuro cercano.

kinetiksoft · 1 Marzo, 2023 16:47

Suena genial. Me alegra oír eso.
Hasta ahora, tiendo a rechazar/ignorar todas las advertencias que hace Disorderbot, incluso habiendo aumentado los umbrales hasta un máximo de 90-100. Pero, debido a la naturaleza del foro en el que lo estamos probando (NSFW), la IA se confunde fácilmente si la comunicación es realmente tóxica o no. Mientras no sea tan fiable para nuestro caso de uso, seguiremos utilizándolo, pero solo usaremos sus informes para “reforzar” otros informes sobre publicaciones realmente tóxicas.

Tan pronto como encontremos umbrales mejores para usar a largo plazo, podremos habilitar advertencias preventivas cuando un usuario intente publicar algo realmente tóxico.

satonotdead · 1 Marzo, 2023 17:01

Eso es lo que sospecho cuando la IA se generalice. Permitirá la censura y limitará el cuestionamiento genuino del status quo que es necesario para la salud de todas las comunidades del mundo.

No limitar ni prohibir, educar y debatir. Quizás haya una manera de usar las herramientas sin el efecto secundario (ya que mis preocupaciones son que ese es el efecto deseado), pero veo que no es posible en este momento.

Gracias por tus comentarios, tienen valor para mí. Y, por supuesto, gracias al equipo por mantener Discourse actualizado y mejorando como siempre

Falco · 1 Marzo, 2023 17:50

Establecer todos los umbrales en 100 y confiar solo en los más extremos, como “toxicidad severa” y “amenaza”, es algo que puedo ver adoptado en comunidades como esa.

kinetiksoft · 1 Marzo, 2023 17:56

Gracias. Actualmente está configurado así y sigue siendo demasiado sensible. Aumentaré algunas más y veré cómo va

Falco · 1 Marzo, 2023 17:57

Tendría que ver las clasificaciones brutas, pero también aumentaría primero la de insultos.

kinetiksoft · 1 Marzo, 2023 18:09

Mejor te mantendré alejado de leer eso Podrían ser realmente NSFW, incluso en forma de texto.
He aumentado el primer umbral a 100 también, ya veré cómo va ahora

kinetiksoft · 1 Marzo, 2023 19:00

Espero sinceramente que en futuras versiones sea posible que Disorder no revise (o no informe sobre) los mensajes privados. No los consultamos y sentimos que la IA que revisa conversaciones privadas es muy poco ética.

Falco · 1 Marzo, 2023 19:11

Sí, eso es lo mismo que preguntó @davidkingham, lo pondremos en nuestra hoja de ruta.

ganncamp · 1 Marzo, 2023 19:28

…¿y el inglés?

Además, me pregunto hasta qué punto esto puede reemplazar a Akismet. Tenemos una tasa de desacuerdo del 97% en las marcas de Akismet en este momento. Parece que simplemente reacciona a las publicaciones con muchos dígitos, por lo que si publicas registros de trabajo, donde cada línea comienza con una marca de tiempo…

Falco · 1 Marzo, 2023 19:35

La guerra armamentista entre el spam y la detección de spam acaba de volverse nuclear con la llegada de los LLM ampliamente disponibles. Estamos trabajando arduamente en funciones que utilizan una amplia gama de modelos y, si bien el spam no es nuestra prioridad en este momento, es algo que investigaremos.

mattdm · 2 Marzo, 2023 16:34

De acuerdo, entonces: Lo encendí. ¿Cómo sé que está funcionando?

Aparte de bajar los umbrales al mínimo para capturar todo, quiero decir.

¿Hay un modo de diagnóstico o un registro donde pueda ver qué puntuación ha obtenido una publicación determinada?

kinetiksoft · 2 Marzo, 2023 16:41

La forma más fácil es provocarlo publicando algo insultante. Asegúrate de que el grupo de tu usuario no se omita en la configuración del plugin.

La mejor manera es consultar Data Explorer. Consulte una de mis consultas en esta publicación:

mattdm · 2 Marzo, 2023 16:46

Gracias. Eso está devolviendo ceros en todos los ámbitos para todas las publicaciones hasta ahora… ¿se espera eso?

kinetiksoft · 2 Marzo, 2023 16:48

La mayoría de nuestras publicaciones también tienen 0 en todos los criterios. Esto es normal para un foro con una comunicación saludable.

mattdm · 2 Marzo, 2023 16:49

Genial — no estaba seguro de lo rápido que reacciona el modelo.

danielabc · 15 Abril, 2023 05:08

Instalé el plugin, pero no funciona, ¿tengo que hacer alguna configuración adicional?

mjr4684 · 20 Abril, 2023 17:44

Estoy viendo un gran número de los siguientes errores del plugin:
Job exception: uninitialized constant Jobs::ClassifyChatMessage::ChatMessage

El problema parece ocurrir cuando uno de mis plugins crea un mensaje de chat usando el siguiente comando:
Chat::MessageCreator.create(chat_channel: matching_channel, user: message_user, content: raw).chat_message

Gracias

Falco · 20 Abril, 2023 18:06

Ohhh, esto debería haberse roto con la nueva reorganización del chat. Estamos a punto de lanzar un nuevo plugin que incorporará la funcionalidad de este en los próximos días, así que estad atentos.

Tema		Respuestas	Vistas
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	442	7 Julio 2023
Introducing Discourse AI Blog	26	3709	4 Mayo 2023
Setting up toxicity detection in your community Site Management automation , ai , how-to , moderation	0	987	7 Agosto 2024
Experiments with AI based moderation on Discourse Meta Community Building moderation , ai	11	895	26 Mayo 2025
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	1	1008	2 Marzo 2026

Trastorno del Discurso

Temas relacionados