Discourse AI - Toxidade

:bookmark: Este tópico cobre a configuração do recurso de Toxicidade do plugin Discourse AI.

:person_raising_hand: Nível de usuário necessário: Administrador

Os módulos de Toxicidade podem classificar automaticamente o nível de toxicidade de cada nova postagem e mensagem de chat em sua instância do Discourse. Você também pode habilitar a marcação automática de conteúdo que ultrapassa um limite.

As classificações são armazenadas no banco de dados, portanto, você pode habilitar o plugin e usar o Data Explorer para relatórios da classificação que ocorre para novo conteúdo no Discourse imediatamente. Em breve, enviaremos algumas consultas padrão do Data Explorer com o plugin para facilitar isso.

Configurações

  • ai_toxicity_enabled: Habilita ou desabilita o módulo

  • ai_toxicity_inference_service_api_endpoint: URL onde a API está em execução para o módulo de toxicidade. Se você estiver usando a hospedagem CDCK, isso é tratado automaticamente para você. Se você estiver auto-hospedando, consulte o guia de auto-hospedagem.

  • ai_toxicity_inference_service_api_key: Chave de API para a API de toxicidade configurada acima. Se você estiver usando a hospedagem CDCK, isso é tratado automaticamente para você. Se você estiver auto-hospedando, consulte o guia de auto-hospedagem.

  • ai_toxicity_inference_service_api_model: ai_toxicity_inference_service_api_model: Oferecemos três modelos diferentes: original, unbiased e multilingual. unbiased é recomendado sobre original porque tentará não transmitir vieses introduzidos pelo material de treinamento para a classificação. Para comunidades multilíngues, o último modelo suporta italiano, francês, russo, português, espanhol e turco.

  • ai_toxicity_flag_automatically: Marca automaticamente postagens/mensagens de chat quando a classificação para uma categoria específica ultrapassa o limite configurado. As categorias disponíveis são toxicity, severe_toxicity, obscene, identity_attack, insult, threat e sexual_explicit. Existe uma configuração ai_toxicity_flag_threshold_${category} para cada uma.

  • ai_toxicity_groups_bypass: Usuários nesses grupos não terão suas postagens classificadas pelo módulo de toxicidade. Por padrão, inclui usuários da equipe.

Recursos adicionais

10 curtidas

Ajustando isso agora, estou correto em assumir que um limite mais alto é mais rigoroso e um mais baixo é mais flexível?

1 curtida

Eu diria que quanto maior o limite, mais tolerante ele seria. Um limite mais baixo seria mais propenso a sinalizar uma postagem como tóxica, pois seria necessário menos para acionar um sinalizador, portanto, um limite mais alto exigiria mais para acionar um sinalizador.
Limite baixo = fácil de cruzar
Limite alto = mais difícil de cruzar

2 curtidas

Quero ter um mecanismo para capturar tentativas de atividade comercial em nosso site - não toxicidade em si, mas algo muito prejudicial à nossa comunidade.

Isso está próximo, mas não é exatamente o que nos interessa.

Você considerou essa dimensão?

Isso é coberto por Regra de automação do classificador de posts de IA do Discourse. Me diga como vai.

4 curtidas

Alguém pode me ajudar a configurá-lo com a API Google Perspective? Eu colocaria um anúncio no mercado, mas acho que aqui é mais apropriado.

Sei que isso foi há um ano, mas por favor, me diga como essa implementação correu! Estou pessoalmente interessado nisso ^^ Dito isso, por favor, corrija-me se estiver errado @Discourse, mas os atributos que você menciona nesta página SÃO as métricas atômicas do Perspective, como implementado através do Detoxify, então adicionar o Perspective é um pouco redundante, certo?

  • ai_toxicity_flag_automatically: Marca automaticamente posts/mensagens de chat quando a classificação para uma categoria específica ultrapassa o limite configurado. As categorias disponíveis são toxicity, severe_toxicity, obscene, identity_attack, insult, threat e sexual_explicit. Existe uma configuração ai_toxicity_flag_threshold_${category} para cada uma delas.

Independentemente disso, o Detoxify pode ser implementado pela comunidade Kaggle. Esse é um ótimo lugar para encontrar alguém para implementá-lo porque é exatamente o que o Kaggle faz :slight_smile:

2 curtidas

Integramos os modelos GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. para lidar com a classificação automática de toxicidade e realizar o sinalização automática quando acima de um limite configurável.

O que descobrimos é que, embora funcione muito bem se você tiver tolerância zero para toxicidade típica em suas instâncias, como são as instâncias mais “de marca”, para outras instâncias do Discourse mais orientadas à comunidade, os modelos de toxicidade eram muito rigorosos, gerando muitas sinalizações em instâncias mais flexíveis.

Por causa disso, nosso plano atual é Descontinuar a Toxicidade e mover este recurso para nosso plugin AI Triage, onde fornecemos um prompt personalizável para os administradores adaptarem sua detecção automática de toxicidade aos níveis permitidos em sua instância.

Também planejamos oferecer aos nossos clientes um LLM de moderação hospedado, como https://ai.google.dev/gemma/docs/shieldgemma ou [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, que teve um desempenho muito bom em nossas avaliações internas contra o mesmo conjunto de dados usado na competição original Jigsaw Kaggle que gerou o Detoxify.

4 curtidas