Questo argomento copre la configurazione della funzionalità di tossicità del plugin Discourse AI.
Livello utente richiesto: Amministratore
I moduli di tossicità possono classificare automaticamente il punteggio di tossicità di ogni nuovo post e messaggio di chat nella tua istanza Discourse. Puoi anche abilitare il contrassegno automatico dei contenuti che superano una soglia.
Le classificazioni vengono memorizzate nel database, quindi puoi abilitare il plugin e utilizzare Data Explorer per report immediati sulla classificazione dei nuovi contenuti in Discourse. Presto forniremo alcune query Data Explorer predefinite con il plugin per semplificare questo processo.
Impostazioni
ai_toxicity_enabled: Abilita o disabilita il modulo
ai_toxicity_inference_service_api_endpoint: URL in cui è in esecuzione l’API per il modulo di tossicità. Se utilizzi l’hosting CDCK, questo viene gestito automaticamente. Se esegui l’hosting autonomo, consulta la guida all’hosting autonomo.
ai_toxicity_inference_service_api_key: Chiave API per l’API di tossicità configurata sopra. Se utilizzi l’hosting CDCK, questo viene gestito automaticamente. Se esegui l’hosting autonomo, consulta la guida all’hosting autonomo.
ai_toxicity_inference_service_api_model: ai_toxicity_inference_service_api_model: Offriamo tre modelli diversi:
original,unbiasedemultilingual. Si consigliaunbiasedrispetto aoriginalperché cercherà di non riportare i pregiudizi introdotti dal materiale di addestramento nella classificazione. Per le community multilingue, l’ultimo modello supporta italiano, francese, russo, portoghese, spagnolo e turco.ai_toxicity_flag_automatically: Contrassegna automaticamente post/messaggi di chat quando la classificazione per una categoria specifica supera la soglia configurata. Le categorie disponibili sono
toxicity,severe_toxicity,obscene,identity_attack,insult,threatesexual_explicit. Esiste un’impostazioneai_toxicity_flag_threshold_${category}per ciascuna di esse.ai_toxicity_groups_bypass: Gli utenti appartenenti a questi gruppi non avranno i loro post classificati dal modulo di tossicità. Per impostazione predefinita include gli utenti dello staff.
Risorse aggiuntive
Sto ottimizzando questo in questo momento, posso presumere che una soglia più alta sia più rigorosa e una più bassa più permissiva?
Direi che più alta è la soglia, più tollerante sarà. Una soglia più bassa sarebbe più incline a segnalare un post come tossico poiché ci vorrebbe meno per attivare una segnalazione, quindi una soglia più alta richiederebbe di più per attivare una segnalazione.
Soglia bassa = facile da superare
Soglia alta = più difficile da superare
Voglio avere un meccanismo per intercettare tentativi di attività commerciale sul nostro sito - non tossicità in sé, ma molto dannosa per la nostra community.
Questo è vicino, ma non è esattamente quello che ci interessa.
Hai considerato questa dimensione?
Questo è coperto da Discourse AI Post Classifier - Automation rule. Fammi sapere come va.
Qualcuno può aiutarmi a configurarlo con l’API Perspective di Google? Metterei un annuncio nel marketplace ma penso che qui sia più appropriato.
So che è passato un anno, ma per favore fammi sapere come è andata questa implementazione! Ci sono personalmente coinvolto ^^ Detto questo, correggimi se sbaglio @Discourse, ma gli attributi che menzioni in questa pagina SONO le metriche atomiche di Perspective, come implementate tramite Detoxify, quindi aggiungere Perspective è un po’ un punto morto, giusto?
- ai_toxicity_flag_automatically: Segnala automaticamente post/messaggi di chat quando la classificazione per una categoria specifica supera la soglia configurata. Le categorie disponibili sono
toxicity,severe_toxicity,obscene,identity_attack,insult,threatesexual_explicit. C’è un’impostazioneai_toxicity_flag_threshold_${category}per ciascuna di esse.
Indipendentemente da ciò, Detoxify può essere implementato dalla community di Kaggle. È un ottimo posto per trovare qualcuno che lo implementi perché è esattamente ciò che fa Kaggle ![]()
Abbiamo integrato i modelli GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. per gestire la classificazione automatica della tossicità e per eseguire il flagging automatico quando supera una soglia configurabile.
Abbiamo scoperto che, sebbene funzioni benissimo se si ha tolleranza zero per la tossicità tipica sulle proprie istanze, come quelle di proprietà di un “brand”, per altre istanze Discourse più orientate alla community, i modelli di tossicità erano troppo severi, generando troppi flag in istanze più permissive.
Per questo motivo, il nostro piano attuale è quello di deprecare la tossicità e spostare questa funzionalità nel nostro plugin AI Triage, dove forniamo un prompt personalizzabile agli amministratori per adattare il loro rilevamento automatico della tossicità ai livelli consentiti nella loro istanza.
Abbiamo anche in programma di offrire ai nostri clienti un LLM di moderazione ospitato, simile a https://ai.google.dev/gemma/docs/shieldgemma o [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, che ha ottenuto ottimi risultati nelle nostre valutazioni interne rispetto allo stesso dataset utilizzato nella competizione originale di Jigsaw Kaggle che ha dato origine a Detoxify.