Discourse AI - Tossicità

Discourse · 24 Aprile 2023, 7:39pm

Questo argomento copre la configurazione della funzionalità di tossicità del plugin Discourse AI.

Livello utente richiesto: Amministratore

I moduli di tossicità possono classificare automaticamente il punteggio di tossicità di ogni nuovo post e messaggio di chat nella tua istanza Discourse. Puoi anche abilitare il contrassegno automatico dei contenuti che superano una soglia.

Le classificazioni vengono memorizzate nel database, quindi puoi abilitare il plugin e utilizzare Data Explorer per report immediati sulla classificazione dei nuovi contenuti in Discourse. Presto forniremo alcune query Data Explorer predefinite con il plugin per semplificare questo processo.

Impostazioni

ai_toxicity_enabled: Abilita o disabilita il modulo

ai_toxicity_inference_service_api_endpoint: URL in cui è in esecuzione l’API per il modulo di tossicità. Se utilizzi l’hosting CDCK, questo viene gestito automaticamente. Se esegui l’hosting autonomo, consulta la guida all’hosting autonomo.

ai_toxicity_inference_service_api_key: Chiave API per l’API di tossicità configurata sopra. Se utilizzi l’hosting CDCK, questo viene gestito automaticamente. Se esegui l’hosting autonomo, consulta la guida all’hosting autonomo.

ai_toxicity_inference_service_api_model: ai_toxicity_inference_service_api_model: Offriamo tre modelli diversi: original, unbiased e multilingual. Si consiglia unbiased rispetto a original perché cercherà di non riportare i pregiudizi introdotti dal materiale di addestramento nella classificazione. Per le community multilingue, l’ultimo modello supporta italiano, francese, russo, portoghese, spagnolo e turco.

ai_toxicity_flag_automatically: Contrassegna automaticamente post/messaggi di chat quando la classificazione per una categoria specifica supera la soglia configurata. Le categorie disponibili sono toxicity, severe_toxicity, obscene, identity_attack, insult, threat e sexual_explicit. Esiste un’impostazione ai_toxicity_flag_threshold_${category} per ciascuna di esse.

ai_toxicity_groups_bypass: Gli utenti appartenenti a questi gruppi non avranno i loro post classificati dal modulo di tossicità. Per impostazione predefinita include gli utenti dello staff.

Risorse aggiuntive

Discourse AI

Install plugins on a self-hosted site

Hifihedgehog · 11 Settembre 2023, 11:18pm

Sto ottimizzando questo in questo momento, posso presumere che una soglia più alta sia più rigorosa e una più bassa più permissiva?

JimPas · 12 Settembre 2023, 5:08am

Direi che più alta è la soglia, più tollerante sarà. Una soglia più bassa sarebbe più incline a segnalare un post come tossico poiché ci vorrebbe meno per attivare una segnalazione, quindi una soglia più alta richiederebbe di più per attivare una segnalazione.
Soglia bassa = facile da superare
Soglia alta = più difficile da superare

nathank · 23 Novembre 2023, 7:45am

Voglio avere un meccanismo per intercettare tentativi di attività commerciale sul nostro sito - non tossicità in sé, ma molto dannosa per la nostra community.

Questo è vicino, ma non è esattamente quello che ci interessa.

Hai considerato questa dimensione?

Falco · 23 Novembre 2023, 12:00pm

Questo è coperto da Discourse AI Post Classifier - Automation rule. Fammi sapere come va.

Mr.X_Mr.X · 17 Aprile 2024, 2:09am

Qualcuno può aiutarmi a configurarlo con l’API Perspective di Google? Metterei un annuncio nel marketplace ma penso che qui sia più appropriato.

Samantha_Venia_Logan · 26 Agosto 2024, 5:46am

So che è passato un anno, ma per favore fammi sapere come è andata questa implementazione! Ci sono personalmente coinvolto ^^ Detto questo, correggimi se sbaglio @Discourse, ma gli attributi che menzioni in questa pagina SONO le metriche atomiche di Perspective, come implementate tramite Detoxify, quindi aggiungere Perspective è un po’ un punto morto, giusto?

ai_toxicity_flag_automatically: Segnala automaticamente post/messaggi di chat quando la classificazione per una categoria specifica supera la soglia configurata. Le categorie disponibili sono toxicity, severe_toxicity, obscene, identity_attack, insult, threat e sexual_explicit. C’è un’impostazione ai_toxicity_flag_threshold_${category} per ciascuna di esse.

Indipendentemente da ciò, Detoxify può essere implementato dalla community di Kaggle. È un ottimo posto per trovare qualcuno che lo implementi perché è esattamente ciò che fa Kaggle

Falco · 26 Agosto 2024, 7:21pm

Abbiamo integrato i modelli GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. per gestire la classificazione automatica della tossicità e per eseguire il flagging automatico quando supera una soglia configurabile.

Abbiamo scoperto che, sebbene funzioni benissimo se si ha tolleranza zero per la tossicità tipica sulle proprie istanze, come quelle di proprietà di un “brand”, per altre istanze Discourse più orientate alla community, i modelli di tossicità erano troppo severi, generando troppi flag in istanze più permissive.

Per questo motivo, il nostro piano attuale è quello di deprecare la tossicità e spostare questa funzionalità nel nostro plugin AI Triage, dove forniamo un prompt personalizzabile agli amministratori per adattare il loro rilevamento automatico della tossicità ai livelli consentiti nella loro istanza.

Abbiamo anche in programma di offrire ai nostri clienti un LLM di moderazione ospitato, simile a https://ai.google.dev/gemma/docs/shieldgemma o [2312.06674] Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, che ha ottenuto ottimi risultati nelle nostre valutazioni interne rispetto allo stesso dataset utilizzato nella competizione originale di Jigsaw Kaggle che ha dato origine a Detoxify.

Argomento		Risposte	Visualizzazioni
Setting up toxicity detection in your community Site Management moderation , automation , how-to , ai	0	857	Agosto 7, 2024
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	404	Luglio 7, 2023
Discourse Google Perspective API Plugin official , perspective-api	2	20976	Agosto 10, 2024
Setting up NSFW detection in your community Site Management moderation , automation , how-to , ai	0	720	Ottobre 10, 2024
AI flagging too sensitive Support ai , ai-toxicity	2	578	Marzo 31, 2024

Discourse AI - Tossicità

Impostazioni

Risorse aggiuntive

Argomenti correlati