Quali informazioni utente sono esposte agli LLM in Discourse AI

Sto utilizzando Discourse AI sul mio sito, che è in esecuzione su un sottodominio (community.website.com), e vorrei capire meglio quali tipi di informazioni utente potrebbero essere condivisi con il modello linguistico (LLM) durante le interazioni. Nello specifico, sono curioso di sapere:\n\n1. Quali tipi di dati utente (ad esempio, informazioni personali, indirizzi IP) potrebbero potenzialmente essere esposti all’LLM?\n2. Esistono delle misure di sicurezza all’interno di Discourse AI per limitare o anonimizzare ciò che viene inviato?\n\nCome contesto aggiuntivo, la mia configurazione utilizza Caddy come reverse proxy e Sucuri per DNS e firewall. Se qualcuno ha informazioni su come questa configurazione potrebbe influire su ciò che viene esposto, o semplicemente conoscenze generali su come Discourse AI gestisce i dati utente, apprezzerei molto il contributo!\n\nAttendo con impazienza di sentire coloro che hanno una migliore comprensione di questo argomento.

1 Mi Piace

Credo che tu abbia utilizzato i miei plugin AI a un certo punto, Chatbot e AI Topic Summary, dato che hai postato in quegli argomenti, quindi risponderò per quelli, ma se desideri maggiori informazioni, posta in quegli argomenti.

Entrambi i miei plugin inviano nomi utente e contenuto del post grezzo (cioè il markdown). NB se qualcuno menziona il nome di qualcuno in un post, o un indirizzo che verrà inviato nel markdown, ovviamente, ma altrimenti gli utenti sono rappresentati solo da nomi utente.

Altri metadati non vengono inviati, ad es. IP, profili utente, ecc.

Puoi vedere le query inviate nei log se selezioni l’opzione per il logging dettagliato e reindirizzi i log su Warn (c’è un’altra impostazione) in modo che siano visibili in /logs.

4 Mi Piace

Grazie Robert. Sì, uso quei plugin che sono eccellenti. Apprezzo il feedback. Dopo aver letto alcune delle informative sulla privacy degli LLM, trasferire dati sensibili per gli utenti sarebbe preoccupante. Ovviamente, qualsiasi cosa nel contesto della chat verrà inviata e il nome utente di per sé non è davvero preoccupante. Alcuni dei termini degli LLM sono piuttosto invasivi, quindi è questo che ha stimolato la mia richiesta. Grazie ancora.

2 Mi Piace

Va bene che si tratti solo di nomi utente e contenuto dei post. Finché si tratta solo di contenuti visibili pubblicamente, allora non fa davvero differenza se sia stato un motore di ricerca, un’IA o un essere umano a vedere del contenuto e a diffonderlo o a derivarne qualcosa.

Sarei preoccupato per i post/categorie privati riservati a determinati utenti registrati. Se avvengono discussioni di affari sensibili e tali informazioni finiscono a un’IA, ora l’IA può presentare tali idee a chiunque altro possa richiederle. O cose simili.

Il mio sito è per un progetto open source, quindi più dati vengono inviati affinché le IA imparino, meglio è per aiutare tutti.