Qué información del usuario se expone a los LLMs en Discourse AI

BrianC · 25 Enero, 2025 12:42

Estoy usando Discourse AI en mi sitio, que se ejecuta en un subdominio (community.website.com), y me gustaría entender mejor qué tipo de información del usuario podría compartirse con el modelo de lenguaje (LLM) durante las interacciones. Específicamente, tengo curiosidad sobre:

¿Qué tipos de datos del usuario (por ejemplo, información personal, direcciones IP) podrían exponerse potencialmente al LLM?
¿Existen salvaguardas dentro de Discourse AI para limitar o anonimizar lo que se envía?

Como contexto adicional, mi configuración utiliza Caddy como proxy inverso y Sucuri para DNS y firewall. Si alguien tiene información sobre cómo esta configuración podría afectar lo que se expone, o simplemente conocimiento general sobre cómo Discourse AI maneja los datos del usuario, ¡realmente apreciaría su aporte!

Espero escuchar a aquellos que tengan un mejor entendimiento de esto.

merefield · 25 Enero, 2025 13:12

Creo que has estado utilizando mis plugins de IA en algún momento, Chatbot y Resumen de Temas de IA, ya que has publicado en esos Temas, así que responderé por ellos, pero si quieres más información, por favor publica en esos Temas.

Ambos de mis plugins envían nombres de usuario y contenido de Publicación sin procesar (es decir, el markdown). Nota: si alguien menciona el nombre de alguien en una Publicación, o una dirección, eso se enviará en el markdown, por supuesto, pero de lo contrario, los Usuarios solo se representan mediante Nombres de Usuario.

No se envían otros metadatos, por ejemplo, IPs, Perfiles de Usuario, etc.

Puedes ver las consultas que se envían en los registros si seleccionas la opción de registro detallado y desvías los registros a Advertir (hay otra configuración) para que sean visibles en /logs.

BrianC · 25 Enero, 2025 13:25

Gracias Robert. Sí, uso esos complementos que son excelentes. Agradezco los comentarios. Después de leer algunas de las políticas de privacidad de los LLM, transferir datos sensibles para los usuarios sería preocupante. Obviamente, se enviará cualquier contexto dentro del chat y el nombre de usuario por sí solo realmente no es preocupante. Algunos de los términos de los LLM son bastante invasivos, así que eso es lo que impulsó mi consulta. Gracias de nuevo.

trusktr · 17 Marzo, 2025 21:29

Eso está bien, son solo nombres de usuario y contenido de publicaciones. Siempre que sea contenido visible públicamente, realmente no importa si fue un motor de búsqueda, una IA o un humano, quien vio cierto contenido y lo difundió o derivó algo de él.

Me preocuparían las publicaciones/categorías privadas que son para ciertos usuarios registrados. Si se está produciendo una discusión comercial sensible y esa información va a una IA, bueno, ahora la IA puede presentar esas ideas a cualquier otra persona que pueda solicitar ideas de negocios. O similar.

Mi sitio es para un proyecto de código abierto, por lo que cuantos más datos se envíen para que las IA aprendan, mejor será para ayudar a todos.

Tema		Respuestas	Vistas
Concerns over personal privacy with the AI plugin Feature privacy , ai , ai-summarize	9	415	10 Abril 2025
All Discourse AI features now available on Pro and Business Announcements ai	5	1039	6 Enero 2025
Help with Discourse AI Support ai	5	262	19 Febrero 2025
Is there any way to use AI bots while not allowing them access to read all posts? Support ai , ai-bot	1	212	15 Noviembre 2023
Where in Discourse can users publicly share PII? Site Management privacy , reference	0	129	11 Diciembre 2025

Qué información del usuario se expone a los LLMs en Discourse AI

Temas relacionados