Qué información del usuario se expone a los LLMs en Discourse AI

Estoy usando Discourse AI en mi sitio, que se ejecuta en un subdominio (community.website.com), y me gustaría entender mejor qué tipo de información del usuario podría compartirse con el modelo de lenguaje (LLM) durante las interacciones. Específicamente, tengo curiosidad sobre:

  1. ¿Qué tipos de datos del usuario (por ejemplo, información personal, direcciones IP) podrían exponerse potencialmente al LLM?
  2. ¿Existen salvaguardas dentro de Discourse AI para limitar o anonimizar lo que se envía?

Como contexto adicional, mi configuración utiliza Caddy como proxy inverso y Sucuri para DNS y firewall. Si alguien tiene información sobre cómo esta configuración podría afectar lo que se expone, o simplemente conocimiento general sobre cómo Discourse AI maneja los datos del usuario, ¡realmente apreciaría su aporte!

Espero escuchar a aquellos que tengan un mejor entendimiento de esto.

1 me gusta

Creo que has estado utilizando mis plugins de IA en algún momento, Chatbot y Resumen de Temas de IA, ya que has publicado en esos Temas, así que responderé por ellos, pero si quieres más información, por favor publica en esos Temas.

Ambos de mis plugins envían nombres de usuario y contenido de Publicación sin procesar (es decir, el markdown). Nota: si alguien menciona el nombre de alguien en una Publicación, o una dirección, eso se enviará en el markdown, por supuesto, pero de lo contrario, los Usuarios solo se representan mediante Nombres de Usuario.

No se envían otros metadatos, por ejemplo, IPs, Perfiles de Usuario, etc.

Puedes ver las consultas que se envían en los registros si seleccionas la opción de registro detallado y desvías los registros a Advertir (hay otra configuración) para que sean visibles en /logs.

4 Me gusta

Gracias Robert. Sí, uso esos complementos que son excelentes. Agradezco los comentarios. Después de leer algunas de las políticas de privacidad de los LLM, transferir datos sensibles para los usuarios sería preocupante. Obviamente, se enviará cualquier contexto dentro del chat y el nombre de usuario por sí solo realmente no es preocupante. Algunos de los términos de los LLM son bastante invasivos, así que eso es lo que impulsó mi consulta. Gracias de nuevo.

2 Me gusta

Eso está bien, son solo nombres de usuario y contenido de publicaciones. Siempre que sea contenido visible públicamente, realmente no importa si fue un motor de búsqueda, una IA o un humano, quien vio cierto contenido y lo difundió o derivó algo de él.

Me preocuparían las publicaciones/categorías privadas que son para ciertos usuarios registrados. Si se está produciendo una discusión comercial sensible y esa información va a una IA, bueno, ahora la IA puede presentar esas ideas a cualquier otra persona que pueda solicitar ideas de negocios. O similar.

Mi sitio es para un proyecto de código abierto, por lo que cuantos más datos se envíen para que las IA aprendan, mejor será para ayudar a todos.