Que informações do usuário são expostas aos LLMs no Discourse AI

Estou usando o Discourse AI no meu site, que roda em um subdomínio (community.website.com), e gostaria de entender melhor que tipo de informação do usuário pode ser compartilhada com o modelo de linguagem (LLM) durante as interações. Especificamente, estou curioso sobre:\n\n1. Que tipos de dados do usuário (por exemplo, informações pessoais, endereços IP) poderiam ser potencialmente expostos ao LLM?\n2. Existem salvaguardas implementadas no Discourse AI para limitar ou anonimizar o que é enviado?\n\nComo contexto adicional, minha configuração usa o Caddy como proxy reverso e o Sucuri para DNS e firewall. Se alguém tiver insights sobre como essa configuração pode afetar o que é exposto — ou apenas conhecimento geral sobre como o Discourse AI lida com dados do usuário — eu realmente apreciaria a contribuição!\n\nAguardo ansiosamente o retorno daqueles que têm um melhor entendimento sobre isso.

1 curtida

Acredito que você tenha usado meus plugins de IA em algum momento, Chatbot e AI Topic Summary, já que você postou nesses Tópicos, então responderei por eles, mas se você quiser mais informações, por favor, poste nesses Tópicos.

Ambos os meus plugins enviam nomes de usuário e conteúdo bruto da postagem (ou seja, o markdown). Observação: se alguém mencionar o nome de alguém em uma postagem, ou um endereço, isso será enviado no markdown, é claro, mas, caso contrário, os usuários são apenas representados por nomes de usuário.

Outros metadados não são enviados, por exemplo, IPs, Perfis de Usuário, etc.

Você pode ver as consultas que estão sendo enviadas nos logs se selecionar a opção de log detalhado e desviar os logs para Avisar (há outra configuração) para que eles fiquem visíveis em /logs.

4 curtidas

Obrigado, Robert. Sim, eu uso esses plugins que são excelentes. Agradeço o feedback. Depois de ler algumas das políticas de privacidade de LLM, transferir dados confidenciais para usuários seria preocupante. Obviamente, qualquer que seja o contexto dentro do chat será enviado e o nome de usuário por si só realmente não é preocupante. Alguns dos termos dos LLMs são bastante invasivos, então foi isso que motivou minha pergunta. Obrigado novamente.

2 curtidas

Isso é bom, são apenas nomes de usuário e conteúdo de postagem. Contanto que seja apenas conteúdo visível publicamente, então realmente não faz diferença se foi um motor de busca, uma IA ou um humano que viu algum conteúdo e o espalhou ou derivou algo dele.

Eu ficaria preocupado com postagens/categorias privadas que são para certos usuários logados. Se discussões de negócios sensíveis estiverem acontecendo e essas coisas forem para uma IA, bem, agora a IA pode apresentar essas ideias a qualquer outra pessoa que possa pedir ideias de negócios. Ou similar.

Meu site é para um projeto de código aberto, então quanto mais dados forem enviados para as IAs aprenderem, melhor para ajudar a todos.