在Discourse AI中暴露给LLMs的用户信息

我正在我的网站上使用 Discourse AI,该网站运行在一个子域 (community.website.com) 上,并且我想更好地了解在交互过程中可能与语言模型 (LLM) 共享的用户信息类型。具体来说,我关心的是:

  1. 哪些类型的用户数据(例如,个人信息、IP 地址)可能暴露给 LLM?
  2. Discourse AI 中是否有任何保护措施可以限制或匿名化发送的内容?

为了提供更多背景信息,我的设置使用了 Caddy 作为反向代理,并使用 Sucuri 进行 DNS 和防火墙设置。如果有人对这种配置如何影响暴露的内容有见解,或者对 Discourse AI 如何处理用户数据有任何一般性了解,我将非常感谢!

期待听到那些对此有更深入了解的人的意见。

1 个赞

我相信您在某个时候使用过我的 AI 插件,ChatbotAI Topic Summary,因为您在这些主题中发过帖,所以我将代表这些插件进行回复,但如果您想了解更多信息,请在这些主题中发帖。

我的两个插件都会发送用户名原始帖子内容(即 markdown)。注意,如果有人在帖子中提到某人的名字或地址,当然也会在 markdown 中发送,但除此之外,用户仅由用户名表示。

其他元数据则不会发送,例如 IP 地址、用户个人资料等。

如果您选择详细日志记录选项并将日志记录到警告级别(还有另一个设置),您就可以在日志中看到正在发送的查询。

4 个赞

谢谢你,罗伯特。是的,我确实使用了那些很棒的插件。感谢你的反馈。阅读了一些关于 LLM 的隐私政策后,为用户传输敏感数据会令人担忧。显然,聊天中的任何内容都会被发送,而用户名本身确实不会令人担忧。一些 LLM 的条款相当侵入性,这就是我提出这个问题的缘由。再次感谢。

2 个赞

只要是公开可见的内容,无论是搜索引擎、人工智能还是人类看到某些内容并传播或从中提取信息,都没有什么区别。

如果涉及仅限特定登录用户查看的私人帖子/类别,我才会担心。如果正在进行敏感的业务讨论,而这些内容被输入到人工智能中,那么该人工智能可能会将这些想法呈现给任何可能寻求商业想法的人。或者类似的情况。

我的网站是为开源项目设计的,因此,越多数据被发送出去供人工智能学习,就越有助于帮助所有人。