Какая информация о пользователях раскрывается LLM в Discourse AI

Я использую Discourse AI на своём сайте, который работает на поддомене (community.website.com), и хочу лучше понять, какая информация о пользователях может передаваться языковой модели (LLM) во время взаимодействия. В частности, меня интересуют следующие вопросы:

  1. Какие типы данных пользователей (например, личная информация, IP-адреса) потенциально могут быть раскрыты LLM?
  2. Существуют ли какие-либо меры защиты в Discourse AI, ограничивающие или анонимизирующие передаваемые данные?

Для дополнительного контекста: моя конфигурация использует Caddy в качестве обратного прокси и Sucuri для DNS и файрвола. Если у кого-то есть информация о том, как эта настройка влияет на то, что раскрывается, или просто общие знания о том, как Discourse AI обрабатывает данные пользователей, буду очень благодарен за ваш ответ!

С нетерпением жду ответов от тех, кто лучше разбирается в этом вопросе.

Я считаю, что вы в какой-то момент использовали мои плагины ИИ: Chatbot и AI Topic Summary, поскольку вы оставляли сообщения в соответствующих темах. Поэтому я отвечу именно по ним, но если вам нужна дополнительная информация, пожалуйста, напишите в этих темах.

Оба моих плагина отправляют имена пользователей и исходное содержимое сообщений (то есть разметку Markdown). Обратите внимание: если в сообщении кто-то упоминает имя другого пользователя или адрес, эта информация, разумеется, будет передана в составе разметки Markdown. В противном случае пользователи представлены только своими именами.

Другие метаданные (например, IP-адреса, профили пользователей и т. д.) не отправляются.

Вы можете увидеть отправляемые запросы в логах, если включите детальное логирование и перенаправите логи на уровень Warn (для этого есть отдельная настройка), чтобы они были видны в разделе /logs.

Спасибо, Роберт. Да, я использую эти плагины, они отличные. Благодарю за обратную связь. После прочтения некоторых политик конфиденциальности LLM передача конфиденциальных данных пользователей вызывает опасения. Очевидно, что в контексте чата будет отправляться только контекст разговора, а само по себе имя пользователя не вызывает беспокойства. Условия использования некоторых LLM довольно навязчивы, поэтому я и задал этот вопрос. Еще раз спасибо.

Это хорошо, что это только имена пользователей и содержимое постов. Пока речь идет только о публично доступном контенте, на самом деле не имеет значения, увидел и распространил его или извлек из него что-то поисковая система, ИИ или человек.

Я бы обеспокоился по поводу частных постов и категорий, доступных только определенным авторизованным пользователям. Если ведутся обсуждения по чувствительным бизнес-вопросам и эта информация попадает в ИИ, то теперь ИИ может представить эти идеи любому другому человеку, который запросит бизнес-идеи. Или что-то подобное.

Мой сайт посвящен проекту с открытым исходным кодом, поэтому чем больше данных отправляется для обучения ИИ, тем лучше для помощи всем остальным.