Возможно ли обучить бота на данных моего сообщества, если я этого хочу?
Для этого вам сначала потребуется разрешение всех участников сообщества на использование их текстов, иначе вы возьмете на себя риск ответственности, так как некоторые компании, например Microsoft, уже подвергаются судебным искам за именно такие действия без разрешения.
Как правило, владельцы форумов стремятся получить на контент пользователей очень либеральную лицензию. Я не юрист, но это совершенно другая игра по сравнению с «сбором информации из интернета и обучением на ней».
В любом случае, здесь есть существенные сложности:
- Тонкая настройка (fine-tuning) доступна только для моделей 3.5 (в экосистеме OpenAI).
- При использовании тонкой настройки стоимость одного вызова модели значительно возрастает.
- Достижение реального результата с помощью тонкой настройки крайне сложно и потребует колоссальных усилий по курированию данных. Мое интуитивное ощущение: это не приблизится к производительности RAG[1].
Таким образом, хотя это возможно, не рекомендуется.
(GPT-4) В данном контексте «RAG» означает Retrieval Augmented Generation (генерация с дополнением через поиск). Это техника, часто используемая в машинном обучении, в частности при обучении моделей ИИ, таких как чат-боты. RAG объединяет преимущества моделей, основанных на поиске, и генеративных моделей. Иными словами, она использует базу данных готовых ответов (поиск) и дополняет её способностью генерировать новые ответы с нуля. Такое сочетание обычно приводит к улучшению производительности, поскольку система может извлекать точные факты из своей библиотеки и формулировать их в новых, связных предложениях. В обсуждении пользователь предполагает, что тонкая настройка модели ИИ на конкретный набор данных сообщества может не обеспечить того же уровня производительности, что и использование модели RAG, подразумевая, что модель RAG более эффективна и обеспечивает ответы более высокого качества. ↩︎
Тонкая настройка не является эффективным способом добавления нового контента в модель. Она полезна для обучения моделей генерировать вывод в различных форматах или достижения более высокой производительности в конкретных задачах (например, категоризация, извлечение контента), но добавить контент с её помощью невозможно.
Лучше всего воспринимать это так: с помощью тонкой настройки можно научить модель новым трюкам, но не новым фактам. Если вы хотите снизить уровень галлюцинаций или добавить новый контент, используйте подход RAG.
Никто так и не ответил на вопрос. Допустим, у вас есть права на использование данных сообщества: как бы вы обучили на них AI-бота?
Что вы имеете в виду под «обучением»?
Дообучить конкретную модель (GPT 3.5 или Llama), а затем разместить кастомную модель?
Или вы имеете в виду, чтобы бот был осведомлён о содержимом форума?
Если вам нужна просто осведомлённость, то это уже доступно сейчас.
Если же вы хотите дообученную модель, вам придётся нанять команду специалистов по ИИ.
Насколько значительная часть ответа была
- примером галлюцинации
- зависела от ИИ/модели (очень дорогой саморазмещённый вариант сильно отличается от просто дорогой модели OpenAI)
Могу ли я попросить бота с ИИ использовать конкретный источник данных для RAG в дополнение ко всему форуму? У меня есть плоская база данных (я могу сделать её CSV), которая станет хорошей отправной точкой для многих вопросов бота с ИИ, а затем он сможет использовать RAG для остальной части форума по мере необходимости. Я не хочу выкладывать CSV на форум.
Возможно, вы могли бы разместить данные CSV в месте, доступном для ИИ, но недоступном для обычных пользователей. (Это может быть невозможно или ужасной идеей, но это может сработать).
Да, вы можете загрузить файл напрямую в персону.
Звучит отлично, но я не понимаю, как загрузить файл в персону. Или мне следует добавить ссылку на файл в системный промпт персоны?
Когда вы перейдете в Администрирование > Плагины > ИИ > Персоны > Новая персона, в самом низу вы увидите раздел “Загрузки”:
Кроме того, в зависимости от объема ваших данных в CSV, вы также можете напрямую вставить их в системный промпт.
Я сейчас использую последнюю версию, и я тоже не вижу этой опции.
Настроено ли встраивание?
2 сообщения были перенесены в новую тему: Встраивания Gemini не работают

