Реально ли внедрять документы среднего размера (например, до 100 КБ) в контекст сессии бота-персоны Discourse AI через системный промпт?
ОБЛАСТЬ ПРИМЕНЕНИЯ
Пользовательская персона AI, связанная с частной LLM, такой как Llama3-8b, на экземпляре AWS, где оплата производится за час, а не за токен. То есть количество токенов запроса/ответа не имеет значения, а сервер обладает значительными вычислительными мощностями CUDA, поэтому производительность находится на высоком уровне. Следовательно, RAG может быть необязательным?
(Альтернативный вариант использования: LLM Gemini 1.5, где вызовы API бесплатны)
ЦЕЛЬ
Уменьшить количество компонентов в конвейере и повысить точность, избегая поиска по сходству.
ЭКСПЕРИМЕНТ
Неформальное тестирование персоны AI с использованием Gemini 1.5 Pro, где текстовый документ объемом ~20 тыс. токенов был вставлен в системный промпт.
Я задал несколько вопросов, ответы на которые, как я знал, содержались только в документе. На все вопросы были даны правильные ответы. Следовательно, я предполагаю, что модель прочитала 20 тыс. токенов из промпта и анализировала их при каждом вопросе?
Есть ли недостатки у такого подхода в случаях, когда сессии и содержимое контекста не слишком велики?
Большое спасибо.
ПОДРОБНОСТИ — Удаление контекста из промпта в середине сессии
Когда я удалил внедренный в промпт контент в середине сессии и продолжил задавать вопросы, Gemini продолжал давать правильные ответы, но после нескольких вопросов потерял контекст и перестал справляться. Как и следовало ожидать, Gemini 1.5 способен сохранять контекст в течение нескольких витков диалога в рамках сессии, но не бесконечно.
Буду признателен за любые мысли, комментарии и рекомендации!






