Почему была выбрана внешняя ИИ-система вместо внутренней?

Здравствуйте,

Я пишу, чтобы узнать о функции «Связанный контент» в Discourse. Я заметил, что она использует внешние ИИ-сервисы. Почему был выбран именно этот подход вместо разработки внутренней системы на основе тегов или категорий, которая могла бы напрямую предлагать релевантный контент? Я видел опцию для предложения тем из той же категории, но ничего аналогичного для тегов.

Существует ли официальный плагин или компонент Discourse, предоставляющий такую функциональность? Хочу поблагодарить вас за вашу ежедневную работу и постоянные инновации, которые вы привносите в платформу.

Примечание: Я не сотрудник Discourse и не сотрудник OpenAI, а модератор категории на форуме OpenAI (создателей ChatGPT и GPT 4) и использую многие функции Discourse AI ещё на этапе разработки.

Средства, о которых вы говорите, — это синтаксический поиск, тогда как здесь речь идёт о семантическом поиске, который использует векторные представления (эмбеддинги) вместо ключевых слов.

По запросу «как работает семантический поиск» в Google находится множество статей; вот одна, которая, думаю, многим здесь понравится:

Да, это часть плагина Discourse AI, а именно раздела Семантически связанные темы.

Что касается использования внешних ресурсов: если хотите, вы можете запускать свою LLM локально:

Но пробовали ли вы это делать в рамках какого-либо проекта?

Для этого потребуется владеть или арендовать особенно мощное оборудование!

Попробуйте сами запустить более компактные языковые модели (которые вы могли бы рассмотреть для размещения) и посмотрите, насколько они вас впечатлят:

Результаты могут различаться, но на мой взгляд, вам стоит рассматривать размещение модели как минимум с 70 миллиардами параметров, что будет довольно затратно при самостоятельном хостинге.

Для справки: GPT 3.5, по утверждениям, является моделью с 175 миллиардами параметров, а GPT 4 имеет почти 2 триллиона (как они говорят) :sweat_smile:

Я написал этот плагин:

В нём есть функция автоматической разметки с помощью ИИ. По моему опыту, для качественной работы требуется GPT 4 Turbo (и тогда она действительно работает отлично!)

Если вы планируете самостоятельно разместить что-то столь же мощное, вам понадобятся очень глубокие карманы.

Именно поэтому использование внешнего API LLM остаётся привлекательным вариантом с оплатой по факту использования, особенно потому, что вы платите только за сделанные вызовы, а не за дорогостоящую инфраструктуру, которая простаивает без дела.

Конечно, если конфиденциальность является серьёзной и достаточной причиной для беспокойства, это может изменить расчёты.

@EricGT @merefield Спасибо за ваш быстрый ответ и предоставленную информацию. Я понимаю и ценю инновации, которые ИИ привносит в платформу Discourse. Однако меня беспокоят строгие требования к защите данных в Европе, особенно во Франции в соответствии с GDPR. Консультация с юристом для обеспечения соответствия нашей политике конфиденциальности может обойтись довольно дорого.

Вот почему я хотел бы узнать, существует ли плагин для Discourse, предлагающий функциональность связанного контента без необходимости использования внешнего ИИ.

Кроме того, хочу поделиться с вами своим личным опытом: я долго колебался перед запуском своего форума на Discourse, опасаясь, что могу что-то сделать неправильно, несмотря на имеющиеся руководства. Появление ChatGPT стало для меня переломным моментом. Невероятно, как оно изменило мою жизнь: с его помощью я смог реализовать проекты, которые раньше не осмелился бы предпринять. Это революция, открывающая для меня новые перспективы и позволяющая уверенно двигаться вперед.

Еще раз спасибо за всю вашу работу и постоянную поддержку.

Как уже упоминалось, плагины ИИ могут использовать внешние сервисы, либо вы можете создать собственную персональную облачную систему, выполняющую те же задачи. Однако запуск собственного сервиса ИИ сопряжен с высокими затратами, требует дополнительного обслуживания и не обеспечивает результатов, сопоставимых с внешними сервисами.

Это ограничение самой технологии ИИ: её крайне сложно поддерживать и запускать, и здесь ничего не могут сделать плагины Discourse. Плагины Discourse не зависят от того, используете ли вы внешний сервис или «внутренний».

В данном контексте это совершенно не актуально.

Но… юрист действительно намного дешевле, чем самостоятельное развёртывание LLM.