Как добавить нового чат-бота, подключенного к локально размещенной LLM?

Я хочу добавить нового «Чат-бота» и связать его с локально размещённой LLM.

Я пробовал использовать поле «ai hugging face model display name», но оно нигде не отображается. Возможно, мне нужно ссылаться на него в промптах, связанных с персоной?

Также я пытался «создать» нового бота через выпадающее меню «ai bot enable chat bots», но любой созданный мной бот отображается в выпадающем списке чат-ботов как «[en.discourse_ai.ai_bot.bot_names.XXXX]», где XXXX — это имя, которое я указал.

Буду признателен за любые советы, ссылки на документацию или руководства о том, как это сделать.

Есть ли у кого-нибудь предложения или это известное ограничение?

@Roman работает над рефакторингом этого раздела, ожидайте больше новостей в ближайшие недели

Я не уверен, правильно ли я понимаю, что в настоящее время невозможно использовать самообслуживаемую LLM, но это скоро изменится?

На данный момент это невозможно, но, надеюсь, через неделю или две у нас это заработает.

Спасибо. Я удивился, что это не сработало, поскольку OpenAI поддерживается. Думаю, многие люди запускают свои собственные LLM через совместимый с OpenAI эндпоинт. Буду ждать обновления через 2 недели :slight_smile:

Из любопытства, @Isambard, как вы оцениваете ежемесячные затраты (в долларовом эквиваленте) на хостинг достаточно мощной локальной LLM?

Минимум 5 долларов США в месяц за дополнительную электроэнергию для GPU в режиме простоя — хотя на самом деле дополнительные расходы на Discourse равны нулю, так как я уже использую LLM для других целей.

Однако для небольших форумов с низкой нагрузкой определённо экономичнее использовать LLM как услугу. Но для масштаба хостинг-предложения Discourse, я подозреваю, что имеет смысл разместить его внутренне (а также приобрести знания в этой области, которые, вероятно, станут важными).

А 15 тысяч за A100?

Какую именно модель вы запускаете локально?

Я запускаю несколько разных задач. Для задач Discourse я буду использовать модель на 7B параметров, основанную на Mistral и дообученную под конкретные задачи. Для задач классификации я рассматриваю различные модели типа BERT, но с эмбеддингами пока не определился. Всё это работает на б/у видеокарте 3090 Ti, которую я купил за 700 долларов.

Мне бы очень хотелось иметь A100, но вместо этого я собрал отдельную систему с 4 GPU «бюджетно» всего за 1000 долларов, которая запускает Llama 3 70Bq4 со скоростью более 20 токенов в секунду.

Безусловно, во многих или даже в большинстве случаев имеет смысл просто воспользоваться услугами провайдера. Однако, может оказаться целесообразным сделать всё самостоятельно, если:

  • Вы хотите учиться
  • Вы хотите иметь полный контроль над своими моделями (чтобы не потерять к ним доступ и не зависеть от компании, использующей свои закрытые эмбеддинги)
  • У вас есть большой объем пакетной обработки, который дешевле выполнить самостоятельно
  • Вам требуется зарезервированная и надежная мощность (у провайдеров существуют лимиты как на количество запросов, так и на токены) для пакетной обработки

Я провёл бенчмарк RTX 3090 и получил максимальную устойчивую скорость около 2600 токенов в секунду при запуске Llama 3 - 8B в формате FP16. Я живу в регионе с дорогой электроэнергией, но при непрерывной работе с лимитом мощности 285 Вт стоимость составит около 0,007 доллара за миллион сгенерированных токенов. Или примерно 0,01 доллара за миллион токенов, если полностью амортизировать стоимость оборудования за 3 года.

Это довольно выгодно по сравнению с Claude Haiku, при условии разумного уровня утилизации.

Я сделал интересное открытие: веб-сервер, на котором я размещаю свой форум, обладает достаточной мощностью для запуска небольшой LLM с умеренной скоростью (6 токенов/с без пакетной обработки), даже без GPU. Это будет полезно для автономных/фоновых задач.