Как добавить нового чат-бота, подключенного к локально размещенной LLM?

Nadeem · 06.Март.2024 23:18:40

Я хочу добавить нового «Чат-бота» и связать его с локально размещённой LLM.

Я пробовал использовать поле «ai hugging face model display name», но оно нигде не отображается. Возможно, мне нужно ссылаться на него в промптах, связанных с персоной?

Также я пытался «создать» нового бота через выпадающее меню «ai bot enable chat bots», но любой созданный мной бот отображается в выпадающем списке чат-ботов как «[en.discourse_ai.ai_bot.bot_names.XXXX]», где XXXX — это имя, которое я указал.

Буду признателен за любые советы, ссылки на документацию или руководства о том, как это сделать.

Nadeem · 24.Апрель.2024 22:25:03

Есть ли у кого-нибудь предложения или это известное ограничение?

sam · 24.Апрель.2024 22:35:32

@Roman работает над рефакторингом этого раздела, ожидайте больше новостей в ближайшие недели

Isambard · 02.Июнь.2024 11:02:19

Я не уверен, правильно ли я понимаю, что в настоящее время невозможно использовать самообслуживаемую LLM, но это скоро изменится?

sam · 03.Июнь.2024 02:11:55

На данный момент это невозможно, но, надеюсь, через неделю или две у нас это заработает.

Isambard · 03.Июнь.2024 08:23:40

Спасибо. Я удивился, что это не сработало, поскольку OpenAI поддерживается. Думаю, многие люди запускают свои собственные LLM через совместимый с OpenAI эндпоинт. Буду ждать обновления через 2 недели

merefield · 03.Июнь.2024 08:37:24

Из любопытства, @Isambard, как вы оцениваете ежемесячные затраты (в долларовом эквиваленте) на хостинг достаточно мощной локальной LLM?

Isambard · 03.Июнь.2024 17:06:52

Минимум 5 долларов США в месяц за дополнительную электроэнергию для GPU в режиме простоя — хотя на самом деле дополнительные расходы на Discourse равны нулю, так как я уже использую LLM для других целей.

Однако для небольших форумов с низкой нагрузкой определённо экономичнее использовать LLM как услугу. Но для масштаба хостинг-предложения Discourse, я подозреваю, что имеет смысл разместить его внутренне (а также приобрести знания в этой области, которые, вероятно, станут важными).

sam · 04.Июнь.2024 00:12:49

А 15 тысяч за A100?

Какую именно модель вы запускаете локально?

Isambard · 04.Июнь.2024 19:42:09

Я запускаю несколько разных задач. Для задач Discourse я буду использовать модель на 7B параметров, основанную на Mistral и дообученную под конкретные задачи. Для задач классификации я рассматриваю различные модели типа BERT, но с эмбеддингами пока не определился. Всё это работает на б/у видеокарте 3090 Ti, которую я купил за 700 долларов.

Мне бы очень хотелось иметь A100, но вместо этого я собрал отдельную систему с 4 GPU «бюджетно» всего за 1000 долларов, которая запускает Llama 3 70Bq4 со скоростью более 20 токенов в секунду.

Безусловно, во многих или даже в большинстве случаев имеет смысл просто воспользоваться услугами провайдера. Однако, может оказаться целесообразным сделать всё самостоятельно, если:

Вы хотите учиться
Вы хотите иметь полный контроль над своими моделями (чтобы не потерять к ним доступ и не зависеть от компании, использующей свои закрытые эмбеддинги)
У вас есть большой объем пакетной обработки, который дешевле выполнить самостоятельно
Вам требуется зарезервированная и надежная мощность (у провайдеров существуют лимиты как на количество запросов, так и на токены) для пакетной обработки

Isambard · 05.Июнь.2024 11:49:01

Я провёл бенчмарк RTX 3090 и получил максимальную устойчивую скорость около 2600 токенов в секунду при запуске Llama 3 - 8B в формате FP16. Я живу в регионе с дорогой электроэнергией, но при непрерывной работе с лимитом мощности 285 Вт стоимость составит около 0,007 доллара за миллион сгенерированных токенов. Или примерно 0,01 доллара за миллион токенов, если полностью амортизировать стоимость оборудования за 3 года.

Это довольно выгодно по сравнению с Claude Haiku, при условии разумного уровня утилизации.

Isambard · 12.Август.2024 22:19:55

Я сделал интересное открытие: веб-сервер, на котором я размещаю свой форум, обладает достаточной мощностью для запуска небольшой LLM с умеренной скоростью (6 токенов/с без пакетной обработки), даже без GPU. Это будет полезно для автономных/фоновых задач.

Тема		Ответов	Просм.
How to configure Discourse to use a locally installed LLM? Support ai	7	355	03.06.2025
Estimating cost of enabling Discourse AI for related content and search Support ai	2	157	28.10.2025
Adding a new Chat Bot when using AI plugin Support ai	0	436	12.03.2024
Self-Hosting an OpenSource LLM for DiscourseAI Self-Hosting ai	12	3880	06.07.2026
How to use the hugging face llama2 chat bot Development ai , ai-bot	2	632	09.03.2024

Как добавить нового чат-бота, подключенного к локально размещенной LLM?

Связанные темы