Я хочу добавить нового «Чат-бота» и связать его с локально размещённой LLM.
Я пробовал использовать поле «ai hugging face model display name», но оно нигде не отображается. Возможно, мне нужно ссылаться на него в промптах, связанных с персоной?
Также я пытался «создать» нового бота через выпадающее меню «ai bot enable chat bots», но любой созданный мной бот отображается в выпадающем списке чат-ботов как «[en.discourse_ai.ai_bot.bot_names.XXXX]», где XXXX — это имя, которое я указал.
Буду признателен за любые советы, ссылки на документацию или руководства о том, как это сделать.
Спасибо. Я удивился, что это не сработало, поскольку OpenAI поддерживается. Думаю, многие люди запускают свои собственные LLM через совместимый с OpenAI эндпоинт. Буду ждать обновления через 2 недели
Минимум 5 долларов США в месяц за дополнительную электроэнергию для GPU в режиме простоя — хотя на самом деле дополнительные расходы на Discourse равны нулю, так как я уже использую LLM для других целей.
Однако для небольших форумов с низкой нагрузкой определённо экономичнее использовать LLM как услугу. Но для масштаба хостинг-предложения Discourse, я подозреваю, что имеет смысл разместить его внутренне (а также приобрести знания в этой области, которые, вероятно, станут важными).
Я запускаю несколько разных задач. Для задач Discourse я буду использовать модель на 7B параметров, основанную на Mistral и дообученную под конкретные задачи. Для задач классификации я рассматриваю различные модели типа BERT, но с эмбеддингами пока не определился. Всё это работает на б/у видеокарте 3090 Ti, которую я купил за 700 долларов.
Мне бы очень хотелось иметь A100, но вместо этого я собрал отдельную систему с 4 GPU «бюджетно» всего за 1000 долларов, которая запускает Llama 3 70Bq4 со скоростью более 20 токенов в секунду.
Безусловно, во многих или даже в большинстве случаев имеет смысл просто воспользоваться услугами провайдера. Однако, может оказаться целесообразным сделать всё самостоятельно, если:
Вы хотите учиться
Вы хотите иметь полный контроль над своими моделями (чтобы не потерять к ним доступ и не зависеть от компании, использующей свои закрытые эмбеддинги)
У вас есть большой объем пакетной обработки, который дешевле выполнить самостоятельно
Вам требуется зарезервированная и надежная мощность (у провайдеров существуют лимиты как на количество запросов, так и на токены) для пакетной обработки
Я провёл бенчмарк RTX 3090 и получил максимальную устойчивую скорость около 2600 токенов в секунду при запуске Llama 3 - 8B в формате FP16. Я живу в регионе с дорогой электроэнергией, но при непрерывной работе с лимитом мощности 285 Вт стоимость составит около 0,007 доллара за миллион сгенерированных токенов. Или примерно 0,01 доллара за миллион токенов, если полностью амортизировать стоимость оборудования за 3 года.
Это довольно выгодно по сравнению с Claude Haiku, при условии разумного уровня утилизации.
Я сделал интересное открытие: веб-сервер, на котором я размещаю свой форум, обладает достаточной мощностью для запуска небольшой LLM с умеренной скоростью (6 токенов/с без пакетной обработки), даже без GPU. Это будет полезно для автономных/фоновых задач.