Сравнение стоимости конечных точек HuggingFace TGI и OpenAI API

oppman · 14.Январь.2025 17:24:41

Стажёр развернул наш сайт Discourse на DigitalOcean с использованием OpenAI через API-эндпоинт, подключённый к плагину Discourse AI. Сайт работает отлично. Стажёр предложил рассмотреть HuggingFace TGI. Я пытаюсь дать ему рекомендации, чтобы понять, движется ли он в правильном направлении в отношении HuggingFace. Я полагаю, что он предлагает самостоятельно размещать HuggingFace TGI для снижения затрат. Однако, глядя на стоимость GPU при хостинге, это кажется дорогим.

Я мог бы попросить стажёра предложить конкретные услуги и их стоимость, но я стараюсь помочь стратегическими рекомендациями. Альтернатива — чтобы стажёр продолжил тестировать OpenAI, Anthropic и Gemini.

Есть ли какие-либо советы по тому, какое задание мне стоит поручить стажёру?

Основная идея — внедрить Discourse AI на продакшн-развёртывание Discourse, а затем попросить клиента (того, кто финансирует сообщество) оплатить дополнительную сервисную плату за поддержку ИИ и продвижение новых функций.

Что касается заданий для стажёра, я также мог бы поручить ему изучить Hugging Face Inference API. Это дешевле, чем использование OpenAI API?

Использует ли кто-либо конкретные сервисы Google Cloud, AWS или Azure для размещения TGI?

Например, для AWS стоит ли им рассмотреть g4dn.xlarge или g5.xlarge?

Для GCP являются ли T4 GPU рекомендуемым путём?

Есть ли советы по тому, как им следует рассчитывать затраты?

Falco · 15.Январь.2025 15:24:11

Для единичного экземпляра трудно превзойти ценообразование API, так как при использовании API вы платите за каждый вызов, тогда как при запуске TGI вы платите за каждый час работы сервера.

Допустим, вы запускаете Llama 3.1 8B на инстансе g6.xlarge; это обойдётся вам примерно в 600 долларов в месяц. За эти деньги в Anthropic Claude 3.5 Haiku можно было бы обработать около 450 миллионов токенов.

Запуск собственной большой языковой модели имеет смысл, когда вам требуется либо конфиденциальность, либо масштабируемость.

oppman · 15.Январь.2025 16:29:21

Спасибо за ваш ответ. $600 в месяц за Llama 3.1 8B в экземпляре g6.xlarge — это разумная стоимость, но, как вы любезно указали, использование API обойдётся дешевле. Поэтому мы, скорее всего, выберем API OpenAI и другие API-решения. Какие существуют проблемы с конфиденциальностью?

Для целей экспериментов с HuggingFace TGI есть ли что-то дешевле $600 в месяц, что можно использовать для тестирования? Например, может ли стажёр отключать GPU-экземпляр, когда он не работает? Я пытаюсь понять, что порекомендовать ему. Я немного запутался в стоимости GPU-контейнеров и не хочу возлагать на стажёра ответственность за рекомендацию по затратам. Если он допустит ошибку при покупке контейнера, он может почувствовать себя неловко.

Я хотел бы предоставить ему ресурсы, а затем поручить ему протестировать HuggingFace TGI на предоставленном оборудовании. После этого он сможет сообщить о любых различиях в производительности или результатах оптимизации.

Тема		Ответов	Просм.
What Discourse AI features are FREE to use? Support ai	13	518	30.08.2024
OpenAI releases GPT-4o for free to all users, including devs? Support ai	2	418	16.05.2024
Discourse AI - Self-Hosted Guide Self-Hosting ai	59	14109	20.05.2024
How much do you spend on OpenAI integration? General	8	1088	15.01.2024
Self-Hosting an OpenSource LLM for DiscourseAI Self-Hosting ai	12	3874	06.07.2026

Сравнение стоимости конечных точек HuggingFace TGI и OpenAI API

Связанные темы