Стажёр развернул наш сайт Discourse на DigitalOcean с использованием OpenAI через API-эндпоинт, подключённый к плагину Discourse AI. Сайт работает отлично. Стажёр предложил рассмотреть HuggingFace TGI. Я пытаюсь дать ему рекомендации, чтобы понять, движется ли он в правильном направлении в отношении HuggingFace. Я полагаю, что он предлагает самостоятельно размещать HuggingFace TGI для снижения затрат. Однако, глядя на стоимость GPU при хостинге, это кажется дорогим.
Я мог бы попросить стажёра предложить конкретные услуги и их стоимость, но я стараюсь помочь стратегическими рекомендациями. Альтернатива — чтобы стажёр продолжил тестировать OpenAI, Anthropic и Gemini.
Есть ли какие-либо советы по тому, какое задание мне стоит поручить стажёру?
Основная идея — внедрить Discourse AI на продакшн-развёртывание Discourse, а затем попросить клиента (того, кто финансирует сообщество) оплатить дополнительную сервисную плату за поддержку ИИ и продвижение новых функций.
Что касается заданий для стажёра, я также мог бы поручить ему изучить Hugging Face Inference API. Это дешевле, чем использование OpenAI API?
Использует ли кто-либо конкретные сервисы Google Cloud, AWS или Azure для размещения TGI?
Например, для AWS стоит ли им рассмотреть g4dn.xlarge или g5.xlarge?
Для GCP являются ли T4 GPU рекомендуемым путём?
Есть ли советы по тому, как им следует рассчитывать затраты?
Для единичного экземпляра трудно превзойти ценообразование API, так как при использовании API вы платите за каждый вызов, тогда как при запуске TGI вы платите за каждый час работы сервера.
Допустим, вы запускаете Llama 3.1 8B на инстансе g6.xlarge; это обойдётся вам примерно в 600 долларов в месяц. За эти деньги в Anthropic Claude 3.5 Haiku можно было бы обработать около 450 миллионов токенов.
Запуск собственной большой языковой модели имеет смысл, когда вам требуется либо конфиденциальность, либо масштабируемость.
Спасибо за ваш ответ. $600 в месяц за Llama 3.1 8B в экземпляре g6.xlarge — это разумная стоимость, но, как вы любезно указали, использование API обойдётся дешевле. Поэтому мы, скорее всего, выберем API OpenAI и другие API-решения. Какие существуют проблемы с конфиденциальностью?
Для целей экспериментов с HuggingFace TGI есть ли что-то дешевле $600 в месяц, что можно использовать для тестирования? Например, может ли стажёр отключать GPU-экземпляр, когда он не работает? Я пытаюсь понять, что порекомендовать ему. Я немного запутался в стоимости GPU-контейнеров и не хочу возлагать на стажёра ответственность за рекомендацию по затратам. Если он допустит ошибку при покупке контейнера, он может почувствовать себя неловко.
Я хотел бы предоставить ему ресурсы, а затем поручить ему протестировать HuggingFace TGI на предоставленном оборудовании. После этого он сможет сообщить о любых различиях в производительности или результатах оптимизации.