Для единичного экземпляра трудно превзойти ценообразование API, так как при использовании API вы платите за каждый вызов, тогда как при запуске TGI вы платите за каждый час работы сервера.
Допустим, вы запускаете Llama 3.1 8B на инстансе g6.xlarge; это обойдётся вам примерно в 600 долларов в месяц. За эти деньги в Anthropic Claude 3.5 Haiku можно было бы обработать около 450 миллионов токенов.
Запуск собственной большой языковой модели имеет смысл, когда вам требуется либо конфиденциальность, либо масштабируемость.