Para uma única instância, será difícil superar os preços da API, pois com os preços da API você paga por chamada, enquanto ao executar o TGI, você paga por hora que o servidor está em execução.
Digamos que você esteja executando o Llama 3.1 8B em um g6.xlarge; isso custará aproximadamente US$ 600 por mês. Isso poderia lhe dar cerca de 450 milhões de tokens no Anthropic Claude 3.5 Haiku.
Executar seu próprio LLM faz sentido quando você precisa de privacidade ou escala.