Custos do HuggingFace TGI versus OpenAI API Endpoint

oppman · Janeiro 14, 2025, 5:24pm

Um estagiário implantou nosso site Discourse no DigitalOcean com a OpenAI usando um endpoint de API conectado ao plugin Discourse AI. O site está funcionando muito bem. O estagiário sugeriu que eles olhassem para o HuggingFace TGI. Estou tentando fornecer orientação ao estagiário para ver se ele está no caminho certo em relação ao HuggingFace. Acredito que eles estão sugerindo o auto-hospedagem do HuggingFace TGI para reduzir custos. No entanto, quando olho para os custos de GPU de hospedagem, parece caro.

Eu poderia pedir ao estagiário para propor serviços e custos específicos, mas estou tentando ajudar com orientação estratégica. A alternativa é o estagiário continuar testando OpenAI, Anthropic, Gemini.

Existe algum conselho sobre o que eu deveria atribuir ao estagiário?
A ideia básica é implementar o Discourse AI em uma implantação de produção do Discourse e, em seguida, pedir ao cliente (aquele que financia a comunidade) para pagar uma taxa de serviço adicional para manter a IA e promover os novos recursos.

Quanto às tarefas do estagiário, eu também poderia atribuí-lo a olhar para a Hugging Face Inference API. É mais barato do que usar a OpenAI API?

Alguém está usando serviços específicos do Google Cloud, AWS, Azure para hospedar o TGI?

Por exemplo, para AWS, eles deveriam olhar para g4dn.xlarge ou g5.xlarge?

Para GCP, as GPUs T4 são o caminho recomendado?

Algum conselho sobre como eles calculariam os custos?

Falco · Janeiro 15, 2025, 3:24pm

Para uma única instância, será difícil superar os preços da API, pois com os preços da API você paga por chamada, enquanto ao executar o TGI, você paga por hora que o servidor está em execução.

Digamos que você esteja executando o Llama 3.1 8B em um g6.xlarge; isso custará aproximadamente US$ 600 por mês. Isso poderia lhe dar cerca de 450 milhões de tokens no Anthropic Claude 3.5 Haiku.

Executar seu próprio LLM faz sentido quando você precisa de privacidade ou escala.

oppman · Janeiro 15, 2025, 4:29pm

Obrigado pela sua resposta. $600/mês para Llama 3.1 8B em g6.xlarge seria um custo razoável, mas como você gentilmente apontou, o custo da API seria mais barato. Assim, provavelmente optaremos pelos custos da API da OpenAI e outras. Quais são as preocupações com a privacidade?

Para fins de experimentação com HuggingFace TGI, existe algo mais barato que $600/mês que poderíamos usar para testes? Por exemplo, o estagiário pode desligar a instância da GPU quando não estiver trabalhando? Estou tentando descobrir o que recomendar a eles. Estou um tanto confuso quanto aos custos dos contêineres com suporte a GPU e não quero colocar o ônus da recomendação de custos sobre o estagiário. Se ele cometer um erro na compra de um contêiner, ele pode se sentir mal.

O que eu gostaria de fazer é comprar os recursos para eles e, em seguida, instruí-los a testar o HuggingFace TGI no recurso que comprei para eles. Eles poderão então relatar quaisquer diferenças de desempenho ou otimização de resultados.

Tópico		Respostas	Visualizações
What Discourse AI features are FREE to use? Support ai	14	401	29 de Setembro de 2024
OpenAI releases GPT-4o for free to all users, including devs? Support ai	3	384	16 de Maio de 2024
Discourse AI - Self-Hosted Guide Self-Hosting ai	61	13097	30 de Abril de 2025
How much do you spend on OpenAI integration? General	8	1010	15 de Janeiro de 2024
Self-Hosting an OpenSource LLM for DiscourseAI Self-Hosting ai	7	3498	20 de Janeiro de 2026

Custos do HuggingFace TGI versus OpenAI API Endpoint

Tópicos relacionados