Um estagiário implantou nosso site Discourse no DigitalOcean com a OpenAI usando um endpoint de API conectado ao plugin Discourse AI. O site está funcionando muito bem. O estagiário sugeriu que eles olhassem para o HuggingFace TGI. Estou tentando fornecer orientação ao estagiário para ver se ele está no caminho certo em relação ao HuggingFace. Acredito que eles estão sugerindo o auto-hospedagem do HuggingFace TGI para reduzir custos. No entanto, quando olho para os custos de GPU de hospedagem, parece caro.
Eu poderia pedir ao estagiário para propor serviços e custos específicos, mas estou tentando ajudar com orientação estratégica. A alternativa é o estagiário continuar testando OpenAI, Anthropic, Gemini.
Existe algum conselho sobre o que eu deveria atribuir ao estagiário?
A ideia básica é implementar o Discourse AI em uma implantação de produção do Discourse e, em seguida, pedir ao cliente (aquele que financia a comunidade) para pagar uma taxa de serviço adicional para manter a IA e promover os novos recursos.
Quanto às tarefas do estagiário, eu também poderia atribuí-lo a olhar para a Hugging Face Inference API. É mais barato do que usar a OpenAI API?
Alguém está usando serviços específicos do Google Cloud, AWS, Azure para hospedar o TGI?
Por exemplo, para AWS, eles deveriam olhar para g4dn.xlarge ou g5.xlarge?
Para GCP, as GPUs T4 são o caminho recomendado?
Algum conselho sobre como eles calculariam os custos?
Para uma única instância, será difícil superar os preços da API, pois com os preços da API você paga por chamada, enquanto ao executar o TGI, você paga por hora que o servidor está em execução.
Digamos que você esteja executando o Llama 3.1 8B em um g6.xlarge; isso custará aproximadamente US$ 600 por mês. Isso poderia lhe dar cerca de 450 milhões de tokens no Anthropic Claude 3.5 Haiku.
Executar seu próprio LLM faz sentido quando você precisa de privacidade ou escala.
Obrigado pela sua resposta. $600/mês para Llama 3.1 8B em g6.xlarge seria um custo razoável, mas como você gentilmente apontou, o custo da API seria mais barato. Assim, provavelmente optaremos pelos custos da API da OpenAI e outras. Quais são as preocupações com a privacidade?
Para fins de experimentação com HuggingFace TGI, existe algo mais barato que $600/mês que poderíamos usar para testes? Por exemplo, o estagiário pode desligar a instância da GPU quando não estiver trabalhando? Estou tentando descobrir o que recomendar a eles. Estou um tanto confuso quanto aos custos dos contêineres com suporte a GPU e não quero colocar o ônus da recomendação de custos sobre o estagiário. Se ele cometer um erro na compra de um contêiner, ele pode se sentir mal.
O que eu gostaria de fazer é comprar os recursos para eles e, em seguida, instruí-los a testar o HuggingFace TGI no recurso que comprei para eles. Eles poderão então relatar quaisquer diferenças de desempenho ou otimização de resultados.