Costos de HuggingFace TGI vs OpenAI API Endpoint

oppman · 14 Enero, 2025 17:24

Un becario implementó nuestro sitio de Discourse en DigitalOcean con OpenAI utilizando un punto final de API conectado al complemento Discourse AI. El sitio funciona muy bien. El becario sugirió que miraran HuggingFace TGI. Estoy tratando de guiar al becario para ver si está en el camino correcto con respecto a HuggingFace. Creo que están sugiriendo HuggingFace TGI autohospedado para reducir costos. Sin embargo, cuando miro los costos de GPU del alojamiento, parece caro.

Podría pedirle al becario que proponga servicios y costos específicos, pero estoy tratando de ayudar con orientación estratégica. La alternativa es que el becario continúe probando OpenAI, Anthropic, Gemini.

¿Hay algún consejo sobre qué debería asignar al becario?
La idea básica es implementar Discourse AI en una implementación de producción de Discourse y luego pedirle al cliente (el que financia la comunidad) que pague una tarifa de servicio adicional para mantener la IA y promocionar las nuevas funciones.

En cuanto a las asignaciones para becarios, también podría asignarles que miren la API de Inferencia de Hugging Face. ¿Es más barata que usar la API de OpenAI?

¿Alguien está utilizando servicios específicos de Google Cloud, AWS, Azure para alojar TGI?

Por ejemplo, para AWS, ¿deberían mirar g4dn.xlarge o g5.xlarge?

Para GCP, ¿las GPU T4 son el camino recomendado?

¿Algún consejo sobre cómo calcularían los costos?

Falco · 15 Enero, 2025 15:24

Para una instancia única, será difícil superar los precios de la API, ya que con los precios de la API pagas por llamada, mientras que al ejecutar TGI, pagas por hora que el servidor está en funcionamiento.

Digamos que estás ejecutando Llama 3.1 8B en un g6.xlarge; eso te costará aproximadamente $600 al mes. Esto podría darte alrededor de 450 millones de tokens en Anthropic Claude 3.5 Haiku.

Ejecutar tu propio LLM tiene sentido cuando necesitas privacidad o escala.

oppman · 15 Enero, 2025 16:29

Gracias por tu respuesta. $600/mes para Llama 3.1 8B en g6.xlarge sería un costo razonable, pero como amablemente señalaste, el costo de la API sería más barato. Por lo tanto, probablemente optaremos por los costos de la API de OpenAI y otras. ¿Cuáles son las preocupaciones de privacidad?

Para fines de experimentación con HuggingFace TGI, ¿hay algo más barato que $600/mes que podamos usar para pruebas? Por ejemplo, ¿puede el becario apagar la instancia de la GPU cuando no está trabajando? Estoy tratando de averiguar qué recomendarle. Estoy algo confundido en cuanto a los costos de los contenedores con GPU y no quiero poner la carga de la recomendación de costos sobre el becario. Si comete un error al comprar un contenedor, podría sentirse mal.

Lo que me gustaría hacer es comprarle los recursos y luego instruirle para que pruebe HuggingFace TGI en el recurso que le compré. Luego podrá informar sobre cualquier diferencia en el rendimiento o la optimización de los resultados.

Tema		Respuestas	Vistas
What Discourse AI features are FREE to use? Support ai	14	345	29 Septiembre 2024
OpenAI releases GPT-4o for free to all users, including devs? Support ai	3	373	16 Mayo 2024
Discourse AI - Self-Hosted Guide Self-Hosting ai	61	12445	30 Abril 2025
How much do you spend on OpenAI integration? General	8	963	15 Enero 2024
Estimating cost of enabling Discourse AI for related content and search Support ai	3	51	28 Octubre 2025

Costos de HuggingFace TGI vs OpenAI API Endpoint

Temas relacionados