Un becario implementó nuestro sitio de Discourse en DigitalOcean con OpenAI utilizando un punto final de API conectado al complemento Discourse AI. El sitio funciona muy bien. El becario sugirió que miraran HuggingFace TGI. Estoy tratando de guiar al becario para ver si está en el camino correcto con respecto a HuggingFace. Creo que están sugiriendo HuggingFace TGI autohospedado para reducir costos. Sin embargo, cuando miro los costos de GPU del alojamiento, parece caro.
Podría pedirle al becario que proponga servicios y costos específicos, pero estoy tratando de ayudar con orientación estratégica. La alternativa es que el becario continúe probando OpenAI, Anthropic, Gemini.
¿Hay algún consejo sobre qué debería asignar al becario?
La idea básica es implementar Discourse AI en una implementación de producción de Discourse y luego pedirle al cliente (el que financia la comunidad) que pague una tarifa de servicio adicional para mantener la IA y promocionar las nuevas funciones.
En cuanto a las asignaciones para becarios, también podría asignarles que miren la API de Inferencia de Hugging Face. ¿Es más barata que usar la API de OpenAI?
¿Alguien está utilizando servicios específicos de Google Cloud, AWS, Azure para alojar TGI?
Por ejemplo, para AWS, ¿deberían mirar g4dn.xlarge o g5.xlarge?
Para una instancia única, será difícil superar los precios de la API, ya que con los precios de la API pagas por llamada, mientras que al ejecutar TGI, pagas por hora que el servidor está en funcionamiento.
Digamos que estás ejecutando Llama 3.1 8B en un g6.xlarge; eso te costará aproximadamente $600 al mes. Esto podría darte alrededor de 450 millones de tokens en Anthropic Claude 3.5 Haiku.
Ejecutar tu propio LLM tiene sentido cuando necesitas privacidad o escala.
Gracias por tu respuesta. $600/mes para Llama 3.1 8B en g6.xlarge sería un costo razonable, pero como amablemente señalaste, el costo de la API sería más barato. Por lo tanto, probablemente optaremos por los costos de la API de OpenAI y otras. ¿Cuáles son las preocupaciones de privacidad?
Para fines de experimentación con HuggingFace TGI, ¿hay algo más barato que $600/mes que podamos usar para pruebas? Por ejemplo, ¿puede el becario apagar la instancia de la GPU cuando no está trabajando? Estoy tratando de averiguar qué recomendarle. Estoy algo confundido en cuanto a los costos de los contenedores con GPU y no quiero poner la carga de la recomendación de costos sobre el becario. Si comete un error al comprar un contenedor, podría sentirse mal.
Lo que me gustaría hacer es comprarle los recursos y luego instruirle para que pruebe HuggingFace TGI en el recurso que le compré. Luego podrá informar sobre cualquier diferencia en el rendimiento o la optimización de los resultados.