Costos de HuggingFace TGI vs OpenAI API Endpoint

Para una instancia única, será difícil superar los precios de la API, ya que con los precios de la API pagas por llamada, mientras que al ejecutar TGI, pagas por hora que el servidor está en funcionamiento.

Digamos que estás ejecutando Llama 3.1 8B en un g6.xlarge; eso te costará aproximadamente $600 al mes. Esto podría darte alrededor de 450 millones de tokens en Anthropic Claude 3.5 Haiku.

Ejecutar tu propio LLM tiene sentido cuando necesitas privacidad o escala.

5 Me gusta