HuggingFace TGI vs Costi degli Endpoint API di OpenAI

Per una singola istanza, sarà difficile battere i prezzi delle API, poiché con i prezzi delle API paghi per chiamata, mentre quando esegui TGI, paghi all’ora per il server in esecuzione.

Supponiamo che tu stia eseguendo Llama 3.1 8B su un g6.xlarge; ciò ti costerà circa $600 al mese. Questo potrebbe darti circa 450 milioni di token in Anthropic Claude 3.5 Haiku.

Eseguire il proprio LLM ha senso quando hai bisogno di privacy o scalabilità.

5 Mi Piace