HuggingFace TGI vs coûts de l'API OpenAI

Pour une instance unique, il sera difficile de battre les prix des API, car avec les prix des API, vous payez par appel, alors que lorsque vous exécutez TGI, vous payez par heure de fonctionnement du serveur.

Disons que vous exécutez Llama 3.1 8B sur un g6.xlarge ; cela vous coûtera environ 600 $ par mois. Cela pourrait vous donner environ 450 millions de jetons dans Anthropic Claude 3.5 Haiku.

L’exécution de votre propre LLM a du sens lorsque vous avez besoin de confidentialité ou d’échelle.

5 « J'aime »