HuggingFace TGI vs coûts de l'API OpenAI

Un stagiaire a déployé notre site Discourse sur DigitalOcean avec OpenAI en utilisant un point de terminaison API connecté au plugin Discourse AI. Le site fonctionne très bien. Le stagiaire a suggéré d’examiner HuggingFace TGI. J’essaie de guider le stagiaire pour voir s’il est sur la bonne voie en ce qui concerne HuggingFace. Je pense qu’il suggère l’auto-hébergement de HuggingFace TGI pour réduire les coûts. Cependant, lorsque je regarde les coûts des GPU pour l’hébergement, cela semble cher.

Je pourrais demander au stagiaire de proposer des services et des coûts spécifiques, mais j’essaie d’aider avec des conseils stratégiques. L’alternative est que le stagiaire continue de tester OpenAI, Anthropic, Gemini.

Y a-t-il des conseils sur ce que je devrais assigner au stagiaire ?
L’idée de base est de mettre en œuvre Discourse AI sur un déploiement de production de Discourse, puis de demander au client (celui qui finance la communauté) de payer des frais de service supplémentaires pour maintenir l’IA et promouvoir les nouvelles fonctionnalités.

En ce qui concerne les tâches du stagiaire, je pourrais également lui demander d’examiner l’API d’inférence Hugging Face. Est-ce moins cher que d’utiliser l’API OpenAI ?

Quelqu’un utilise-t-il des services spécifiques de Google Cloud, AWS, Azure pour héberger le TGI ?

Par exemple, pour AWS, devrait-il examiner g4dn.xlarge ou g5.xlarge ?

Pour GCP, les GPU T4 sont-ils la voie recommandée ?

Des conseils sur la façon de calculer les coûts ?

1 « J'aime »

Pour une instance unique, il sera difficile de battre les prix des API, car avec les prix des API, vous payez par appel, alors que lorsque vous exécutez TGI, vous payez par heure de fonctionnement du serveur.

Disons que vous exécutez Llama 3.1 8B sur un g6.xlarge ; cela vous coûtera environ 600 $ par mois. Cela pourrait vous donner environ 450 millions de jetons dans Anthropic Claude 3.5 Haiku.

L’exécution de votre propre LLM a du sens lorsque vous avez besoin de confidentialité ou d’échelle.

5 « J'aime »

Merci pour votre réponse. 600 $/mois pour Llama 3.1 8B dans g6.xlarge serait un coût raisonnable, mais comme vous l’avez gracieusement souligné, le coût de l’API serait moins cher. Ainsi, nous opterons probablement pour les coûts de l’API OpenAI et autres. Quelles sont les préoccupations en matière de confidentialité ?

Dans le but d’expérimenter avec HuggingFace TGI, existe-t-il une option moins chère que 600 $/mois que nous pourrions utiliser pour les tests ? Par exemple, l’interne peut-il éteindre l’instance GPU lorsqu’il ne travaille pas ? J’essaie de comprendre quoi leur recommander. Je suis quelque peu confus quant aux coûts des conteneurs compatibles GPU et je ne veux pas faire peser le fardeau de la recommandation des coûts sur l’interne. S’il fait une erreur lors de l’achat d’un conteneur, il pourrait mal le prendre.

Ce que j’aimerais faire, c’est leur acheter les ressources, puis leur demander de tester HuggingFace TGI dans la ressource que je leur ai achetée. Ils pourront ensuite faire un retour sur les différences d’optimisation des performances ou des résultats.

2 « J'aime »