HuggingFace TGI vs Costi degli Endpoint API di OpenAI

oppman · 14 Gennaio 2025, 5:24pm

Un stagista ha distribuito il nostro sito Discourse su DigitalOcean con OpenAI utilizzando un endpoint API collegato al plugin Discourse AI. Il sito funziona benissimo. Lo stagista ha suggerito di esaminare HuggingFace TGI. Sto cercando di fornire una guida allo stagista per vedere se è sulla strada giusta per quanto riguarda HuggingFace. Credo che stiano suggerendo HuggingFace TGI self-hosted per ridurre i costi. Tuttavia, quando guardo i costi delle GPU per l’hosting, sembrano costosi.

Potrei chiedere allo stagista di proporre servizi e costi specifici, ma sto cercando di aiutare con una guida strategica. L’alternativa è che lo stagista continui a testare OpenAI, Anthropic, Gemini.

Ci sono consigli su cosa dovrei assegnare allo stagista?
L’idea di base è implementare Discourse AI su una distribuzione di produzione di Discourse e quindi chiedere al cliente (quello che finanzia la community) di pagare una commissione di servizio aggiuntiva per mantenere l’AI e promuovere le nuove funzionalità.

Per quanto riguarda le assegnazioni degli stagisti, potrei anche incaricarli di esaminare l’Hugging Face Inference API. È più economico dell’utilizzo dell’API OpenAI?

Qualcuno sta utilizzando servizi specifici da Google Cloud, AWS, Azure per ospitare il TGI?

Ad esempio, per AWS, dovrebbero esaminare g4dn.xlarge o g5.xlarge?

Per GCP, le GPU T4 sono il percorso consigliato?

Qualche consiglio su come calcolerebbero i costi?

Falco · 15 Gennaio 2025, 3:24pm

Per una singola istanza, sarà difficile battere i prezzi delle API, poiché con i prezzi delle API paghi per chiamata, mentre quando esegui TGI, paghi all’ora per il server in esecuzione.

Supponiamo che tu stia eseguendo Llama 3.1 8B su un g6.xlarge; ciò ti costerà circa $600 al mese. Questo potrebbe darti circa 450 milioni di token in Anthropic Claude 3.5 Haiku.

Eseguire il proprio LLM ha senso quando hai bisogno di privacy o scalabilità.

oppman · 15 Gennaio 2025, 4:29pm

Grazie per la tua risposta. $600/mese per Llama 3.1 8B in g6.xlarge sarebbe un costo ragionevole, ma come hai gentilmente sottolineato, il costo dell’API sarebbe inferiore. Pertanto, probabilmente opteremo per i costi dell’API di OpenAI e altri. Quali sono le preoccupazioni relative alla privacy?

Ai fini della sperimentazione con HuggingFace TGI, esiste qualcosa di più economico di $600/mese che potremmo utilizzare per i test? Ad esempio, l’intern può spegnere l’istanza GPU quando non sta lavorando? Sto cercando di capire cosa raccomandare loro. Sono un po’ confuso riguardo ai costi per i container abilitati per GPU e non voglio addossare all’intern l’onere della raccomandazione dei costi. Se commette un errore nell’acquisto di un container, potrebbe sentirsi a disagio.

Quello che vorrei fare è comprare loro le risorse, quindi istruirli a testare HuggingFace TGI nelle risorse che ho acquistato per loro. Potranno quindi riferire su eventuali differenze di prestazioni o ottimizzazione dei risultati.

Argomento		Risposte	Visualizzazioni
What Discourse AI features are FREE to use? Support ai	14	345	Settembre 29, 2024
OpenAI releases GPT-4o for free to all users, including devs? Support ai	3	373	Maggio 16, 2024
Discourse AI - Self-Hosted Guide Self-Hosting ai	61	12445	Aprile 30, 2025
How much do you spend on OpenAI integration? General	8	963	Gennaio 15, 2024
Estimating cost of enabling Discourse AI for related content and search Support ai	3	51	Ottobre 28, 2025

HuggingFace TGI vs Costi degli Endpoint API di OpenAI

Argomenti correlati