Un stagista ha distribuito il nostro sito Discourse su DigitalOcean con OpenAI utilizzando un endpoint API collegato al plugin Discourse AI. Il sito funziona benissimo. Lo stagista ha suggerito di esaminare HuggingFace TGI. Sto cercando di fornire una guida allo stagista per vedere se è sulla strada giusta per quanto riguarda HuggingFace. Credo che stiano suggerendo HuggingFace TGI self-hosted per ridurre i costi. Tuttavia, quando guardo i costi delle GPU per l’hosting, sembrano costosi.
Potrei chiedere allo stagista di proporre servizi e costi specifici, ma sto cercando di aiutare con una guida strategica. L’alternativa è che lo stagista continui a testare OpenAI, Anthropic, Gemini.
Ci sono consigli su cosa dovrei assegnare allo stagista?
L’idea di base è implementare Discourse AI su una distribuzione di produzione di Discourse e quindi chiedere al cliente (quello che finanzia la community) di pagare una commissione di servizio aggiuntiva per mantenere l’AI e promuovere le nuove funzionalità.
Per quanto riguarda le assegnazioni degli stagisti, potrei anche incaricarli di esaminare l’Hugging Face Inference API. È più economico dell’utilizzo dell’API OpenAI?
Qualcuno sta utilizzando servizi specifici da Google Cloud, AWS, Azure per ospitare il TGI?
Ad esempio, per AWS, dovrebbero esaminare g4dn.xlarge o g5.xlarge?
Per una singola istanza, sarà difficile battere i prezzi delle API, poiché con i prezzi delle API paghi per chiamata, mentre quando esegui TGI, paghi all’ora per il server in esecuzione.
Supponiamo che tu stia eseguendo Llama 3.1 8B su un g6.xlarge; ciò ti costerà circa $600 al mese. Questo potrebbe darti circa 450 milioni di token in Anthropic Claude 3.5 Haiku.
Eseguire il proprio LLM ha senso quando hai bisogno di privacy o scalabilità.
Grazie per la tua risposta. $600/mese per Llama 3.1 8B in g6.xlarge sarebbe un costo ragionevole, ma come hai gentilmente sottolineato, il costo dell’API sarebbe inferiore. Pertanto, probabilmente opteremo per i costi dell’API di OpenAI e altri. Quali sono le preoccupazioni relative alla privacy?
Ai fini della sperimentazione con HuggingFace TGI, esiste qualcosa di più economico di $600/mese che potremmo utilizzare per i test? Ad esempio, l’intern può spegnere l’istanza GPU quando non sta lavorando? Sto cercando di capire cosa raccomandare loro. Sono un po’ confuso riguardo ai costi per i container abilitati per GPU e non voglio addossare all’intern l’onere della raccomandazione dei costi. Se commette un errore nell’acquisto di un container, potrebbe sentirsi a disagio.
Quello che vorrei fare è comprare loro le risorse, quindi istruirli a testare HuggingFace TGI nelle risorse che ho acquistato per loro. Potranno quindi riferire su eventuali differenze di prestazioni o ottimizzazione dei risultati.