Per chi si stesse chiedendo cos’è un database vettoriale
Nota: Questo proviene da un fornitore commerciale di database vettoriali, ma è ancora la migliore introduzione che conosco ed è lo stesso database vettoriale utilizzato da OpenAI.
Per capire cosa significa vettore per un modello transformer, guarda questo video tecnico di YouTube
Ehi @sam sì, siamo decisamente clienti felici di Discourse, e una delle combinazioni più comuni con GPT-4 per l’esatto caso d’uso che hai menzionato — vedi i loghi + citazioni sulla nostra homepage. Possiamo aiutarti con un POC?
Assolutamente, ti metterò in contatto con @Falco e potrai discuterne.
Penso che sarebbe delizioso che discourse-ai includesse anche un adattatore pinecone, riduce un’enorme quantità di attrito per gli auto-ospitanti della nostra piattaforma.
Sembra che tu abbia fatto ricerche sui costi di formazione, ma volevo condividere la mia comprensione basata sulla guida al fine-tuning di OpenAI. Se ho capito bene https://platform.openai.com/docs/guides/fine-tuning, raccomandano di usare Ada per i compiti di classificazione e di fornire 100 esempi per ogni classe. In tal caso, avremmo un totale di 200 esempi (spam e non spam). Supponendo che un esempio medio sia composto da 500 token, il totale sarebbe 500 * 200 = 100.000 token su Ada, che costerebbe $0,04 per la formazione. Se invece si usasse Davinci, il costo sarebbe di $3,00.
Immagino che il prezzo possa essere per un singolo passaggio o per una singola epoca di formazione, ma non ho trovato informazioni più dettagliate sul loro sito web. Per favore, fammi sapere se hai qualche intuizione o se ho frainteso qualcosa.
Come ho detto, quei costi erano per il mio caso d’uso per la mia attività. Il mio training e utilizzo è Davinci, non Ada, quindi 75 volte più costoso lì. Inoltre, utilizziamo quasi al massimo i token per richiesta.
Non so esattamente cosa Sam/Falco avrebbero in mente per il loro caso d’uso, sto solo menzionando in generale che il fine-tuning può essere costoso su larga scala!