Presentazione di Discourse AI

Per chi si stesse chiedendo cos’è un database vettoriale

Nota: Questo proviene da un fornitore commerciale di database vettoriali, ma è ancora la migliore introduzione che conosco ed è lo stesso database vettoriale utilizzato da OpenAI.
Per capire cosa significa vettore per un modello transformer, guarda questo video tecnico di YouTube

4 Mi Piace

Usiamo GitHub - pgvector/pgvector: Open-source vector similarity search for Postgres in discourse-ai, ma a lungo termine stiamo valutando altre idee come weaviate / elastic / milvus

Pinecone è un utente di Discourse :hugs: https://community.pinecone.io/

11 Mi Piace

Ehi @sam sì, siamo decisamente clienti felici di Discourse, e una delle combinazioni più comuni con GPT-4 per l’esatto caso d’uso che hai menzionato — vedi i loghi + citazioni sulla nostra homepage. Possiamo aiutarti con un POC?

8 Mi Piace

Assolutamente, ti metterò in contatto con @Falco e potrai discuterne.

Penso che sarebbe delizioso che discourse-ai includesse anche un adattatore pinecone, riduce un’enorme quantità di attrito per gli auto-ospitanti della nostra piattaforma.

7 Mi Piace

Sembra che tu abbia fatto ricerche sui costi di formazione, ma volevo condividere la mia comprensione basata sulla guida al fine-tuning di OpenAI. Se ho capito bene https://platform.openai.com/docs/guides/fine-tuning, raccomandano di usare Ada per i compiti di classificazione e di fornire 100 esempi per ogni classe. In tal caso, avremmo un totale di 200 esempi (spam e non spam). Supponendo che un esempio medio sia composto da 500 token, il totale sarebbe 500 * 200 = 100.000 token su Ada, che costerebbe $0,04 per la formazione. Se invece si usasse Davinci, il costo sarebbe di $3,00.

Immagino che il prezzo possa essere per un singolo passaggio o per una singola epoca di formazione, ma non ho trovato informazioni più dettagliate sul loro sito web. Per favore, fammi sapere se hai qualche intuizione o se ho frainteso qualcosa.

2 Mi Piace

Come ho detto, quei costi erano per il mio caso d’uso per la mia attività. Il mio training e utilizzo è Davinci, non Ada, quindi 75 volte più costoso lì. Inoltre, utilizziamo quasi al massimo i token per richiesta.

Non so esattamente cosa Sam/Falco avrebbero in mente per il loro caso d’uso, sto solo menzionando in generale che il fine-tuning può essere costoso su larga scala!

2 Mi Piace

Congratulazioni per il rilascio @sam e @Falco!

Sarei felice di supportare Discourse con la valutazione di Weaviate! :clap:

7 Mi Piace