Vorstellung von Discourse AI

Für diejenigen, die sich fragen, was eine Vektordatenbank ist

Hinweis: Dies stammt von einem kommerziellen Anbieter von Vektordatenbanken, ist aber immer noch die beste Einführung, die ich kenne, und es ist dieselbe Vektordatenbank, die von OpenAI verwendet wird.

Um zu verstehen, was ein Vektor in Bezug auf ein Transformermodell bedeutet, sehen Sie sich dieses technische YouTube-Video an

4 „Gefällt mir“

Wir verwenden GitHub - pgvector/pgvector: Open-source vector similarity search for Postgres in discourse-ai, spielen aber längerfristig mit anderen Ideen wie weaviate / elastic / milvus.

Pinecone sind ein Discourse-Benutzer :hugs: https://community.pinecone.io/

11 „Gefällt mir“

Hallo @sam, ja, wir sind tatsächlich zufriedene Discourse-Kunden, und eine der häufigsten Kombinationen mit GPT-4 für genau den von Ihnen genannten Anwendungsfall – siehe die Logos + Zitate auf unserer Homepage. Können wir Ihnen bei einem Proof of Concept (POC) helfen?

8 „Gefällt mir“

Absolut, ich werde Sie mit @Falco verbinden und Sie können sich dann besprechen.

Ich denke, es wäre wunderbar, wenn discourse-ai auch mit einem Pinecone-Adapter ausgeliefert würde, da dies die Reibung für Self-Hoster unserer Plattform enorm reduziert.

7 „Gefällt mir“

Es scheint, als hätten Sie Ihre Hausaufgaben bezüglich der Trainingskosten gemacht, aber ich wollte Ihnen mein Verständnis basierend auf dem OpenAI Fine-Tuning Guide mitteilen. Wenn ich https://platform.openai.com/docs/guides/fine-tuning richtig verstehe, empfehlen sie die Verwendung von Ada für Klassifizierungsaufgaben und die Bereitstellung von 100 Beispielen für jede Klasse. In diesem Fall hätten wir insgesamt 200 Beispiele (Spam und kein Spam). Unter der Annahme, dass ein durchschnittliches Beispiel aus 500 Tokens besteht, wären das insgesamt 500 * 200 = 100.000 Tokens auf Ada, was 0,04 US-Dollar für das Training kosten würde. Wenn Sie stattdessen Davinci verwenden würden, wären die Kosten 3,00 US-Dollar.

Ich vermute, dass die Preise für einen einzelnen Schritt oder eine einzelne Epoche des Trainings gelten, aber ich konnte auf deren Website keine detaillierteren Informationen finden. Bitte lassen Sie mich wissen, wenn Sie Einblicke haben oder wenn ich etwas missverstanden habe.

2 „Gefällt mir“

Wie ich bereits erwähnt habe, galten diese Kosten für meinen Anwendungsfall für mein Unternehmen. Mein Training und meine Nutzung sind Davinci, nicht Ada, also 75x teurer. Wir schöpfen auch praktisch die Token pro Anfrage aus.

Ich weiß nicht genau, was Sam/Falco für ihren Anwendungsfall im Sinn hätten – ich erwähne nur allgemein, dass Fine-Tuning im großen Maßstab teuer sein kann!

2 „Gefällt mir“

Glückwunsch zur Veröffentlichung @sam & @Falco!

Ich würde mich freuen, Discourse bei der Bewertung von Weaviate zu unterstützen! :clap:

7 „Gefällt mir“