Discourse AIの紹介

ベクトルデータベースとは何か疑問に思っている方のために

注:これは商用ベクトルデータベースベンダーからのものですが、私が知る限り最高の入門であり、OpenAIが使用しているものと同じベクトルデータベースです。

トランスフォーマーモデルにおけるベクトルとは何かを理解するには、この技術的なYouTube動画をご覧ください。

「いいね!」 4

Discourse AIでは GitHub - pgvector/pgvector: Open-source vector similarity search for Postgres を使用していますが、長期的には weaviate / elastic / milvus のような他のアイデアも検討しています。

Pinecone は Discourse のユーザーです :hugs: https://community.pinecone.io/

「いいね!」 11

はい、@sam さん、おっしゃる通り、私たちは喜んでDiscourseのお客様であり、まさにあなたが言及されたユースケースでGPT-4と組み合わせて最もよく使われるものの一つです。ロゴと引用はホームページをご覧ください。POC(概念実証)でお手伝いできますか?

「いいね!」 8

もちろんです。@Falco をご紹介しますので、ご相談ください。

discourse-ai に pinecone アダプターも同梱されると素晴らしいと思います。これにより、当社のプラットフォームのセルフホスティング者の手間が大幅に軽減されます。

「いいね!」 7

トレーニング費用について調査されたようですが、OpenAIのファインチューニングガイドに基づいた私の理解を共有したいと思います。https://platform.openai.com/docs/guides/fine-tuning を正しく理解しているのであれば、分類タスクにはAdaを推奨し、各クラスの例を100個提供することを推奨しています。その場合、合計で200個の例(スパムとスパム以外)があることになります。平均的な例が500トークンで構成されていると仮定すると、Adaでのトレーニングの合計は500 * 200 = 100,000トークンとなり、トレーニング費用は0.04米ドルになります。Davinciを使用した場合、費用は3.00米ドルになります。

価格設定は、単一のステップまたは単一のエポックのトレーニング用かもしれませんが、ウェブサイトではそれ以上の詳細な情報を見つけることができませんでした。何か洞察があれば、または私が何か誤解していることがあれば、お知らせください。

「いいね!」 2

前述したように、それらのコストは私のビジネスにおける私のユースケースのためのものでした。私のトレーニングと使用はAdaではなくDavinciなので、そこでは75倍高価になります。また、リクエストあたりのトークンもほぼ最大化しています。

Sam/Falcoが彼らのユースケースで何を考えているのか正確にはわかりません。ただ、一般的にファインチューニングは大規模になると高価になる可能性があることを言っておきます。

「いいね!」 2

リリースおめでとうございます、@sam@Falco

Weaviate の評価で Discourse をサポートできることを嬉しく思います!:clap:

「いいね!」 7