ベクトルデータベースとは何か疑問に思っている方のために
注:これは商用ベクトルデータベースベンダーからのものですが、私が知る限り最高の入門であり、OpenAIが使用しているものと同じベクトルデータベースです。
トランスフォーマーモデルにおけるベクトルとは何かを理解するには、この技術的なYouTube動画をご覧ください。
ベクトルデータベースとは何か疑問に思っている方のために
注:これは商用ベクトルデータベースベンダーからのものですが、私が知る限り最高の入門であり、OpenAIが使用しているものと同じベクトルデータベースです。
トランスフォーマーモデルにおけるベクトルとは何かを理解するには、この技術的なYouTube動画をご覧ください。
Discourse AIでは GitHub - pgvector/pgvector: Open-source vector similarity search for Postgres を使用していますが、長期的には weaviate / elastic / milvus のような他のアイデアも検討しています。
Pinecone は Discourse のユーザーです
https://community.pinecone.io/
はい、@sam さん、おっしゃる通り、私たちは喜んでDiscourseのお客様であり、まさにあなたが言及されたユースケースでGPT-4と組み合わせて最もよく使われるものの一つです。ロゴと引用はホームページをご覧ください。POC(概念実証)でお手伝いできますか?
もちろんです。@Falco をご紹介しますので、ご相談ください。
discourse-ai に pinecone アダプターも同梱されると素晴らしいと思います。これにより、当社のプラットフォームのセルフホスティング者の手間が大幅に軽減されます。
トレーニング費用について調査されたようですが、OpenAIのファインチューニングガイドに基づいた私の理解を共有したいと思います。https://platform.openai.com/docs/guides/fine-tuning を正しく理解しているのであれば、分類タスクにはAdaを推奨し、各クラスの例を100個提供することを推奨しています。その場合、合計で200個の例(スパムとスパム以外)があることになります。平均的な例が500トークンで構成されていると仮定すると、Adaでのトレーニングの合計は500 * 200 = 100,000トークンとなり、トレーニング費用は0.04米ドルになります。Davinciを使用した場合、費用は3.00米ドルになります。
価格設定は、単一のステップまたは単一のエポックのトレーニング用かもしれませんが、ウェブサイトではそれ以上の詳細な情報を見つけることができませんでした。何か洞察があれば、または私が何か誤解していることがあれば、お知らせください。
前述したように、それらのコストは私のビジネスにおける私のユースケースのためのものでした。私のトレーニングと使用はAdaではなくDavinciなので、そこでは75倍高価になります。また、リクエストあたりのトークンもほぼ最大化しています。
Sam/Falcoが彼らのユースケースで何を考えているのか正確にはわかりません。ただ、一般的にファインチューニングは大規模になると高価になる可能性があることを言っておきます。