コミュニティデータでAIボットをトレーニングできますか

もし私が望むなら、ボットを私のコミュニティデータでトレーニングすることは可能ですか?

「いいね!」 1

そのためには、まずコミュニティメンバー全員の執筆がその目的で使用されることへの許可が必要になります。そうでなければ、Microsoft のように、許可なくまさにそれを行ったことで訴えられている企業があるため、法的リスクを負うことになります。

「いいね!」 1

一般的に、フォーラムの所有者はユーザーコンテンツに対して非常に自由なライセンスを確保しようとします。私は法律家ではありませんが、これは「インターネット上の情報をクロールしてトレーニングする」とは全く異なる領域です。

いずれにせよ、ここに重大な課題がいくつかあります。

  1. ファインチューニングは、OpenAIのエコシステム内では3.5モデルでのみ利用可能です。
  2. ファインチューニングを行うと、モデルの呼び出しあたりのコストが大幅に増加します。
  3. 実際の価値を実現するためのファインチューニングは非常に困難であり、膨大なキュレーション作業が必要になります。私の直感では、RAG[1]のパフォーマンスには遠く及ばないでしょう。

したがって、可能ではありますが、推奨されません。


  1. (GPT-4) この文脈における「RAG」は Retrieval Augmented Generation の略です。これは、機械学習、特にチャットボットのようなAIモデルのトレーニングでよく使用されるテクニックです。
    RAGは、検索ベースモデルと生成モデルの両方の利点を組み合わせています。つまり、既存の応答のデータベース(検索)を使用し、それをゼロから新しい応答を生成する能力で強化します。この組み合わせにより、システムはライブラリから正確な事実を取得し、それを新しく一貫性のある文章で表現できるため、通常はパフォーマンスが向上します。
    会話の中で、ユーザーは、特定のコミュニティデータにAIモデルをファインチューニングしても、Retrieval Augmented Generationモデルを使用した場合と同じレベルのパフォーマンスを達成できない可能性があることを示唆しており、RAGモデルの方が効率的で、より高品質な応答が得られることを示唆しています。 ↩︎

「いいね!」 8

ファインチューニングは、モデルに新しいコンテンツを追加する効果的な方法ではありません。モデルが出力する形式を変更したり、特定のタスク(例:分類、コンテンツ抽出)でのパフォーマンスを向上させたりするのには役立ちますが、コンテンツを追加することはできません。

最も良い考え方は、新しいトリックを教えることはできるが、新しい事実を教えることはできないということです。幻覚を減らしたり、新しいコンテンツを導入したりしたい場合は、RAG(Retrieval-Augmented Generation)を使用するのが最善の方法です。

「いいね!」 1

誰も質問に答えていません。コミュニティデータを使用する権利があると仮定した場合、どのようにしてAIボットをトレーニングしますか?

「トレーニング」とはどういう意味ですか?

特定のモデル(gpt 3.5 または llama)をファインチューニングしてから、カスタムモデルをホストすることですか?

それとも、ボットがフォーラムのコンテンツを認識するようにしたいということですか?

認識だけでよければ、これはすでに提供されています。

ファインチューニングされたモデルが必要な場合は、AIチームを雇う必要があります。

「いいね!」 3
「いいね!」 3

応答のどの部分が\n* ハルシネーションの例であったか\n* AI/モデル依存であったか(自己ホスト型は非常に高価であり、単に高価なOpenAIモデルとは大きく異なる)

AI ボットに、フォーラム全体に加えて、RAG のために特定のデータ ソースを使用するように指示できますか? フラットなデータベース (CSV にすることもできます) があり、多くの AI ボットの質問の良い出発点となり、必要に応じてフォーラムの残りの部分を RAG できます。ただし、CSV をフォーラムに投稿したくありません。

「いいね!」 1

CSVデータを、一般ユーザーには見えないAIが見ることができる場所に配置してみてはどうでしょうか。(これは不可能か、ひどいアイデアかもしれませんが、うまくいくかもしれません)。

はい、ファイルをペルソナに直接アップロードできます。

「いいね!」 3

完璧に聞こえますが、ペルソナにファイルをアップロードする方法がわかりません。それとも、ペルソナのシステムプロンプトにファイルのリンクを貼るべきでしょうか?

Admin > Plugins > AI > Personas > New Persona に移動すると、一番下にアップロードがあります。

また、CSVのデータ量によっては、システムプロンプトに直接貼り付けることもできます。

「いいね!」 2

そのオプションがありません。3.4.0.beta3-dev。

現在最新バージョンを使用していますが、そのオプションも表示されません。

埋め込みは設定されていますか?

「いいね!」 2

2件の投稿が新しいトピックに分割されました: Gemini Embeddings are not working