Discourse AI - セルフホステッドガイド

サービスが必要になるかもしれませんが、想定しているフォーラムはまだ初期段階であり、検討するにはデータが不足しています。

この技術を試されているので、AIのトレーニングにおいてタグがどのような役割を果たすか教えていただけますか?私は、フォーラムのコーパスをクラスタリングして、トピックを分類・タグ付けするために使用できるラベルを生成するために多大な労力を費やしました。分類は非常にうまくいきましたが、関与する用語の数が膨大であるため、タグの実装は問題があります。それらをすべて提示する実用的な方法はありません。

AIはそれらの用語を使用して、独自のパフォーマンスを向上させることができると思います。

「いいね!」 1

現在、Discourseではモデルのトレーニングは行われていません。現在、どのモジュールでも使用されているすべてのモデルは既にトレーニング済みです。

タグは、タグの提案や関連トピックのような機能のプロンプトにコンテキストを追加するのに役立つかもしれませんが、現時点ではどちらも使用されていません。

「いいね!」 2

@nodomainさん、こんにちは。

Discourse AI は、これまで使用していたものと同じ DB インスタンスに埋め込みを保存するようになりました。これにより、インストールとメンテナンスがはるかに容易になり、更新時に古いデータベースから埋め込みを自動的にインポートします。その後、古いデータベースを廃止することができます。

「いいね!」 1

Ah、これで私のセットアップで現在発生している問題が説明できました。

I, [2023-07-18T09:29:11.218667 #1]  INFO -- : cd /var/www/discourse & su discourse -c 'bundle exec rake db:migrate'
------------------------------DISCOURSE AI ERROR----------------------------------
    Discourse AI requires the pgvector extension on the PostgreSQL database.
         Run a `./launcher rebuild app` to fix it on a standard install.
            Alternatively, you can remove Discourse AI to rebuild.
------------------------------DISCOURSE AI ERROR----------------------------------

私のデータベースはRDS Aurora Serverless v2であり、そのためpgvector拡張機能を使用できません。以前の動作を設定する可能性はありますか?

「いいね!」 1

自己解決策:サーバーレスではないAuroraサービスに移行するという、実現可能な方法が考えられます:What’s New at AWS – Cloud Innovation & News

それでも、私の質問への回答には興味があります。

「いいね!」 2

メインのDiscourse DBでサーバーレスを使用していますか、それとも埋め込み用だけですか? Discourse AIは現在、埋め込みをメインDBに保存しており、そこでpgvector拡張機能を有効にする必要があります。これはRDS PostgreSQL 13.11以降で利用可能です。私たちは本番環境ではAuroraを使用しておらず、RDS PostgreSQLのみを使用しているため、それしかお勧めできません。

「いいね!」 1

私には問題ありません、ありがとう。
そしてはい、メインのDBは現在サーバーレスです。

「いいね!」 1

Amazon RDS PostgreSQL は、Docker ディストリビューションで提供されているバージョンですか?

RDSはAWSのSaaSであり、Dockerイメージにパッケージ化することはできません。

Discourse AIは、Dockerイメージにパッケージ化されたPostgreSQLバージョン、Amazon RDS、または拡張機能がインストールされた任意のPostgreSQLインスタンスのいずれかで動作します。

こんにちは :waving_hand:
Meta のオープンソース「Llama 2」をユーザーへの投稿レコメンデーションに利用できますか?
このようなツールを使った経験がある方はいらっしゃいますか?
ありがとうございます :folded_hands:

「いいね!」 1

「関連記事」のレコメンデーションのことでしょうか?その場合、まだできません。Llama 2 ベースの埋め込みモデルはまだありません。

当社で提供しているもの(オープンソースのものと OpenAI API のもの)は非常に優れており、「関連記事」機能を強化するには十分であることに言及する価値があります。

「いいね!」 5

説明ありがとうございます!

「いいね!」 1

Dockerイメージ用のgitリポジトリはありますか?

「いいね!」 1

現時点では、アプリコードを含むリポジトリと、イメージをビルドして内部リポジトリにプッシュするための内部ツールを含む別のリポジトリの2つの別々のリポジトリを維持する必要があるため、そうではありません。また、これを適切にセットアップする時間を実際に見つけることができませんでした。

APIコードはすべてコンテナイメージ内に表示されていますが、それを調べるのに最適な方法ではありませんが、少なくともすべてそこにあります。

「いいね!」 3

標準的な訪問者がいるフォーラムの正確な最小および推奨サーバー要件を共有していただけますか?正直なところ、試してみたいのですが、明確なサーバー要件がないため、どこから始めればよいかわかりません。

「いいね!」 2

16GBのRAMを搭載したものが最低限のラインになると思います。

通常のユーザーには、標準的なサーバーを使用することになるでしょう。:wink:

「いいね!」 4

私のフォーラムでは、1日あたり200〜250人のオンラインユーザーと平均300件の投稿があります。そのため、多すぎるとは言えず、標準的だと申し上げました。おっしゃることは理解できますが、現在使用しているクラウドサーバーは多くのアップグレードができないため、新しいサーバーをレンタルする予定です。お返事ありがとうございます :slight_smile:

「いいね!」 2

答えるのが非常に難しいです。

例えば、埋め込み(embeddings)で遊びたいだけであれば、CPUで動作する6ドルのDropletで十分であり、これにより「類似トピック」機能にアクセスできます。

次に、AIHelperとAIBotが必要な場合は、以下のいずれかの方法があります。

  • OpenAIで従量課金制を利用する。費用は利用状況によって異なります。

  • プライバシーのために、自分で所有するサーバーでオープンソースLLMを実行する。Llama2-70B-Chatのようなモデルの場合、月額1万〜2万5千ドルのサーバーが必要です。

  • 時間課金制のサービスでオープンソースLLMを実行する。HuggingFaceのエンドポイントでLlama2の量子化バージョンを時給6.50ドルで実行でき、リクエストがない場合15分後に自動的にスリープします。

ML/Ops分野は急速に進歩しており、GPUは非常に不足しており、毎日新しいモデルがリリースされています。予測は困難であり、私たちは皆実験中です。

「いいね!」 5

詳細なご説明ありがとうございます。では、各ステップでプラグインを1つずつ試してみます。状況に応じて詳しく学んでいけると思います :slight_smile:

「いいね!」 2

投稿が新しいトピックに分割されました:DigitalOceanにDiscourse AIを実装する