外部LLMへの手動アップロード用に全フォーラム投稿をエクスポート?

Perplexity.aiワークスペースに手動でアップロードできるエクスポートまたはバックアップを作成する必要があります。サイト全体のすべての投稿を含めたいです。許可されるファイルタイプは次のとおりです。

.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx

25MB以下のファイルを50個までアップロードできます。

画像を含める必要はありません。

最善の方法は何でしょうか?

(また、必須ではありませんが、可能であれば、エクスポートされたファイルに、LLMが読み取れる形式で、ユーザーがアップロードしたドキュメント(例:.pdfファイル)の内容を含めたいです。)

このようなエクスポートを準備する最善の方法について、何か考えはありますか?

自己ホストしています。

これまでにわかったことは次のとおりです。

Ask.Discourse.com の発言

画像を除外してコンテンツをエクスポートする方法:

  1. Data Explorer プラグインの使用(利用可能な場合):
    • Discourse の Data Explorer プラグイン を使用すると、カスタム SQL クエリを実行して、さまざまな種類のデータを希望の形式(例:JSONCSV)で抽出できます。
    • クエリ例:すべての投稿とトピックをエクスポートするクエリを実行します。これにより、構造化されたデータが得られます。
  2. API 経由の JSON エクスポート:
    • Discourse の各トピックまたは投稿は、URL に .json を追加することでプログラムで JSON としてエクスポートできます。
    • 例:
https://<your-discourse-site>/t/topic-title/<topic-id>.json
*   サイト全体のすべてのトピックについて、`topic_id` に基づいてこれらのエクスポートをプログラムでトリガーすることを目指す場合、これにより個別の `.json` ファイルに会話が取得されます。
  1. 自動コマンドラインオプション(サポートされている場合):
    • セルフホストサイトの場合、上級ユーザーは pg_dump コマンドまたは同様のデータベースクエリ抽出手順を使用してデータベースに直接アクセスできます。
    • ただし、ホストプランではこれらのツールを直接実行することはできません。
  2. ユーザーがアップロードしたドキュメント(例:PDF):
    • 残念ながら、アップロードされたドキュメントの内容を .json やその他の出力形式(.txt など)に直接マージすることはネイティブではサポートされていません。ただし、専門ツールを使用してドキュメントを個別にダウンロードしてローカルで解析し、そのテキストを構造化された形式に含めることができます。

ファイルタイプのおすすめ:

アップロードの制約を考慮すると:

  • テキスト抽出の場合、構造化された投稿やトピックの詳細を最もよくキャプチャできる .json または .csv ファイルをエクスポートしてください。

追加のカスタマイズが必要な場合は、お知らせください!

詳細については、Data Explorer プラグインのドキュメント を参照してください。

「いいね!」 1

データエクスプローラーがここでは適切なアプローチです。

こちらが推奨するアプローチです。

「いいね!」 4