Perplexity.aiワークスペースに手動でアップロードできるエクスポートまたはバックアップを作成する必要があります。サイト全体のすべての投稿を含めたいです。許可されるファイルタイプは次のとおりです。
.json
.md
.txt
.pdf
.csv
.xlsx
.docx
.pptx
25MB以下のファイルを50個までアップロードできます。
画像を含める必要はありません。
最善の方法は何でしょうか?
(また、必須ではありませんが、可能であれば、エクスポートされたファイルに、LLMが読み取れる形式で、ユーザーがアップロードしたドキュメント(例:.pdfファイル)の内容を含めたいです。)
このようなエクスポートを準備する最善の方法について、何か考えはありますか?
自己ホストしています。
これまでにわかったことは次のとおりです。
Ask.Discourse.com の発言
画像を除外してコンテンツをエクスポートする方法:
- Data Explorer プラグインの使用(利用可能な場合):
- Discourse の Data Explorer プラグイン を使用すると、カスタム SQL クエリを実行して、さまざまな種類のデータを希望の形式(例:
JSON、CSV)で抽出できます。 - クエリ例:すべての投稿とトピックをエクスポートするクエリを実行します。これにより、構造化されたデータが得られます。
- Discourse の Data Explorer プラグイン を使用すると、カスタム SQL クエリを実行して、さまざまな種類のデータを希望の形式(例:
- API 経由の JSON エクスポート:
- Discourse の各トピックまたは投稿は、URL に
.jsonを追加することでプログラムでJSONとしてエクスポートできます。 - 例:
- Discourse の各トピックまたは投稿は、URL に
https://<your-discourse-site>/t/topic-title/<topic-id>.json
* サイト全体のすべてのトピックについて、`topic_id` に基づいてこれらのエクスポートをプログラムでトリガーすることを目指す場合、これにより個別の `.json` ファイルに会話が取得されます。
- 自動コマンドラインオプション(サポートされている場合):
- セルフホストサイトの場合、上級ユーザーは
pg_dumpコマンドまたは同様のデータベースクエリ抽出手順を使用してデータベースに直接アクセスできます。 - ただし、ホストプランではこれらのツールを直接実行することはできません。
- セルフホストサイトの場合、上級ユーザーは
- ユーザーがアップロードしたドキュメント(例:PDF):
- 残念ながら、アップロードされたドキュメントの内容を
.jsonやその他の出力形式(.txtなど)に直接マージすることはネイティブではサポートされていません。ただし、専門ツールを使用してドキュメントを個別にダウンロードしてローカルで解析し、そのテキストを構造化された形式に含めることができます。
- 残念ながら、アップロードされたドキュメントの内容を
ファイルタイプのおすすめ:
アップロードの制約を考慮すると:
- テキスト抽出の場合、構造化された投稿やトピックの詳細を最もよくキャプチャできる
.jsonまたは.csvファイルをエクスポートしてください。
追加のカスタマイズが必要な場合は、お知らせください!
詳細については、Data Explorer プラグインのドキュメント を参照してください。