RAGは将来PDFファイルに対応しますか?

まず、あなたのAIは素晴らしいです!

次に、PDF、Word、PowerPointファイルをフォーラムに投稿した場合、それらも読み込んでRAG用のベクトルにチャンク化してくれるのでしょうか?

「いいね!」 2

残念ながら、まだPDFのサポートはありません。検討中の機能です。PersonaおよびTool RAGの実装ではTXTファイルをサポートしています。そのため、ソース資料をテキストファイルに変換できれば、Personaで利用できます。

「いいね!」 3

はい、それが私たちがやったことです。添付ファイルをテキストに変換し、それらを各トピックに関連付けました。

「いいね!」 1

このフィードバックは数回寄せられており、AIボットのペルソナとTool RAGの実装を通じて、将来的に拡張機能のサポートを拡大することを検討しています。

「いいね!」 4

とりあえずの回避策として、PowerPoint、Word、またはPDFファイルをテキストに変換し、それが属するトピックに添付しています。

「いいね!」 1

PDFのサポートは、多くのコミュニティにとってまさにゲームチェンジャーとなるでしょう!文書の普遍的な標準であるため、RAGのために.txtに再フォーマットしなければならないことがよくありますが、これは確かに時間のかかる作業です😵‍💫

「いいね!」 6

現在、Embeddingsに関する作業を完了させており、それが完了次第、次にPDFサポートを追加する予定です。

「いいね!」 5

すごい、それはとても良いですね。コミュニティのニーズを常に考慮してくれるチームに拍手です!

JSONファイルについてはどうでしょうか?AI内でクエリを実行する必要があるDiscordチャットのエクスポートがたくさんあり、この情報を失いたくありません :slight_smile:

モデルのファインチューニングを考えていましたが、ファイルをDiscourseに追加する方が、同様のユースケースを持つすべての人にとって、より良く、よりシンプルになると思います。

JSONは単なるテキストなので、すでにサポートしています。

LLMにとっては非効率的な表現であり、フォーマット内に重複が多いため、トークンを無駄にしてしまいますが、全体的には機能します。RAGのパフォーマンスを向上させるために、スクリプトを実行して再フォーマットすることをお勧めします。

JSONは非常にネストが深くなる可能性があり、ドメイン固有の完璧なテキスト表現を選択することはドメインに大きく依存するため、これを自動的に行うことは非常に困難です。

「いいね!」 3

サムさん、ありがとうございます。PDFに約150MBのJSONを追加する際のパフォーマンスと価格のバランスを保つためのご提案についてお伺いしてもよろしいでしょうか?

これは、当社のデータに対するRAG(Retrieval-Augmented Generation)の初めての試みであり、すぐにプロセスを学習し始めます。

コミュニティからの洞察もいただけると幸いです。

このコミットは非常に素晴らしいですね :heart_eyes:

この機能の完全リリースには、何か時期的な見通しはありますでしょうか? 現在はサイトの隠し機能になっているようですが。

「いいね!」 5

この機能の裏にある作業の課題の1つは、あらゆる種類のPDFをサポートすることです。想像できるように、一部のPDFは単純なテキストで解析が容易です。しかし、カスタムフォント、画像、グラフィック、非線形フォーマットなどを持つものもあります…

すべての種類のPDFで機能する方法を見つけようとしており、時間がかかる場合があります。

「いいね!」 4

非常に的確なご意見です。DeepSeekがその状況を少し変えつつあると思います。ollamaで小規模なDeepSeekモデルをローカルで実行することで、質の高い推論を提供し、これらの懸念に対する解決策を提供できるようになりました。

お手数をおかけして申し訳ありませんが、@Saif様、関連トピックについてこちらでご協力いただけますでしょうか: How to properly debug AI Personas? ありがとうございます!

素晴らしいプラグインのさらに素晴らしい強化をありがとうございます。

PRでは以下の点が指摘されています。

  • RAG消化ジョブ: DigestRagUpload ジョブがPDFおよび画像アップロードを処理するようになりました。PdfToImagesImageToText を使用してテキストを抽出し、ドキュメントフラグメントを作成します。

このジョブは実際にいつ実行されますか? 私が開始する必要があるものでしょうか?

txtファイルとPDFをアップロードしたばかりです。txtファイルはすぐにインデックス化されますが、PDFはまだ「インデックス化準備完了」と表示されています。

ありがとうございます。:pray:

「いいね!」 1

ジョブは実行されていますが、バグが発生しています。

Jobs::HandledExceptionWrapper: Wrapped NameError: undefined local variable or method `temp_dir’ for an instance of DiscourseAi::Utils::PdfToImages

自己ホストしています。これは私がさらに深く掘り下げるべきことでしょうか?

この機能はまだ正式に公開されていないため、使用は控えることをお勧めします。問題が発生する可能性があります。

「いいね!」 2

PdfToImages の問題点を見つけたと思います。

「いいね!」 3

承知しました。数日ください。デフォルトで有効にできる直接テキスト抽出も試したいと思います。

その後、「リッチ」なLLMベースの抽出はフラグの後ろに置くことができます。

多くのPDFの難点は、それらが巨大であり、サーバーリソースに大きな負荷をかける可能性があることです。さらに、Tesseractのようなものはインストールが少し難しい場合があります。品質を向上させることができます。

「いいね!」 5

@sam、自己ホストしており、現在Tesseractと格闘しています。問題なくインストールできましたが、ジョブを失敗させるほど深刻ではないと思われるエラーが発生しています。

OCR処理中にエラーが発生しました: /var/www/discourse/lib/discourse.rb:139:in `exec’: Tesseract を使用した画像の OCR に失敗しました
解像度を 337 と推定しています

そのエラーが発生しても、PDF は Persona でインデックス化されているように表示されます。

これが RAG にどのような影響を与えるのか分かりません。週末にもっと深く掘り下げてみます。

迅速なご対応ありがとうございます。

「いいね!」 2

私たちは評価を行っており(もっと追加したいのですが)、基本的にはモデルの画像からテキストへの変換の質は、 grounded(基盤に基づいているかどうか)によって大きく異なります。

良いニュースは、PDFを使えばロスレスでテキスト抽出ができ、その後、必要に応じてLLMを頼って改善することも可能だということです。次週には何かしらのものを用意できるでしょう。

「いいね!」 6