PDF、スキャン、または画像経由で多くのドキュメントを扱うフォーラムにとって、これは非常に大きな改善になるでしょう。もしこれが検索に限定されるのであれば、理想的にはテキストを抽出し/作成して、それをPostgresの列に保存するだけで済みます。そうすれば、Postgresのフルテキスト検索をそのまま活用できます。
例えばLinuxでは、pdftotextを使用してPDFからテキストを抽出し、DBに保存できます。別の(より高価な)アイデアは、AIビジョンを使用してPDFまたは画像を説明/抽出し、DBに保存することです。
ご意見をお聞かせください。