こんにちは、
初めましてなので、もし既に出ている話題を蒸し返してしまっていたらすみません。
@sam さんも仰る通り、奥が深い部分もありますが、一方ではトピックモデリング技術は現在かなり成熟しており、すぐに使える優れたツールも存在します。最近行ったプロジェクトでは、約500万件の特許タイトルと要約を分析しました。私の新しいDiscourse サイト で数千のトピックを分析するのは、まさに朝飯前です。さらに、私のコミュニティにはそれを実現する意欲があるかもしれません。
専門家の方々へ:プラグインの設計を考えるべきか、それともGitHubからダウンロードしたDiscourseのソースコードを直接いじるべきか、アドバイスをお願いできますでしょうか。
PythonでDiscourseのトピックをスクレイピングする方法について こちら を見つけましたが、まだ動作させることができていません。それに似た方法で、データをオフラインに取得し、モデルを構築し、後でクエリを実行できるようにロードできるような仕組みが必要だと考えています。
余談ですが、優れたツールの多くはPythonで書かれています。