タイのタグで検索できません

discourse バージョン 2.6.0.beta1

タイ語のタグが付いたサンプル投稿です。

検索ページに移動し、タイ文字(追加の母音なし)で検索すると、タグフィルターの件数と一致する結果が表示されます。


しかし、追加の母音を含めて検索すると、結果が見つかりません(ただし、タグフィルターでは 17 件の投稿があります)。


「いいね!」 4

タイのサワッディー、@siriwatknp さん、こんにちは。

アプリの検索エンジンが、ほぼすべてのタイ語の母音、4つの声調記号、および5つの発音記号に問題を抱えているのではないかと推測しています。

参考:

「いいね!」 1

この問題に対する回避策についての提案はありますか?

私の最初の提案は、ネット上で同様のドキュメント化された問題を検索し、他の検索エンジンがこの複雑性の層をどのように管理しているかという「方法」を探し、次に Discourse のコードを見て、この検索アルゴリズムを改善するために必要な変更点を検討することです。

余談ですが:ブラウザのキーボード設定で他のタイ語文字セットを試しましたか?

注意:

簡単な検索で、いくつかの専門家が「2パス検索アルゴリズム」のアプローチを提案していることがわかりました:

https://www.cicling.org/2008/RCS-vol-33/07-Kruengkrai.pdf

6 結論
私たちは、タイ語の形態素解析に対する判別学習アプローチを提示しました。タイ語の形態素解析を探索問題として捉え、拡張された探索空間内で最も可能性の高い経路を見つける 2 パス検索アルゴリズムを提案します。このアルゴリズムの目的は、格子内の確率推定に基づいて語仮説のカバレッジを向上させることです。ORCHID コーパスでの実験結果により、2 パス検索アルゴリズムが標準的な検索アプローチよりも性能を向上できることが示されました。

関連資料:コンピュータとタイ語

https://lexitron.nectec.or.th/KM_HL5001/file_HL5001/Paper/Inter%20Journal/krrn_52085.pdf

この記事は、コンピュータ向けのタイ語開発の歴史を解説し、言語、文字体系、表記システムなどの要因を検討しています。また、タイ文字の特性や入出力方法について分析し、タイテキスト処理に関わる主要な課題にも触れています。最後に、言語処理研究の報告とタイ語リソースに関する詳細な情報を提供しています。

「いいね!」 2

@siriwatknp 問題の再現を試みるため、テキストと検索語をテキスト形式で提供していただけますか?

「いいね!」 7

@siriwatknp ちょうど、この問題を修正する PR を提出されたのを見ました :slight_smile: PR は問題なく、マージされました。

「いいね!」 5