无法按泰语标签搜索

discourse 版本 2.6.0.beta1

这些是带有泰语标签的示例帖子。

当我进入搜索页面并尝试使用泰语字符(无额外元音)进行搜索时,搜索结果的数量与标签筛选器的结果一致。


然而,当我使用带额外元音的字符进行搜索时,没有找到任何结果。(但标签筛选器中显示有 17 篇帖子)


4 个赞

你好 K. @siriwatknp,来自泰国的 Sawatdee,

我猜测该应用的搜索引擎在处理几乎所有泰语元音、(4 个)声调符号和(5 个)变音符号时都存在问题?

参考:

1 个赞

关于这个问题的变通方法有什么建议吗?

我的第一个建议是:在网上搜索类似的问题及其相关文档,尝试了解其他搜索引擎是如何处理这一层复杂性的;然后查看 Discourse 的代码,看看需要做出哪些修改来改进这个搜索算法。

顺便一提:你尝试过在浏览器键盘设置中使用其他泰语字符集吗?

注意:

经过快速搜索,我发现一些专家提出了“两阶段搜索算法”方法:

https://www.cicling.org/2008/RCS-vol-33/07-Kruengkrai.pdf

6 结论
我们提出了一种用于泰语形态分析的判别式学习方法。我们将泰语形态分析视为一个搜索问题,并提出了两阶段搜索算法,该算法在扩展的搜索空间中找到最可能的路径。我们算法的目标是基于格网中的概率估计,提高词假设的覆盖率。在 ORCHID 语料库上的实验结果表明,与标准搜索方法相比,两阶段搜索算法能够提升性能。

另请参阅:计算机与泰语

https://lexitron.nectec.or.th/KM_HL5001/file_HL5001/Paper/Inter%20Journal/krrn_52085.pdf

本文阐述了泰语在计算机领域的发展历史,考察了语言、文字和书写系统等因素。文章还分析了泰语字符的特征以及输入/输出方法,并探讨了泰语文本处理中的关键问题。最后,文章报告了语言处理方面的研究成果,并提供了关于泰语资源的详细信息。

2 个赞

@siriwatknp 能否提供文本和其中的搜索词,以便我尝试在本地复现该问题?

7 个赞

@siriwatknp 刚看到你提交了一个 PR 来修复这个问题 :slight_smile: 这个 PR 看起来不错,已经合并了。

5 个赞