Когда я перехожу на страницу поиска и пытаюсь искать по тайскому символу (без дополнительных гласных), количество найденных результатов совпадает с количеством постов в фильтре по тегу.
Моя первая рекомендация — поискать в интернете похожие задокументированные проблемы и выяснить, как другие поисковые системы справляются с этим уровнем сложности; а затем изучить код Discourse и определить, какие изменения могут потребоваться для улучшения этого поискового алгоритма.
Кстати: пробовали ли вы другие наборы тайских символов в настройках клавиатуры вашего браузера?
Примечание:
При быстром поиске я обнаружил, что некоторые эксперты предложили подход «двухэтапного поискового алгоритма»:
6 Заключение
Мы представили подход дискриминативного обучения для морфологического анализа тайского языка. Мы рассматриваем морфологический анализ тайского языка как задачу поиска. Мы предлагаем двухэтапный поисковый алгоритм, который находит наиболее вероятный путь в расширенном пространстве поиска. Цель нашего алгоритма — повысить охват гипотез о словах на основе вероятностной оценки в решётке. Экспериментальные результаты на корпусе ORCHID показывают, что двухэтапный поисковый алгоритм может улучшить производительность по сравнению со стандартным подходом к поиску.
В этой статье излагается история развития тайского языка для компьютеров, рассматриваются такие факторы, как язык, письменность и система письма, среди прочего. В статье также анализируются характеристики тайских символов и методы ввода-вывода, а также затрагиваются ключевые вопросы, связанные с обработкой тайского текста. Наконец, в статье сообщается о исследованиях в области обработки языка и предоставляется подробная информация о ресурсах тайского языка.