Невозможно выполнить поиск по тегу на тайском языке

Версия Discourse 2.6.0.beta1

Это примеры постов с тегом на тайском языке.

Когда я перехожу на страницу поиска и пытаюсь искать по тайскому символу (без дополнительных гласных), количество найденных результатов совпадает с количеством постов в фильтре по тегу.


Однако при поиске с дополнительными гласными результаты не находятся (хотя в фильтре по тегу отображается 17 постов).


4 лайка

Здравствуйте, К. @siriwatknp и саватдэй из Таиланда,

Я предполагаю, что поисковая система приложения имеет проблемы почти со всеми тайскими гласными, (4) тоновыми знаками и (5) диакритическими знаками?

Ссылка:

1 лайк

Есть какие-либо предложения по обходному пути для этой проблемы?

Моя первая рекомендация — поискать в интернете похожие задокументированные проблемы и выяснить, как другие поисковые системы справляются с этим уровнем сложности; а затем изучить код Discourse и определить, какие изменения могут потребоваться для улучшения этого поискового алгоритма.

Кстати: пробовали ли вы другие наборы тайских символов в настройках клавиатуры вашего браузера?

Примечание:

При быстром поиске я обнаружил, что некоторые эксперты предложили подход «двухэтапного поискового алгоритма»:

https://www.cicling.org/2008/RCS-vol-33/07-Kruengkrai.pdf

6 Заключение
Мы представили подход дискриминативного обучения для морфологического анализа тайского языка. Мы рассматриваем морфологический анализ тайского языка как задачу поиска. Мы предлагаем двухэтапный поисковый алгоритм, который находит наиболее вероятный путь в расширенном пространстве поиска. Цель нашего алгоритма — повысить охват гипотез о словах на основе вероятностной оценки в решётке. Экспериментальные результаты на корпусе ORCHID показывают, что двухэтапный поисковый алгоритм может улучшить производительность по сравнению со стандартным подходом к поиску.

См. также: Компьютеры и тайский язык

https://lexitron.nectec.or.th/KM_HL5001/file_HL5001/Paper/Inter%20Journal/krrn_52085.pdf

В этой статье излагается история развития тайского языка для компьютеров, рассматриваются такие факторы, как язык, письменность и система письма, среди прочего. В статье также анализируются характеристики тайских символов и методы ввода-вывода, а также затрагиваются ключевые вопросы, связанные с обработкой тайского текста. Наконец, в статье сообщается о исследованиях в области обработки языка и предоставляется подробная информация о ресурсах тайского языка.

2 лайка

@siriwatknp Можете предоставить мне текст и поисковый запрос в виде текста, чтобы я мог попытаться воспроизвести проблему локально?

7 лайков

@siriwatknp Только что увидел, что вы отправили PR для исправления этой проблемы :slight_smile: PR выглядит хорошо и был принят.

5 лайков