Здравствуйте
Я управляю форумом Discourse с контентом на персидском и арабском языках. Столкнулся с проблемой поиска в названиях тем, содержащих арабский определённый артикль «ال» (аль-).
Проблема
У меня есть две темы:
- الحسین بن زید (с «ال»)
- حسین بن زید (без «ال»)
При поиске одного из названий другое не включается в результаты.
Желаемое поведение
Ожидается, что поиск по «حسین بن زید» или «الحسین بن زید» будет возвращать обе темы. Наличие или отсутствие «ال» должно обрабатываться поиском автоматически, аналогично тому, как часто учитываются вариации в английском поиске. Пользователям не нужно вручную использовать подстановочные знаки (например, ? или *), чтобы найти оба варианта.
Текущее поведение
Поиск слишком точный, он сопоставляет только точно введённое название. Это означает, что алгоритм поиска не нормализует и не игнорирует «ال» для улучшения доступности контента.
Вопрос
Существует ли в Discourse настройка, плагин или улучшение индексации, позволяющее включить такую автоматическую нормализацию для названий на арабском и персидском языках? Как заставить поиск воспринимать названия с «ال» и без него как вариации одного и того же термина, не требуя от пользователей ручного ввода подстановочных знаков?
Буду благодарен за любые рекомендации.
Спасибо.