Какой токенизатор слов для разных языков используется в Discourse?

Привет! Я использовал Discourse на китайском языке и обнаружил, что многие слова не токенизируются корректно.

В предложении много слов, и их необходимо правильно разделять для поддержки поиска по ключевым словам и других важных функций.

Хотя я должен сказать, что, по моему мнению, токенизатор китайского языка в Discourse работает недостаточно хорошо.

Это «старый» токенизатор? Можно ли заменить его на новые?


Если вы читаете по-китайски, вот мои выводы:

https://meta.discoursecn.org/t/topic/2414

Мы используем GitHub - erickguan/cppjieba_rb: Cppjieba Ruby binding · GitHub

который основан на GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub

@fantasticfears создал gem, который позволяет Ruby поддерживать эту библиотеку.

Заметили ли вы какие-либо конкретные проблемы, которые необходимо решить?