Привет! Я использовал Discourse на китайском языке и обнаружил, что многие слова не токенизируются корректно.
В предложении много слов, и их необходимо правильно разделять для поддержки поиска по ключевым словам и других важных функций.
Хотя я должен сказать, что, по моему мнению, токенизатор китайского языка в Discourse работает недостаточно хорошо.
Это «старый» токенизатор? Можно ли заменить его на новые?
Если вы читаете по-китайски, вот мои выводы: