Qual é o tokenizador de palavras para diferentes idiomas no Discourse?

xiasummer · Maio 27, 2020, 12:53am

Olá, eu estava usando o Discourse em chinês. E percebi que muitas palavras não estão sendo tokenizadas corretamente.

Em uma frase, temos muitas palavras e precisamos separá-las adequadamente para dar suporte à pesquisa por palavras-chave e outras funções importantes.

Dito isso, acredito que o tokenizador de palavras em chinês do Discourse não funciona de forma satisfatória.

Será que é um tokenizador “antigo”? Podemos substituí-lo por novos?

Se você consegue ler em chinês, aqui estão minhas descobertas:

https://meta.discoursecn.org/t/topic/2414

sam · Maio 27, 2020, 1:07am

Usamos GitHub - erickguan/cppjieba_rb: Cppjieba Ruby binding · GitHub

Que é baseado em GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub

@fantasticfears construiu o gem que permite que o Ruby tenha suporte para isso.

Você está percebendo algum problema específico que gostaria que fosse resolvido?

Tópico		Respostas	Visualizações
Chinese search doesn't work to some words Support	15	1750	31 de Outubro de 2021
Korean words can't be searched Support	36	1699	22 de Novembro de 2020
Search a term in Japanese Support	26	2283	2 de Fevereiro de 2022
Searching Chinese terms in middle of sentence Feature	24	3548	4 de Dezembro de 2025
Thai language support for searching Bug	4	1220	11 de Agosto de 2020

Qual é o tokenizador de palavras para diferentes idiomas no Discourse?

Tópicos relacionados