Pesquise um termo em japonês

yashi · Fevereiro 2, 2022, 10:58am

Eu tentei o tiny_segmenter do Rubygems e, pelo menos, ele gera as palavras que listei no comentário anterior.

# coding: utf-8
require 'tiny_segmenter'
require 'pp'

s = File.read('topic27.txt')

ts = TinySegmenter.new
sg = ts.segment(s, ignore_punctuation: true)
pp(sg)

bundle exec ruby test.rb | grep -e 北側 -e 真上 -e 一般
 "北側",
 "真上",
 "一般",
 "一般",
 "一般",
 "北側",
 "一般",

Uma rápida pesquisa sobre o TinySegmenter me disse que o modelo que ele usa não é tão bom. Existe um gerador de modelo para ele.

Ainda não tentei.

Tópico		Respostas	Visualizações
Korean words can't be searched Support	36	1691	22 de Novembro de 2020
Chinese search doesn't work to some words Support	15	1739	31 de Outubro de 2021
Thai language support for searching Bug	4	1217	11 de Agosto de 2020
What's the word tokenizer for different languages in discourse? Support	1	625	27 de Maio de 2020
Optimizing Discourse search for CJK languages Site Management how-to , localization	0	3255	13 de Maio de 2015

Pesquise um termo em japonês

Tópicos relacionados