Search a term in Japanese

J’ai essayé tiny_segmenter de Rubygems et au moins il génère les mots que j’ai listés dans le commentaire précédent.

# coding: utf-8
require 'tiny_segmenter'
require 'pp'

s = File.read('topic27.txt')

ts = TinySegmenter.new
sg = ts.segment(s, ignore_punctuation: true)
pp(sg)
bundle exec ruby test.rb | grep -e 北側 -e 真上 -e 一般
 "北側",
 "真上",
 "一般",
 "一般",
 "一般",
 "北側",
 "一般",

Une recherche rapide sur TinySegmenter m’a appris que le modèle qu’il utilise n’est pas aussi bon. Il existe un générateur de modèles pour cela.

Je ne l’ai pas encore essayé cependant.

3 « J'aime »