Search a term in Japanese

yashi · 02.Февраль.2022 10:58:57

Я попробовал tiny_segmenter из Rubygems, и, по крайней мере, он генерирует слова, которые я перечислил в предыдущем комментарии.

# coding: utf-8
require 'tiny_segmenter'
require 'pp'

s = File.read('topic27.txt')

ts = TinySegmenter.new
sg = ts.segment(s, ignore_punctuation: true)
pp(sg)

bundle exec ruby test.rb | grep -e 北側 -e 真上 -e 一般
 "北側",
 "真上",
 "一般",
 "一般",
 "一般",
 "北側",
 "一般",

Краткий поиск информации о TinySegmenter показал, что используемая им модель не очень качественная. Для неё есть генератор моделей.

Однако я его ещё не пробовал.

Тема		Ответов	Просм.
Korean words can't be searched Support	36	1691	22.11.2020
Chinese search doesn't work to some words Support	15	1739	31.10.2021
Thai language support for searching Bug	4	1217	11.08.2020
What's the word tokenizer for different languages in discourse? Support	1	625	27.05.2020
Optimizing Discourse search for CJK languages Site Management how-to , localization	0	3255	13.05.2015

Search a term in Japanese

Связанные темы