Buscar un término en japonés

SSS · 13 Julio, 2020 05:50

Gracias por tu respuesta.

Un párrafo de ejemplo aquí en katakana
通報テスト9, 通報テスト11, 通報テスト8… etc.
Un término de búsqueda de ejemplo que no funciona
テスト
El término “テスト” no funciona.

2 テスト1152×347 9.95 KB

Pero “通報” o “通報テスト” parecen funcionar correctamente.

通報1206×345 19.3 KB

1 通報テスト1151×334 18.8 KB
Confirmación de que la configuración regional de tu sitio está en japonés o de que search tokenize chinese japanese korean está habilitado
Sí, he confirmado que ambos ajustes están configurados correctamente.

setting11207×400 17.4 KB

setting21207×400 8.72 KB

SSS · 15 Julio, 2020 01:08

Sucedió algo increíble. Tras cambiar la ‘longitud mínima del término de búsqueda’ del valor predeterminado de 2 a 1, ahora podemos buscar en katakana. No sé por qué, pero ¿es relevante esta configuración?

tgxworld · 24 Agosto, 2020 09:01

Puedo reproducir esto y se debe principalmente a una combinación de

github.com/discourse/discourse

lib/search.rb

e8a842ab8


      
          if ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) || SiteSetting.search_tokenize_chinese_japanese_korean
            require 'cppjieba_rb' unless defined? CppjiebaRb
            mode = (purpose == :query ? :query : :mix)
            data = CppjiebaRb.segment(search_data, mode: mode)

y

github.com/discourse/discourse

lib/search.rb

e8a842ab8


      
          min_length = @opts[:min_search_term_length] || SiteSetting.min_search_term_length
          terms = (@term || '').split(/\s(?=(?:[^"]|"[^"]*")*$)/).reject { |t| t.length < min_length }

El término テスト se convierte en テスト después de pasar por CppjiebaRb, lo que activa el protector de longitud mínima de búsqueda que tenemos.

@sam Esto es complicado de solucionar porque necesitamos un tokenizador adecuado para el japonés para resolver problemas de búsqueda como este de forma definitiva. Podemos hacer ajustes aquí y allá, pero será un juego de golpear topos.

sam · 28 Septiembre, 2020 07:14

No creo que exista un segmentador japonés adecuado que podamos usar.

Creo que lo mejor que podemos hacer aquí es simplemente reducir estos valores predeterminados a 1.

github.com/discourse/discourse

config/site_settings.yml

580383dff


      
          min_search_term_length:
            client: true
            default: 3
            locale_default:
              zh_CN: 2
              zh_TW: 2
              ko: 2
              ja: 2

De lo contrario, estaríamos prohibiendo que las personas busquen “casa” en japonés (家), lo cual parece razonable… permitimos que las personas busquen “house” en inglés.

yashi · 2 Febrero, 2022 10:13

Actualmente no uso Ruby ni conozco los requisitos de Discourse, pero parece haber una gema para “MeCab”.

Llegué a este tema porque descubrí que la búsqueda de algunas palabras no funciona en mi instancia pública alojada. Tengo:

longitud mínima del término de búsqueda: 1
tokenización de búsqueda chino, japonés, coreano: habilitada
idioma predeterminado: japonés

Si mal no recuerdo, inicialicé el sitio con el idioma inglés y luego cambié la configuración a japonés.

Las palabras que encontré que fallaron en la búsqueda son “北側”, “真上”, “一般”. Estas palabras están en este tema. Muchas palabras funcionan, pero estas no. No veo ningún patrón sobre si una palabra funciona o no.

¿Hay alguna forma de comprobar el índice de búsqueda generado en la instancia alojada? Puedo leer tanto Ruby como japonés, así que si hay alguna forma de ver cómo Discourse genera el índice de búsqueda para CJK, podría ser de ayuda.

CppjiebaRb, o cppjieba, mencionado por @tgxworld, parece ser para chino. ¿Se utiliza para el idioma japonés?

sam · 2 Febrero, 2022 10:21

Mecab no es una opción, lamentablemente, tiene licencia GPL y preferimos solo usar licencias MIT y BSD en las dependencias.

Tenemos una PR que añadirá TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア que tiene una licencia compatible. ¿Puedes probar la segmentación y decirnos qué tal funciona? Hay un formulario en el sitio web que puedes usar para probar.

yashi · 2 Febrero, 2022 10:58

He probado tiny_segmenter de Rubygems y al menos genera las palabras que he listado en el comentario anterior.

# coding: utf-8
require 'tiny_segmenter'
require 'pp'

s = File.read('topic27.txt')

ts = TinySegmenter.new
sg = ts.segment(s, ignore_punctuation: true)
pp(sg)

bundle exec ruby test.rb | grep -e 北側 -e 真上 -e 一般
 "北側",
 "真上",
 "一般",
 "一般",
 "一般",
 "北側",
 "一般",

Una búsqueda rápida sobre TinySegmenter me dijo que el modelo que utiliza no es tan bueno. Hay un generador de modelos para ello.

Aunque no lo he probado.

Tema		Respuestas	Vistas
Korean words can't be searched Support	34	1768	27 Mayo 2018
Chinese search doesn't work to some words Support	14	1772	14 Diciembre 2018
Thai language support for searching Bug	4	1233	11 Agosto 2020
What's the word tokenizer for different languages in discourse? Support	1	636	27 Mayo 2020
Optimizing Discourse search for CJK languages Site Management how-to , localization	0	3300	13 Mayo 2015

Buscar un término en japonés

Temas relacionados