Los extractos de búsqueda chinos parecen rotos

haroldfy · 11 Noviembre, 2020 21:39

Cuando intento buscar en chino en mi foro, veo que los resultados de búsqueda devuelven frases fragmentadas, faltan los signos de puntuación, hay espacios en blanco inesperados entre las palabras y algunas palabras desaparecen.

Por ejemplo, intenté buscar 管理员. La frase original es:

管理人员可见的分类。只有管理员和版主才能阅览主题

Pero lo que veo en los resultados de búsqueda se parece a esto:

Como pueden ver, 可见的 falta, también falta el punto 。, lo que rompe la frase. Además, 只有, 和 y 才能 también faltan. Y hay espacios en blanco inesperados en medio.

¿Alguien puede ayudarme con este problema? Gracias

tgxworld · 3 Diciembre, 2020 02:12

Parece que esos caracteres faltantes se consideran palabras vacías en el idioma chino

(byebug) data = CppjiebaRb.segment(search_data, mode: mode)
["管理人员", "可见", "的", "分类", "。", "只有", "管理员", "和", "版主", "才能", "阅览", "主题"]
(byebug) CppjiebaRb.filter_stop_word(data)
["管理人员", "分类", "管理员", "版主", "阅览", "主题"]

sam · 3 Diciembre, 2020 05:07

Espera, ¿entonces el error aquí es que el “resumen” en el resultado parece extraño? ¿No es que haya un problema funcional real con la búsqueda?

tgxworld · 4 Diciembre, 2020 00:51

Sí, la búsqueda sigue funcionando, pero el fragmento que se muestra no es ideal. Para el idioma chino, la búsqueda se maneja de manera un poco diferente. En lugar de ignorar las palabras vacías durante la consulta de búsqueda en sí, las excluimos por completo de los datos de búsqueda.

haroldfy · 6 Diciembre, 2020 18:58

Gracias por investigar esto.

Esto no es una palabra vacía en chino; es un adjetivo que significa “visible”.

¿Es posible solucionar este problema (incluyendo todo en los resultados de búsqueda)? ¿O existe alguna solución alternativa?

Gracias.

sam · 6 Diciembre, 2020 20:16

Las palabras vacías son términos muy comunes que perjudican el rendimiento de la búsqueda.

Por ejemplo, “and” (y) es una palabra vacía en inglés.

Es posible solucionar esto, aunque llevará unos meses implementarlo. Mientras tanto, si necesitas una solución rápida, puedes recurrir al Marketplace.

Etiquetado como pr-welcome.

tgxworld · 8 Diciembre, 2020 01:22

Las palabras vacías se determinan utilizando GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub. Con los cambios recientes en la forma en que se muestran los fragmentos de búsqueda, deberíamos simplemente eliminar la siguiente línea, ya que interfiere con los datos reales de búsqueda.

github.com/discourse/discourse

lib/search.rb

1cf057fb1


      
          # For Japanese we should investigate using kakasi
          if ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) || SiteSetting.search_tokenize_chinese_japanese_korean
            require 'cppjieba_rb' unless defined? CppjiebaRb
            mode = (purpose == :query ? :query : :mix)
            data = CppjiebaRb.segment(search_data, mode: mode)
          
            # TODO: we still want to tokenize here but the current stopword list is too wide
            # in cppjieba leading to words such as volume to be skipped. PG already has an English
            # stopword list so use that vs relying on cppjieba
            if ts_config != 'english'
              data = CppjiebaRb.filter_stop_word(data)
            else
              data = data.filter { |s| s.present? }
            end
          
            data = data.join(' ')
          
          else
            data.squish!
          end

De todos modos, nuestro soporte de búsqueda para el chino no es excelente, pero existen extensiones de PostgreSQL que podríamos considerar para poder soportar adecuadamente idiomas que no tienen soporte nativo. ¿Quizás https://pgroonga.github.io/?

haroldfy · 9 Diciembre, 2020 01:21

¡Gracias! Déjame probar esto y ver cómo va.

yiksanchan · 18 Diciembre, 2020 07:08

@tgxworld No estoy seguro de si lo entendí correctamente, pgroonga no admite chino ni japonés. En https://pgroonga.github.io/,

PostgreSQL admite la búsqueda de texto completo en idiomas que solo usan letras y dígitos. Esto significa que PostgreSQL no admite la búsqueda de texto completo en japonés, chino, etc. ¡Puedes utilizar la función de búsqueda de texto completo ultrarrápida para todos los idiomas instalando PGroonga en tu PostgreSQL!

yiksanchan · 18 Diciembre, 2020 07:21

@tgxworld Creé un PR según tu sugerencia FIX: keep chinese stopwords on search by t0t07 · Pull Request #11530 · discourse/discourse · GitHub

riking · 18 Diciembre, 2020 20:06

El sentido es exactamente el opuesto. PostgreSQL normal no admite chino ni japonés. PGroonga añade soporte para esos idiomas.

yiksanchan · 18 Diciembre, 2020 20:14

Por cierto, @riking, solo para confirmar, actualmente Discourse implementa la búsqueda de texto completo utilizando las funciones integradas de PostgreSQL, como se muestra en discourse/lib/search.rb at 1cf057fb1c4e168ce441ddde918636725abeb668 · discourse/discourse · GitHub

¿Es correcto?

tgxworld · 21 Diciembre, 2020 01:25

Perdona por no ser más específico al principio. Si realmente queremos solucionar esto por ahora, necesitamos asegurarnos de no eliminar las palabras vacías para el chino en los datos de búsqueda, al mismo tiempo que garantizamos que las palabras vacías sigan siendo eliminadas cuando se usan como consulta de búsqueda.

yiksanchan · 21 Diciembre, 2020 01:37

@tgxworld No entiendo la diferencia entre los datos de búsqueda y la consulta de búsqueda. ¿Podrías proporcionar más detalles? Gracias

sam · 21 Diciembre, 2020 01:46

Si añadimos palabras vacías al índice, este se infla y el rendimiento de la búsqueda se ve afectado negativamente.

tgxworld · 21 Diciembre, 2020 03:01

github.com/discourse/discourse

app/models/post_search_data.rb

d2a046218


      
          #  search_data     :tsvector
          #  raw_data        :text

Hay dos columnas que almacenamos en la tabla PostSearchData: #search_data se utiliza al realizar consultas con términos de búsqueda. #raw_data es lo que usamos al mostrar el fragmento de búsqueda. La solución aquí debería ser que las palabras vacías en chino no se eliminen de #raw_data, aunque sí se sigan eliminando de #search_data.

th21 · 6 Mayo, 2021 05:02

¿Hay algún avance con este error?

sam · 20 Mayo, 2021 05:50

Pensé que había realizado algunos cambios aquí:

github.com/discourse/discourse

lib/search.rb

626b8465b


      
          def self.segment_cjk?
            ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) ||
              SiteSetting.search_tokenize_chinese_japanese_korean
          end

¿Tu configuración regional está establecida en zh_TW, zh_CN o ja? Si no es así, ¿está search_tokenize_chinese_japanese_korean configurado en true?

Tenemos una solución alternativa aquí:

github.com/discourse/discourse

lib/search/grouped_search_results.rb

626b8465b


      
          if post.post_search_data.version > SearchIndexer::MIN_POST_REINDEX_VERSION && !Search.segment_cjk?
            if SiteSetting.use_pg_headlines_for_excerpt
              scrubbed_headline = post.headline.gsub(SCRUB_HEADLINE_REGEXP, '\1')
              prefix_omission = scrubbed_headline.start_with?(post.leading_raw_data) ? '' : OMISSION
              postfix_omission = scrubbed_headline.end_with?(post.trailing_raw_data) ? '' : OMISSION
              return "#{prefix_omission}#{post.headline}#{postfix_omission}"
            else
              opts[:cooked] = post.post_search_data.raw_data
              opts[:scrub] = false
            end
          else
            opts[:cooked] = post.cooked
          end
          
          GroupedSearchResults.blurb_for(**opts)

Tema		Respuestas	Vistas
Chinese searching is broken Bug	4	1020	12 Octubre 2016
Searching Chinese terms in middle of sentence Feature	24	3548	4 Diciembre 2025
Chinese search doesn't work to some words Support	15	1750	31 Octubre 2021
What's the word tokenizer for different languages in discourse? Support	1	633	27 Mayo 2020
Korean words can't be searched Support	36	1699	22 Noviembre 2020

Los extractos de búsqueda chinos parecen rotos

Temas relacionados