Trechos de pesquisa chineses aparecem quebrados

haroldfy · Novembro 11, 2020, 9:39pm

Quando tento pesquisar em chinês no meu fórum, vejo que o resultado da pesquisa retorna frases quebradas, a pontuação está faltando e há espaços em branco inesperados entre as palavras, além de algumas palavras ausentes.

Por exemplo, tentei pesquisar 管理员, e a frase original é:

管理人员可见的分类。只有管理员和版主才能阅览主题

Mas o que vi no resultado da pesquisa ficou assim:

Como podem ver, 可见的 está faltando, o ponto final 。 também está ausente, o que quebra a frase. Além disso, 只有 e 和, assim como 才能, também não aparecem. E há espaços em branco inesperados entre as palavras.

Alguém pode me ajudar com esse problema? Obrigado

tgxworld · Dezembro 3, 2020, 2:12am

Parece que esses caracteres ausentes são considerados palavras de parada na língua chinesa

(byebug) data = CppjiebaRb.segment(search_data, mode: mode)
["管理人员", "可见", "的", "分类", "。", "只有", "管理员", "和", "版主", "才能", "阅览", "主题"]
(byebug) CppjiebaRb.filter_stop_word(data)
["管理人员", "分类", "管理员", "版主", "阅览", "主题"]

sam · Dezembro 3, 2020, 5:07am

Espera, então o bug aqui é que o “resumo” no resultado parece estranho? Não que haja um problema funcional real na busca?

tgxworld · Dezembro 4, 2020, 12:51am

Sim, a pesquisa ainda está funcionando, apenas o trecho exibido não é ideal. Para o idioma chinês, a pesquisa é tratada de maneira um pouco diferente. Em vez de ignorar as palavras de parada durante a própria consulta de pesquisa, nós as excluímos completamente dos dados de pesquisa.

haroldfy · Dezembro 6, 2020, 6:58pm

Obrigado por investigar isso.

Isso não é uma palavra vazia em chinês; é um adjetivo que significa “visível”.

É possível corrigir esse problema (incluindo tudo nos resultados de busca)? Ou existe alguma solução alternativa?

Obrigado.

sam · Dezembro 6, 2020, 8:16pm

Palavras de parada são palavras muito comuns que prejudicam o desempenho da busca.

“E”, por exemplo, em inglês, é uma palavra de parada.

É possível corrigir isso; levará alguns meses para chegar lá. Enquanto isso, se você precisar de uma correção rápida, há o Marketplace.

Marcado como pr-welcome

tgxworld · Dezembro 8, 2020, 1:22am

As palavras de parada são determinadas usando GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub. Com as recentes mudanças na forma como os trechos de pesquisa são exibidos, devemos simplesmente remover a seguinte linha, pois ela interfere nos dados reais de pesquisa.

github.com/discourse/discourse

lib/search.rb

1cf057fb1


      
          # For Japanese we should investigate using kakasi
          if ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) || SiteSetting.search_tokenize_chinese_japanese_korean
            require 'cppjieba_rb' unless defined? CppjiebaRb
            mode = (purpose == :query ? :query : :mix)
            data = CppjiebaRb.segment(search_data, mode: mode)
          
            # TODO: we still want to tokenize here but the current stopword list is too wide
            # in cppjieba leading to words such as volume to be skipped. PG already has an English
            # stopword list so use that vs relying on cppjieba
            if ts_config != 'english'
              data = CppjiebaRb.filter_stop_word(data)
            else
              data = data.filter { |s| s.present? }
            end
          
            data = data.join(' ')
          
          else
            data.squish!
          end

De qualquer forma, nosso suporte de pesquisa para o chinês não é ótimo, mas existem extensões do PostgreSQL que podemos considerar para que possamos dar suporte adequado a idiomas que não têm suporte nativo. Talvez https://pgroonga.github.io/?

haroldfy · Dezembro 9, 2020, 1:21am

Obrigado! Vou tentar isso e ver como corre.

yiksanchan · Dezembro 18, 2020, 7:08am

@tgxworld Não tenho certeza se entendi corretamente: o PGroonga não oferece suporte a chinês e japonês. Em https://pgroonga.github.io/,

O PostgreSQL oferece suporte à pesquisa de texto completo apenas para idiomas que usam apenas letras e dígitos. Isso significa que o PostgreSQL não oferece suporte à pesquisa de texto completo para japonês, chinês e assim por diante. Você pode usar o recurso de pesquisa de texto completo super rápido para todos os idiomas instalando o PGroonga no seu PostgreSQL!

yiksanchan · Dezembro 18, 2020, 7:21am

@tgxworld Criei um PR conforme sua sugestão FIX: keep chinese stopwords on search by t0t07 · Pull Request #11530 · discourse/discourse · GitHub

riking · Dezembro 18, 2020, 8:06pm

O sentido é exatamente o oposto disso. O PostgreSQL normal não oferece suporte a chinês e japonês. O PGroonga adiciona suporte a esses idiomas.

yiksanchan · Dezembro 18, 2020, 8:14pm

A propósito, @riking, só para confirmar: atualmente o Discourse implementa a pesquisa de texto completo usando as funções integradas do PostgreSQL, conforme em discourse/lib/search.rb at 1cf057fb1c4e168ce441ddde918636725abeb668 · discourse/discourse · GitHub

Isso está correto?

tgxworld · Dezembro 21, 2020, 1:25am

Desculpe não ter sido mais específico anteriormente. Se realmente quisermos corrigir isso por enquanto, precisamos garantir que não removamos as palavras de parada em chinês dos dados de pesquisa, ao mesmo tempo em que garantimos que as palavras de parada ainda sejam removidas quando usadas como consulta de pesquisa.

yiksanchan · Dezembro 21, 2020, 1:37am

@tgxworld Não entendo a diferença entre dados de pesquisa e consulta de pesquisa. Você poderia fornecer mais detalhes? Obrigado.

sam · Dezembro 21, 2020, 1:46am

Se adicionarmos stop words ao índice, ele fica inflado e a performance da busca piora.

tgxworld · Dezembro 21, 2020, 3:01am

github.com/discourse/discourse

app/models/post_search_data.rb

d2a046218


      
          #  search_data     :tsvector
          #  raw_data        :text

Existem duas colunas que armazenamos na tabela PostSearchData: #search_data é usado ao consultar termos de pesquisa. #raw_data é o que usamos ao exibir o trecho da pesquisa. A correção aqui deve ser que as palavras de parada em chinês não sejam removidas do #raw_data, mas continuem sendo removidas do #search_data.

th21 · Maio 6, 2021, 5:02am

Há algum progresso sobre esse bug?

sam · Maio 20, 2021, 5:50am

Acreditei que fiz algumas alterações aqui:

github.com/discourse/discourse

lib/search.rb

626b8465b


      
          def self.segment_cjk?
            ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) ||
              SiteSetting.search_tokenize_chinese_japanese_korean
          end

Sua localização está definida como zh_TW, zh_CN ou ja? Se não, search_tokenize_chinese_japanese_korean está definido como true?

Temos uma alternativa aqui:

github.com/discourse/discourse

lib/search/grouped_search_results.rb

626b8465b


      
          if post.post_search_data.version > SearchIndexer::MIN_POST_REINDEX_VERSION && !Search.segment_cjk?
            if SiteSetting.use_pg_headlines_for_excerpt
              scrubbed_headline = post.headline.gsub(SCRUB_HEADLINE_REGEXP, '\1')
              prefix_omission = scrubbed_headline.start_with?(post.leading_raw_data) ? '' : OMISSION
              postfix_omission = scrubbed_headline.end_with?(post.trailing_raw_data) ? '' : OMISSION
              return "#{prefix_omission}#{post.headline}#{postfix_omission}"
            else
              opts[:cooked] = post.post_search_data.raw_data
              opts[:scrub] = false
            end
          else
            opts[:cooked] = post.cooked
          end
          
          GroupedSearchResults.blurb_for(**opts)

Tópico		Respostas	Visualizações
Chinese searching is broken Bug	4	1020	12 de Outubro de 2016
Searching Chinese terms in middle of sentence Feature	24	3548	4 de Dezembro de 2025
Chinese search doesn't work to some words Support	15	1750	31 de Outubro de 2021
What's the word tokenizer for different languages in discourse? Support	1	633	27 de Maio de 2020
Korean words can't be searched Support	36	1699	22 de Novembro de 2020

Trechos de pesquisa chineses aparecem quebrados

Tópicos relacionados