Estratti di ricerca cinesi appaiono danneggiati

haroldfy · 11 Novembre 2020, 9:39pm

Quando provo a cercare in cinese nel mio forum, vedo che i risultati della ricerca restituiscono frasi spezzate, mancano i segni di punteggiatura e ci sono spazi bianchi inaspettati tra le parole, oltre ad alcune parole mancanti.

Ad esempio, ho cercato 管理员. La frase originale è:

管理人员可见的分类。只有管理员和版主才能阅览主题

Ma ciò che vedo nel risultato della ricerca assomiglia a questo:

Come puoi notare, 可见的 è mancante, manca anche il punto fermo 。, il che spezza la frase. Inoltre, 只有, 和 e 才能 sono assenti. Inoltre, ci sono spazi bianchi inaspettati tra le parole.

Qualcuno può aiutarmi a risolvere questo problema? Grazie

tgxworld · 3 Dicembre 2020, 2:12am

Sembra che quei caratteri mancanti siano considerati parole vuote nella lingua cinese

(byebug) data = CppjiebaRb.segment(search_data, mode: mode)
["管理人员", "可见", "的", "分类", "。", "只有", "管理员", "和", "版主", "才能", "阅览", "主题"]
(byebug) CppjiebaRb.filter_stop_word(data)
["管理人员", "分类", "管理员", "版主", "阅览", "主题"]

sam · 3 Dicembre 2020, 5:07am

Aspetta, quindi il bug qui è che il “riepilogo” nel risultato sembra strano? Non che ci sia un vero problema funzionale nella ricerca?

tgxworld · 4 Dicembre 2020, 12:51am

Sì, la ricerca funziona ancora, ma l’estratto visualizzato non è ottimale. Per la lingua cinese, la ricerca viene gestita in modo leggermente diverso. Invece di ignorare le parole vuote durante la query di ricerca stessa, le escludiamo completamente dai dati di ricerca.

haroldfy · 6 Dicembre 2020, 6:58pm

Grazie per aver esaminato la questione.

Questa non è una parola vuota in cinese, ma un aggettivo che significa “visibile”.

È possibile risolvere questo problema (inclusi tutti i risultati della ricerca)? Oppure esiste qualche soluzione alternativa?

Grazie.

sam · 6 Dicembre 2020, 8:16pm

Le stop word sono parole molto comuni che compromettono le prestazioni della ricerca

“E”, ad esempio, in inglese è una stop word

È possibile risolvere il problema; ci vorranno alcuni mesi per arrivare a una soluzione. Nel frattempo, se hai bisogno di una correzione rapida, consulta Marketplace

Segnato come pr-welcome

tgxworld · 8 Dicembre 2020, 1:22am

Le parole vuote sono determinate utilizzando GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub. Con le recenti modifiche alla visualizzazione degli estratti di ricerca, dovremmo semplicemente rimuovere la riga seguente poiché interferisce con i dati di ricerca effettivi.

github.com/discourse/discourse

lib/search.rb

1cf057fb1


      
          # For Japanese we should investigate using kakasi
          if ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) || SiteSetting.search_tokenize_chinese_japanese_korean
            require 'cppjieba_rb' unless defined? CppjiebaRb
            mode = (purpose == :query ? :query : :mix)
            data = CppjiebaRb.segment(search_data, mode: mode)
          
            # TODO: we still want to tokenize here but the current stopword list is too wide
            # in cppjieba leading to words such as volume to be skipped. PG already has an English
            # stopword list so use that vs relying on cppjieba
            if ts_config != 'english'
              data = CppjiebaRb.filter_stop_word(data)
            else
              data = data.filter { |s| s.present? }
            end
          
            data = data.join(' ')
          
          else
            data.squish!
          end

In ogni caso, il nostro supporto per la ricerca in cinese non è eccellente, ma esistono estensioni PG che potremmo prendere in considerazione per supportare correttamente le lingue che non hanno un supporto nativo. Forse https://pgroonga.github.io/?

haroldfy · 9 Dicembre 2020, 1:21am

Grazie! Proviamo e vediamo come va.

yiksanchan · 18 Dicembre 2020, 7:08am

@tgxworld Non sono sicuro di aver capito correttamente: PGroonga non supporta il cinese e il giapponese. In https://pgroonga.github.io/,

PostgreSQL supporta la ricerca full-text solo per lingue che utilizzano esclusivamente lettere dell’alfabeto e cifre. Ciò significa che PostgreSQL non supporta la ricerca full-text per il giapponese, il cinese e così via. Puoi utilizzare la funzione di ricerca full-text ultra veloce per tutte le lingue installando PGroonga nel tuo PostgreSQL!

yiksanchan · 18 Dicembre 2020, 7:21am

@tgxworld Ho creato una PR come da tua suggerimento FIX: keep chinese stopwords on search by t0t07 · Pull Request #11530 · discourse/discourse · GitHub

riking · 18 Dicembre 2020, 8:06pm

Il senso è esattamente opposto. PostgreSQL normale non supporta il cinese e il giapponese. PGroonga aggiunge il supporto per queste lingue.

yiksanchan · 18 Dicembre 2020, 8:14pm

A proposito @riking, solo per confermare, attualmente Discourse implementa la ricerca full-text utilizzando le funzioni integrate di PostgreSQL come in discourse/lib/search.rb at 1cf057fb1c4e168ce441ddde918636725abeb668 · discourse/discourse · GitHub

È corretto?

tgxworld · 21 Dicembre 2020, 1:25am

Scusa per non essere stato più specifico all’inizio. Se vogliamo davvero risolvere questo problema per ora, dobbiamo assicurarci di non rimuovere le parole vuote cinesi dai dati di ricerca, mantenendo però che le parole vuote vengano comunque rimosse quando vengono utilizzate come query di ricerca.

yiksanchan · 21 Dicembre 2020, 1:37am

@tgxworld Non capisco la differenza tra dati di ricerca e query di ricerca. Puoi fornire maggiori dettagli? Grazie

sam · 21 Dicembre 2020, 1:46am

Se aggiungiamo le parole di stop all’indice, questo si espande eccessivamente e peggiora le prestazioni di ricerca.

tgxworld · 21 Dicembre 2020, 3:01am

github.com/discourse/discourse

app/models/post_search_data.rb

d2a046218


      
          #  search_data     :tsvector
          #  raw_data        :text

Ci sono due colonne che memorizziamo nella tabella PostSearchData: #search_data viene utilizzato durante le query sui termini di ricerca. #raw_data è ciò che usiamo quando mostriamo l’estratto di ricerca. La soluzione qui dovrebbe essere che le parole di arresto cinesi non vengano rimosse da #raw_data, pur continuando a essere rimosse da #search_data.

th21 · 6 Maggio 2021, 5:02am

Ci sono stati progressi su questo bug?

sam · 20 Maggio 2021, 5:50am

Pensavo di aver apportato alcune modifiche qui:

github.com/discourse/discourse

lib/search.rb

626b8465b


      
          def self.segment_cjk?
            ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) ||
              SiteSetting.search_tokenize_chinese_japanese_korean
          end

La tua locale è impostata su zh_TW, zh_CN o ja? Se non è così, è impostato search_tokenize_chinese_japanese_korean su true?

Abbiamo un bypass qui:

github.com/discourse/discourse

lib/search/grouped_search_results.rb

626b8465b


      
          if post.post_search_data.version > SearchIndexer::MIN_POST_REINDEX_VERSION && !Search.segment_cjk?
            if SiteSetting.use_pg_headlines_for_excerpt
              scrubbed_headline = post.headline.gsub(SCRUB_HEADLINE_REGEXP, '\1')
              prefix_omission = scrubbed_headline.start_with?(post.leading_raw_data) ? '' : OMISSION
              postfix_omission = scrubbed_headline.end_with?(post.trailing_raw_data) ? '' : OMISSION
              return "#{prefix_omission}#{post.headline}#{postfix_omission}"
            else
              opts[:cooked] = post.post_search_data.raw_data
              opts[:scrub] = false
            end
          else
            opts[:cooked] = post.cooked
          end
          
          GroupedSearchResults.blurb_for(**opts)

Argomento		Risposte	Visualizzazioni
Chinese searching is broken Bug	4	1020	Ottobre 12, 2016
Searching Chinese terms in middle of sentence Feature	24	3548	Dicembre 4, 2025
Chinese search doesn't work to some words Support	15	1750	Ottobre 31, 2021
What's the word tokenizer for different languages in discourse? Support	1	633	Maggio 27, 2020
Korean words can't be searched Support	36	1699	Novembre 22, 2020

Estratti di ricerca cinesi appaiono danneggiati

Argomenti correlati