Chinesische Suchergebnisse sind fehlerhaft

haroldfy · 11. November 2020 um 21:39

Wenn ich in meinem Forum auf Chinesisch suche, werden die Suchergebnisse mit unterbrochenen Sätzen zurückgegeben. Die Satzzeichen fehlen, es gibt unerwartete Leerzeichen zwischen den Wörtern, und einige Wörter fehlen.

Beispiel: Ich habe nach 管理员 gesucht. Der ursprüngliche Satz lautet:

管理人员可见的分类。只有管理员和版主才能阅览主题

Das, was ich in den Suchergebnissen sehe, sieht jedoch wie folgt aus:

Wie Sie sehen können, fehlt 可见的, und der Punkt 。 fehlt ebenfalls, was den Satz unterbricht. Außerdem fehlen 只有, 和 und 才能. Zudem gibt es unerwartete Leerzeichen dazwischen.

Kann mir jemand bei diesem Problem helfen? Danke.

tgxworld · 3. Dezember 2020 um 02:12

Es scheint, als würden diese fehlenden Zeichen im Chinesischen als Stoppwörter betrachtet.

(byebug) data = CppjiebaRb.segment(search_data, mode: mode)
["Verwaltungspersonal", "sichtbar", "der", "Kategorie", "。", "nur", "Administrator", "und", "Forenmoderator", "können", "durchsuchen", "Thema"]
(byebug) CppjiebaRb.filter_stop_word(data)
["Verwaltungspersonal", "Kategorie", "Administrator", "Forenmoderator", "durchsuchen", "Thema"]

sam · 3. Dezember 2020 um 05:07

Warte, also ist der Fehler hier, dass die „Zusammenfassung

tgxworld · 4. Dezember 2020 um 00:51

Ja, die Suche funktioniert noch, nur ist die angezeigte Zusammenfassung nicht ideal. Für die chinesische Sprache wird die Suche etwas anders gehandhabt. Anstatt Stoppwörter bei der Suchanfrage selbst zu ignorieren, schließen wir sie vollständig aus den Suchdaten aus.

haroldfy · 6. Dezember 2020 um 18:58

Danke, dass du dir das angesehen hast.

Das ist kein Stoppwort im Chinesischen, sondern ein Adjektiv, das „sichtbar

sam · 6. Dezember 2020 um 20:16

Stoppwörter sind Wörter, die sehr häufig vorkommen und die Suchleistung beeinträchtigen.

„And

tgxworld · 8. Dezember 2020 um 01:22

Die Stoppwörter werden über GitHub - yanyiwu/cppjieba: "结巴"中文分词的C++版本 · GitHub ermittelt. Aufgrund der kürzlichen Änderungen an der Darstellung von Suchergebnissen sollten wir die folgende Zeile einfach entfernen, da sie die eigentlichen Suchdaten verfälscht.

github.com/discourse/discourse

lib/search.rb

1cf057fb1


      
          # For Japanese we should investigate using kakasi
          if ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) || SiteSetting.search_tokenize_chinese_japanese_korean
            require 'cppjieba_rb' unless defined? CppjiebaRb
            mode = (purpose == :query ? :query : :mix)
            data = CppjiebaRb.segment(search_data, mode: mode)
          
            # TODO: we still want to tokenize here but the current stopword list is too wide
            # in cppjieba leading to words such as volume to be skipped. PG already has an English
            # stopword list so use that vs relying on cppjieba
            if ts_config != 'english'
              data = CppjiebaRb.filter_stop_word(data)
            else
              data = data.filter { |s| s.present? }
            end
          
            data = data.join(' ')
          
          else
            data.squish!
          end

Wie auch immer, unsere Suchunterstützung für Chinesisch ist nicht besonders gut, aber es gibt PG-Erweiterungen, die wir in Betracht ziehen könnten, um Sprachen ohne native Unterstützung ordnungsgemäß zu unterstützen. Vielleicht https://pgroonga.github.io/?

haroldfy · 9. Dezember 2020 um 01:21

Danke! Ich probiere das aus und schaue, wie es läuft.

yiksanchan · 18. Dezember 2020 um 07:08

@tgxworld Ich bin mir nicht sicher, ob ich das richtig verstanden habe. PGroonga unterstützt weder Chinesisch noch Japanisch. Auf https://pgroonga.github.io/ heißt es:

PostgreSQL unterstützt die Volltextsuche nur für Sprachen, die ausschließlich Buchstaben und Ziffern verwenden. Das bedeutet, dass PostgreSQL keine Volltextsuche für Japanisch, Chinesisch und dergleichen unterstützt. Durch die Installation von PGroonga in Ihrer PostgreSQL-Datenbank können Sie jedoch eine extrem schnelle Volltextsuche für alle Sprachen nutzen!

yiksanchan · 18. Dezember 2020 um 07:21

@tgxworld Ich habe einen PR erstellt, wie du vorgeschlagen hast: FIX: keep chinese stopwords on search by t0t07 · Pull Request #11530 · discourse/discourse · GitHub

riking · 18. Dezember 2020 um 20:06

Die Bedeutung ist genau das Gegenteil. Normaler PostgreSQL unterstützt weder Chinesisch noch Japanisch. PGroonga fügt die Unterstützung für diese Sprachen hinzu.

yiksanchan · 18. Dezember 2020 um 20:14

Übrigens @riking, nur zur Bestätigung: Setzt Discourse derzeit die Volltextsuche mit den integrierten PostgreSQL-Funktionen um, wie in discourse/lib/search.rb at 1cf057fb1c4e168ce441ddde918636725abeb668 · discourse/discourse · GitHub gezeigt?

Ist das korrekt?

tgxworld · 21. Dezember 2020 um 01:25

Entschuldige bitte, dass ich zu Beginn nicht genauer war. Wenn wir das Problem jetzt wirklich beheben wollen, müssen wir sicherstellen, dass wir Stoppwörter für das Chinesische in den Suchdaten nicht entfernen, während gleichzeitig gewährleistet bleibt, dass Stoppwörter weiterhin entfernt werden, wenn sie als Suchanfrage verwendet werden.

yiksanchan · 21. Dezember 2020 um 01:37

@tgxworld Ich verstehe den Unterschied zwischen Suchdaten und Suchanfrage nicht. Könntest du bitte weitere Details liefern? Danke.

sam · 21. Dezember 2020 um 01:46

Wenn wir Stoppwörter in den Index aufnehmen, wird der Index aufgebläht und die Suchleistung verschlechtert sich.

tgxworld · 21. Dezember 2020 um 03:01

github.com/discourse/discourse

app/models/post_search_data.rb

d2a046218


      
          #  search_data     :tsvector
          #  raw_data        :text

In der Tabelle PostSearchData speichern wir zwei Spalten: #search_data wird bei der Abfrage nach Suchbegriffen verwendet. #raw_data wird verwendet, wenn der Suchauszug angezeigt wird. Die Korrektur hier sollte darin bestehen, dass chinesische Stoppwörter nicht aus #raw_data entfernt werden, aber weiterhin aus #search_data entfernt werden.

th21 · 6. Mai 2021 um 05:02

Gibt es Fortschritte bei diesem Fehler?

sam · 20. Mai 2021 um 05:50

Ich dachte, ich hätte hier einige Änderungen vorgenommen:

github.com/discourse/discourse

lib/search.rb

626b8465b


      
          def self.segment_cjk?
            ['zh_TW', 'zh_CN', 'ja'].include?(SiteSetting.default_locale) ||
              SiteSetting.search_tokenize_chinese_japanese_korean
          end

Ist deine Spracheinstellung auf zh_TW, zh_CN oder ja gesetzt? Falls nicht, ist search_tokenize_chinese_japanese_korean auf true eingestellt?

Wir haben hier eine Umgehung:

github.com/discourse/discourse

lib/search/grouped_search_results.rb

626b8465b


      
          if post.post_search_data.version > SearchIndexer::MIN_POST_REINDEX_VERSION && !Search.segment_cjk?
            if SiteSetting.use_pg_headlines_for_excerpt
              scrubbed_headline = post.headline.gsub(SCRUB_HEADLINE_REGEXP, '\1')
              prefix_omission = scrubbed_headline.start_with?(post.leading_raw_data) ? '' : OMISSION
              postfix_omission = scrubbed_headline.end_with?(post.trailing_raw_data) ? '' : OMISSION
              return "#{prefix_omission}#{post.headline}#{postfix_omission}"
            else
              opts[:cooked] = post.post_search_data.raw_data
              opts[:scrub] = false
            end
          else
            opts[:cooked] = post.cooked
          end
          
          GroupedSearchResults.blurb_for(**opts)

Thema		Antworten	Aufrufe
Chinese searching is broken Bug	4	1020	12. Oktober 2016
Searching Chinese terms in middle of sentence Feature	24	3548	4. Dezember 2025
Chinese search doesn't work to some words Support	15	1750	31. Oktober 2021
What's the word tokenizer for different languages in discourse? Support	1	633	27. Mai 2020
Korean words can't be searched Support	36	1699	22. November 2020

Chinesische Suchergebnisse sind fehlerhaft

Verwandte Themen