検索機能が近似した結果を返している？

Canapin · 2021 年 11 月 18 日午後 2:41

こんにちは。

フォーラムでこのトピックを検索していました: les passants - Autour d'une roue - Monocycle.info

トピックのタイトルは「les passants」です。

以前は、「passants in:title」で検索すると、このトピックが最初の結果の1つとして表示されていました。

しかし、現在は近似的な結果が表示されます。

「passants」の代わりに、「passe」、「pass」、「passage」、「passion」などが、正確な文字列「passants」よりも前に表示されています…

これはバグだと思いますか？

JammyDodger · 2021 年 11 月 18 日午後 5:51

それが意図したものであるかどうかを知るには、検索について十分な情報がありませんが、それが役立つ場合は、単語を二重引用符で囲むことで正確な検索を行うことができます。

例：「passants」

Canapin · 2021 年 11 月 19 日午前 12:28

それは確かに役立ちますが、デフォルトの動作は不可解です。

不明な理由により、二重引用符で囲まれた正確な文字列を検索すると、「passants」がタイトルに含まれていない結果も返されます（ただし、最初の投稿のコンテンツには含まれています）：

tgxworld · 2021 年 11 月 19 日午前 12:57

フランス語では、「passants」は投稿の内容に対して検索する前に「pass」という語幹に還元されます。

語幹とは、トークンと同様の文字列ですが、同じ単語の異なる形が似ているように正規化されています。

Canapin · 2021 年 11 月 19 日午前 10:55

承知いたしました。

語彙素は言語に関連していますか？

フランス語でそのような単語を「pass」に削減するのはあまり意味がないように感じます。「passer」という動詞に（直接的または間接的に）関連していない「pass」で始まる単語がたくさんあることを考えると、これは助けになるというより混乱を招きます。

しかし、二重引用符で正確な文字列をターゲットにできるのであれば、それで十分です。

また、最後のスクリーンショットで二重引用符を使用したにもかかわらず、2番目の結果のタイトルに「passants」が含まれていないのはなぜですか？

sam · 2021 年 11 月 22 日午前 1:17

これらはPostgresで設定可能ですが、Postgresのフランス語実装がこれをすべて削減している原因です。

discourse_development=# select to_tsvector('french', 'passants');
 to_tsvector
-------------
 'pass':1
(1 row)

discourse_development=# select to_tsvector('english', 'passants');
 to_tsvector
-------------
 'passant':1
(1 row)

より高度な辞書を使用することもできますが、設定が非常に複雑です。

トピック		返信	表示
How to enforce exact matches when searching? Support	7	1083	2021 年 10 月 21 日
Search within topic is omitting results Bug	21	5152	2017 年 6 月 2 日
Search for "exact word" in quotes UX	2	972	2021 年 9 月 20 日
Difficulties with search - not finding a topic with the same title as search query Support search	8	1220	2023 年 5 月 4 日
Search problems in v2.3 Support	13	1372	2019 年 9 月 11 日

検索機能が近似した結果を返している？

関連トピック