تحسينات في البحث undergoing الاختبار على meta

sam · 6 فبراير 2023، 6:05ص

في الآونة الأخيرة، وبسبب التعليقات الداخلية، قررنا إعطاء الأولوية لمجموعة من التحسينات لخوارزمية البحث لدينا.

تم الآن طرح هذه التغييرات على جميع المواقع كجزء من Discourse 3.1.0.beta3. بعد التحديث، سيبدأ موقعك تلقائيًا في إعادة فهرسة جميع المحتوى الخاص بك للبحث.

هناك إعدادان جديدان للموقع كجزء من هذا، ولكن تم تعيينهما على قيم وجدنا أنها تعمل بشكل جيد في اختباراتنا هنا في meta، لذلك لا نتوقع أن يكون لدى معظم المواقع أي سبب لتغييرها.

إعطاء الأولوية لمطابقة المصطلح الكامل في العنوان على المطابقة الجزئية

يقوم Discourse بإجراء stem + prefix match عند البحث. يمكن أن يؤدي هذا أحيانًا إلى نتائج مفاجئة للغاية.

على سبيل المثال: redis يتم تقليصها إلى redi لذا يمكن أن يؤدي البحث عن redis إلى العثور على جميع الكلمات التي تبدأ بـ redi مثل redirect والمزيد.
تمت إضافة إعداد موقع مخفي جديد: prioritize_exact_search_title_match والذي تم تمكينه الآن افتراضيًا.

قبل:

بعد:

هذا يعني أنه إذا كنت تتذكر العنوان وكتبته، فمن المرجح جدًا أن تجد العنوان.

تقليل تكرار الفهرس الأقصى

تقوم خوارزمية التصنيف لدينا بترتيب المشاركات التي تحتوي على عدة مطابقات لمصطلح أعلى من المشاركات التي تحتوي على المصطلح مرة واحدة فقط. هذا يعني أنه يمكنك “الغش” في البحث عن طريق تكرار كلمة مرات عديدة. كلما كتبت الكلمة أكثر، كلما ارتفعت إلى أعلى نتائج البحث.
تمت إضافة إعداد موقع مخفي جديد SiteSetting.max_duplicate_search_index_terms والذي يبلغ افتراضيه 6.

بمجرد تطبيق هذا، فهذا يعني أنه إذا كتبت sam، 6 مرات أو 60 مرة في منشور، فسيظل ترتيبه كما هو. إنه يضع سقفًا للمكافأة التي يمكنك منحها للنتائج.
هذا التغيير له أيضًا تأثير أداء إيجابي، نظرًا لأن فهرس البحث يصبح أصغر قليلاً.

إصلاحات أخطاء متنوعة

كان جزء من العمل هو النظر في حالات البحث الشاذة.

سابقًا، قمنا بتخفيض أولوية المواضيع المغلقة، لكننا نسينا المواضيع المؤرشفة. تم إصلاح هذا الآن (https://github.com/discourse/discourse/commit/5d28cb709acff03dfab4675fa86032fcc96ed5f2).
سابقًا، اعتمدنا بشكل كبير على مطابقات البادئة لعمليات البحث عن “النطاق”. مما يعني أن الكلمة happy لن تجد https://happy.com لأن happy يتم تقليصها إلى happi وتفشل مطابقة البادئة. تم إصلاح هذا (https://github.com/discourse/discourse/pull/20136).

العمل المستقبلي

نخطط للتجربة مع البحث “المشوش” لإكمال أسماء الإشارة تلقائيًا. (السماح لك بتخطي حرف على سبيل المثال)
نخطط للتحقيق في تقليل أولوية المصطلحات المكررة في العناوين. حاليًا، الموضوع المغلق hello goodbye hello له ترتيب أعلى من الموضوع المفتوح hello world
PageRank… نحن حاليًا لا نأخذ في الاعتبار عدد الروابط الداخلية الواردة عند ترتيب النتائج. هذا يعني أن بعض المواضيع المرتبطة بشكل لا يصدق يمكن أن تحتل مرتبة أقل من موضوع نادر مرتبط من لا مكان. سيكون من الجيد أخذ ذلك في الاعتبار في خوارزمية التصنيف لدينا.
لدينا مبادرة مفتوحة تبحث في عمليات تكامل الذكاء الاصطناعي، قد نتمكن من استلهام بعض الأفكار من أدوات مثل GPT.

ما يمكنك فعله للمساعدة؟

هل تلاحظ أي نتائج سيئة على meta؟ إذا كان الأمر كذلك، فيرجى تضمين المصطلح الذي بحثت عنه مع شرح سبب كون النتائج دون المستوى المطلوب.

كيف تشعر بالتغييرات (محايدة/أفضل/أسوأ؟)

Jagster · 6 فبراير 2023، 8:18ص

فقط للتأكد… إذا قمت بتحديث/ترقية الإعداد الخاص بي، هل سأجد هذين الإعدادين؟ أعرف كيفية العثور على الإعداد المخفي، هذه ليست مشكلة — ولكن هل هما خاصان بـ Meta في هذا الوقت؟ بالنسبة لي، من الأسهل اختبارهما على دوائري بدلاً من هنا

sam · 6 فبراير 2023، 8:23ص

نعم، ولكن تحتاج أيضًا إلى تشغيل rake search:reindex

volanar · 6 فبراير 2023، 8:34ص

هل فكرت في تحسين البحث باستخدام MeiliSearch؟ يتطلب هذا موارد قليلة جدًا ويمكن تضمينه في بناء Docker.

mcwumbly · 26 أبريل 2023، 5:56م

تم تقسيم 7 مشاركات إلى موضوع جديد: تحديد أولويات المواضيع المغلقة أو المحلولة في البحث

Falco · 6 فبراير 2023، 2:59م

لقد بدأنا تجارب في هذا المجال بواسطة

تقتصر التجارب الأولى على البحث عن المستخدمين / المجموعات، ولكن إذا سارت الأمور على ما يرام، فيمكن توسيعها بشكل أكبر.

sam · 7 فبراير 2023، 6:31ص

لقد نظرنا في عمليات تكامل مختلفة بما في ذلك sphinx و melli و elastic و solr/lucene ولكنها تأتي بتكلفة. استضافة عملية أخرى لتشغيل الفهرسة، وخطر الفهارس القديمة، والتعقيد… إلخ، كلها ليست مجانية.

أود أن أرى مقدار الاستفادة التي نحصل عليها من PG قبل استكشاف أي خيارات أخرى والاحتفاظ بها كحل أخير.

مشكلة مثيرة للاهتمام للغاية، نعم، تم (وما زالت دائمًا) إعطاؤها الأولوية المنخفضة. أعتقد أنه يمكننا على الأقل النظر في إضافة إعداد موقع إلى discourse-solved للسماح للمسؤولين بتحديد ما يجب فعله في هذه الحالات (تحديد الأولويات/تقليل الأولويات/محايد إلخ).

volanar · 7 فبراير 2023، 6:59ص

للأسف، لا يتكيف PostgreSQL كمحرك بحث. وMeiliSearch يتمتع باستهلاك ذاكرة منخفض بشكل لا يصدق وإمكانيات بحث لا حصر لها. سيكون الحمل الزائد على الخادم مقارنة بـ Ruby غير مرئي ببساطة.

sam · 7 فبراير 2023، 7:16ص

هذه ليست مشكلة بسيطة. يحتوي بحثنا على كميات هائلة من الأبعاد والكثير من المعلمات، وهو يتصل مباشرة بجداول postgres.

مع مزود بحث خارجي، نحتاج إلى القلق بشأن “المزامنة”.

يتم إغلاق موضوع في Discourse → إخطار المحرك
يتم حذف منشور → إخطار المحرك
يتم إجراء إعجاب → إخطار المحرك
يتم تقسيم موضوع أو دمجه → إخطار المحرك

القائمة تطول، بما في ذلك بناء فهارس متعددة (مستخدمون/منشورات/مواضيع/فئات)

ومع ذلك، بالاستثمار الصحيح، هذا ليس بالضرورة أمراً لا يمكن التغلب عليه، ولكنه مهمة ضخمة ولا يوجد دليل مفهوم يوضح مدى تحسنه. من الجيد أن لدى melli مصنف ترتيب للأخطاء المطبعية، والعديد من الميزات الأخرى لا جدال في ذلك. لكن دمجه ليس مجانياً على الإطلاق.

كتقدير تقريبي، أعتقد أن هناك حوالي 3 أشهر من العمل لبناء تكامل قوي ومتين في mellisearch. ربما حتى 6 أشهر إذا قمنا بتصميم Discourse بطريقة تجعل محرك البحث “قابلاً للتوصيل”.

لاحظ أننا ندعم تكامل algolia هنا: https://discourse.algolia.com/ إنه ليس قوياً تماماً، ويمكنك أن ترى أن البحث المتقدم بأكمله محذوف من التنفيذ.

volanar · 7 فبراير 2023، 7:23ص

أنا على استعداد للمراهنة على أنه مع مجتمع كبير مثل مجتمع discourse، يمكن أن يكون الأمر أسرع بكثير، ولا يزيد عن ثلاثة أشهر.

Jagster · 19 فبراير 2023، 8:53م

بعد فترة سألت عن رأي أكثر المستخدمين نشاطًا لدي (~~فكروا~~ ) حول البحث — لم أخبرهم أبدًا أنه حصل على بعض الستيرويدات.

قال الجميع نفس الشيء بالضبط؛ لم يفكروا في الأمر ولكن لأنني سألتهم أدركوا أنهم وجدوا الآن نتائج ذات صلة بسهولة أكبر، وفي معظم الحالات على الفور،

جزء من Discourse يعمل كنظام تعليقات لـ WordPress. لا، لم أحصل على المزيد من التعليقات (لا شيء مبالغ فيه مثل التعليقات على المدونات) ولكنه أظهر وجود (هل هذه هي الطريقة الصحيحة لكتابتها؟) للمنتدى. في الوقت الحاضر لدي عدد قليل من المستخدمين الذين يستخدمون Discourse كمحرك بحث. لا يعلقون ولكنهم يبحثون عما يبحثون عنه من WordPress عبر مواضيع Discourse ويعودون إلى المدونة. بالتأكيد، نظام العلامات يساعد كثيرًا أيضًا. وتفتقر WordPress إلى كليهما: البحث الفعال والعلامات العاملة،

لا أعرف ما إذا كان يجب علي نشر هذا في Praise بدلاً من ذلك، ولكني أردت فقط أن أخبركم بأنني راضٍ جدًا عن كيفية عمل هذا البحث الجديد والمحسن.

sam · 19 فبراير 2023، 11:05م

واو شكراً، هذا بالتأكيد يجعلني أشعر بتحسن كبير! لدينا طلب سحب (PR) قيد الإعداد الآن ويجب أن نبدأ في طرح التغييرات عالميًا قريبًا جدًا.

mattdm · 20 مارس 2023، 7:24م

عذرًا إذا كنت غبيًا - هل يجب أن يكون هذا نشطًا على المواقع المستضافة (مع آخر نشر)؟ يشير إعلان الإصدار إلى هنا، لكن هذا يتحدث عن إعداد مخفي - هل هذا الإعداد المخفي قيد التشغيل؟

mcwumbly · 20 مارس 2023، 8:01م

ليس عليك فعل أي شيء:

Sam Saffron:

mcdanlj:

يبدو أن prioritize_exact_search_title_match لا يزال مخفيًا. هل هذا شيء نتوقع استخدامه؟ هل يُفترض بنا تشغيل rake search:reindex بعد النشر كما أرى في هذا التعليق في الموضوع؟

لا ولا

لقد قمنا بتعديل prioritize_exact_search_title_match الافتراضي ليصبح صحيحًا افتراضيًا.

لقد قمنا أيضًا بزيادة إصدار الفهرس الخاص بنا إلى الإصدار 5.

هذا يعني أنه كل ساعتين، سيتم إعادة فهرسة 10,000 موضوع و 20,000 من أحدث المشاركات بإصدار فهرس قديم.

يمكنك تسريع العملية عن طريق تشغيل rake search:reindex ولكن لا توجد حاجة لذلك حقًا، وسيحدث ذلك تلقائيًا في الخلفية على أي حال. (ربما حدث ذلك بالفعل لمعظمهم)

سأقوم بتحديث المنشور الأصلي بملاحظة.

Luke_Cousins · 31 مارس 2023، 6:15م

شكراً على التحديث الرائع. بالنسبة لنا، القدرة على تحديد مرادفات البحث ستكون تحسينًا كبيرًا شكراً لكم.

sam · 4 أبريل 2023، 4:44ص

تم تقسيم 9 مشاركات إلى موضوع جديد: هل يمكنني استبعاد أسماء المستخدمين من البحث

dsims · 5 أبريل 2023، 9:02م

لست متأكدًا مما إذا كانت هذه مشكلة من قبل، لكنني لاحظت ظهور العديد من المشاركات التي تم إنشاؤها بواسطة النظام في نتائج البحث. ربما تكون حالة هامشية أكثر وضوحًا هنا في ميتا، لكنني لا أتوقع أن تكون رسائل النظام ذات صلة بالبحث.

مثال للنتيجة عند البحث عن مصطلحات مثل “مغلق تلقائيًا”:

mattdm · 5 أبريل 2023، 11:08م

لا يمكنني تكرار ذلك هنا.

Moin · 6 أبريل 2023، 3:45ص

يمكنني تكرار ذلك؛ إذا قمت بفرزها حسب أحدث مشاركة بدلاً من الصلة، فهناك الكثير من رسائل النظام في النتائج.

mattdm · 6 أبريل 2023، 5:32ص

آه، نعم، أرى ذلك إذن. ليس كل شيء، ولكنه أكثر من معقول. يبدو أن هذه الرسائل يجب استبعادها من البحث.

الموضوع		الردود	مرات العرض
Discourse needs better search Feature search	39	1861	10 يوليو 2025
Search results should prioritize first post in topic when title matches search term Feature	41	2934	18 فبراير 2022
Prioritizing closed or solved topics in search Feature search	19	1213	3 مايو 2023
Should search prioritize recent topics over older topics? Feature	53	5995	22 أغسطس 2014
Feedback on our instant search experiment Feature search , feedback	33	1430	7 أغسطس 2024