نحن نستخدم موقعنا كقاعدة معرفية ومنتدى مناقشة لقسم جامعي. على سبيل المثال، يمكنني أن أتخيل أن الناس يرغبون في طرح أسئلة مثل:
متى ستكون درجات الماجستير متاحة؟
ما هي علامة النجاح لطلاب الماجستير في علم النفس؟
كم عدد أسابيع الإجازة التي يمكنني حجزها دفعة واحدة؟
ماذا يحدث إذا فشل طالبي في وحدة المرحلة الأولى؟
ماذا يتطلب من الجامعة أن أفعل إذا كان طالبي يؤذي نفسه؟
كم ندفع للمشاركين في الأبحاث؟
كيف تتم ترقيتي؟
ما هي مصادر تمويل الدكتوراه المتاحة؟ أو متى يتم إصدار منح الدكتوراه المدرسية؟
أين في البرنامج يتعلم الطلاب عن تحليل التباين المتكرر؟
في كل من هذه الحالات، لدينا معلومات جيدة جدًا، لكن البحث التقليدي لا يعثر على النتائج الصحيحة لتلخيصها. في بعض الأحيان لا يعثر على شيء، ولكن في أحيان أخرى يعثر على مناقشات قديمة ليست الإجابة “الصحيحة”.
أعلم أن الكثيرين هنا ليسوا مبرمجين، ولذلك قد تبدو الفروق بين البحث بالكلمات المفتاحية والبحث الدلالي مربكة، أو قد يرغبون في الحصول على مزيد من الإيضاح حول كيفية عملها. في حين أن ما يلي موجه للمبرمجين، إلا أنه أساسي بما يكفي لتتعلم بعض المفاهيم الأساسية حول الاختلافات بين طريقتي البحث هاتين دون أن تكون مبرمجًا.
أضافت DeepLearning.AI مؤخرًا (14/08/2023) هذه الدورة المجانية الأساسية حول
@EricGT شكراً على الرابط. هذه الورقة كثيفة جداً لمن لا يفهمون الكثير عن التعلم الآلي بالفعل.
أعتقد أن الفكرة الأساسية هي أنه، كما هو مطبق هنا، سيستخدم HyDE نموذج لغوي كبير لإنشاء إجابة “مختلقة” بناءً على السؤال أولاً. سيكون لهذه الإجابة شكل منشور منتدى حقيقي (على سبيل المثال) ولكنها قد تحتوي على هلوسات وتكون خاطئة من الناحية الواقعية لأن المحتوى يأتي من النموذج اللغوي الكبير وليس من مجموعة مستندات مرجعية. لن يتم عرض هذه الوثيقة للمستخدم أبداً، ولكن الخدعة الرائعة هي أن هذه الوثيقة ستكون متشابهة دلالياً مع المستندات/المواضيع الحقيقية في موقعك. يقوم البحث بإرجاع المستندات الحقيقية الأكثر تشابهاً مع الوثيقة “المختلقة”، وتعمل هذه الطريقة تجريبياً بشكل أفضل من مجرد مطابقة المصطلح البحثي الخام مع المستندات المتشابهة دلالياً في قاعدة بيانات التضمين.
@sam Hyde يبدو البحث المستند إلى سام رائعاً وأنا متحمس لتجربته. هل تتصورون تعديل بعض هذه الميزات الذكية؟ على سبيل المثال، يمكنني أن أتخيل أنه قد يكون من الجيد تحرير المطالبات المستخدمة لإنشاء الوثيقة الافتراضية وللتحكم في الملخص/الإجابة. على سبيل المثال، روبوت الدردشة الحالي مطول جداً عندما يجد إجابات. سيكون من الجيد أن نتمكن من إضافة “بإيجاز” أو “باختصار” كبادئة للمطالبة (كما أفعل غالباً عند استخدام ChatGPT نفسه).
أعلم أن الكثيرين لن يولوا اهتمامًا لهذا البيان، ولكن إذا كنت تدفع أموالًا حقيقية لتشغيل الموجهات، فهذه واحدة من أكثر البيانات قيمة التي تحتاج إلى فهمها.
انظر:
الموجهات
40-90%: المبلغ المدخر بإضافة “كن موجزًا” إلى موجهك
من المهم أن تتذكر أنك تدفع لكل رمز (token) مقابل الاستجابات. هذا يعني أن مطالبة نموذج لغوي كبير (LLM) بأن يكون موجزًا يمكن أن يوفر لك الكثير من المال [1]. يمكن توسيع هذا إلى ما هو أبعد من مجرد إضافة “كن موجزًا” إلى موجهك: إذا كنت تستخدم GPT-4 لإنشاء 10 بدائل، فربما تطلب منه 5 وتحتفظ بالنصف الآخر من المال.
إنه أمر رائع! خاصة عندما أدخل عبارة بحث تُرجع “لم يتم العثور على نتائج” للبحث المطابق تمامًا.
أحصل على عدد قليل من المطابقات الصحيحة دلاليًا لمواضيع Marketplace المغلقة. ربما يكون من المفيد إرجاعها، ولكن ربما يجب أن تظهر بالقرب من أسفل القائمة.
ربما يمكن تضييق نطاق بعض عمليات البحث إلى فئات أو علامات محددة. على سبيل المثال:
عند البحث عن “كيف يمكنني منع إرسال رسائل البريد الإلكتروني للتنشيط عند تسجيل دخول المستخدمين من ووردبريس؟” سيتم العثور على أفضل النتائج في Documentation أو Support > WordPress.
إذا كان ذلك ممكنًا، يمكن للبحث الأولي إرجاع نتائج من الفئات الأكثر احتمالاً، ويمكن تقديم اقتراح لتجربة توسيع البحث ليشمل فئات أخرى.
بالتفكير في البحث الدلالي كنقطة انطلاق لاستخدام Discourse كمنتدى دعم العملاء، سيكون من الجيد أن نتمكن من تحديد أولويات فئات أو علامات محددة. على سبيل المثال، في Meta، يمكن للبحث الأولي إعطاء الأولوية للبحث في فئة Documentation.
هذه بالضبط إحدى المشكلات التي أردت معالجتها بهذه الميزة الجديدة. سيبحث البحث الدلالي دائمًا عن شيء ما.
في الوقت الحالي، البحث الدلالي بسيط للغاية. يتكون من بضعة أسطر من التعليمات البرمجية في الواجهة الخلفية ويُرجع أي شيء هو الأقرب دلاليًا. يفتقر إلى أي من ميزات البحث التي أضفناها إلى البحث القياسي على مدار العقد الماضي، مثل تحسينات البحث في 2.3 والعديد من التحسينات الأخرى. لهذا السبب، يتم تقديمه حاليًا كمجموعة نتائج تكميلية.
إذا تم استقبال الميزة بشكل جيد وتمكنا من إتقان واجهة المستخدم في المنتج، فسنحاول دمج الأجزاء الخاصة بـ Discourse في نتائج البحث الدلالي.