بحث الذكاء الاصطناعي لإيجاد التطابقات غير الدقيقة

نحن نستخدم موقعنا كقاعدة معرفية ومنتدى مناقشة لقسم جامعي. على سبيل المثال، يمكنني أن أتخيل أن الناس يرغبون في طرح أسئلة مثل:

  • متى ستكون درجات الماجستير متاحة؟
  • ما هي علامة النجاح لطلاب الماجستير في علم النفس؟
  • كم عدد أسابيع الإجازة التي يمكنني حجزها دفعة واحدة؟
  • ماذا يحدث إذا فشل طالبي في وحدة المرحلة الأولى؟
  • ماذا يتطلب من الجامعة أن أفعل إذا كان طالبي يؤذي نفسه؟
  • كم ندفع للمشاركين في الأبحاث؟
  • كيف تتم ترقيتي؟
  • ما هي مصادر تمويل الدكتوراه المتاحة؟ أو متى يتم إصدار منح الدكتوراه المدرسية؟
  • أين في البرنامج يتعلم الطلاب عن تحليل التباين المتكرر؟

في كل من هذه الحالات، لدينا معلومات جيدة جدًا، لكن البحث التقليدي لا يعثر على النتائج الصحيحة لتلخيصها. في بعض الأحيان لا يعثر على شيء، ولكن في أحيان أخرى يعثر على مناقشات قديمة ليست الإجابة “الصحيحة”.

5 إعجابات

شكرا على ملاحظاتك يا بن

راجع طابور طلبات السحب الذي يعمل عليه @falco للبحث الدلالي المستند إلى Hyde، بمجرد أن يصبح جاهزًا سأحاول إضافة أمر له

إعجابَين (2)

للعلم

أعلم أن الكثيرين هنا ليسوا مبرمجين، ولذلك قد تبدو الفروق بين البحث بالكلمات المفتاحية والبحث الدلالي مربكة، أو قد يرغبون في الحصول على مزيد من الإيضاح حول كيفية عملها. في حين أن ما يلي موجه للمبرمجين، إلا أنه أساسي بما يكفي لتتعلم بعض المفاهيم الأساسية حول الاختلافات بين طريقتي البحث هاتين دون أن تكون مبرمجًا.

أضافت DeepLearning.AI مؤخرًا (14/08/2023) هذه الدورة المجانية الأساسية حول

نماذج اللغة الكبيرة مع البحث الدلالي (مرجع)

والتي يمكن العثور عليها في صفحة الدورات القصيرة.


بالنسبة لأولئك الذين يتابعون من هم في عالم الذكاء الاصطناعي، يجب أن يتعرفوا على عدد قليل من الأشخاص الذين يقدمون العروض.

إعجاب واحد (1)

لمن هم مثلي ممن يحبون أوراق البحث ولم يعرفوا عن HyDE مثلي، إليك الورقة.

“استرجاع كثيف دقيق بدون تسميات صلة” بقلم Luyu Gao، Xueguang Ma، Jimmy Lin و Jamie Callan (pdf)

إعجاب واحد (1)

هل يمكنك تقديم رابط؟ (تمت الإجابة أدناه)

عذرًا على السؤال، لم أتمكن من العثور عليه. تعلمت عن أوامر الروبوت على الرغم من ذلك. (مرجع)

@EricGT شكراً على الرابط. هذه الورقة كثيفة جداً لمن لا يفهمون الكثير عن التعلم الآلي بالفعل.

أعتقد أن الفكرة الأساسية هي أنه، كما هو مطبق هنا، سيستخدم HyDE نموذج لغوي كبير لإنشاء إجابة “مختلقة” بناءً على السؤال أولاً. سيكون لهذه الإجابة شكل منشور منتدى حقيقي (على سبيل المثال) ولكنها قد تحتوي على هلوسات وتكون خاطئة من الناحية الواقعية لأن المحتوى يأتي من النموذج اللغوي الكبير وليس من مجموعة مستندات مرجعية. لن يتم عرض هذه الوثيقة للمستخدم أبداً، ولكن الخدعة الرائعة هي أن هذه الوثيقة ستكون متشابهة دلالياً مع المستندات/المواضيع الحقيقية في موقعك. يقوم البحث بإرجاع المستندات الحقيقية الأكثر تشابهاً مع الوثيقة “المختلقة”، وتعمل هذه الطريقة تجريبياً بشكل أفضل من مجرد مطابقة المصطلح البحثي الخام مع المستندات المتشابهة دلالياً في قاعدة بيانات التضمين.

@sam Hyde يبدو البحث المستند إلى سام رائعاً وأنا متحمس لتجربته. هل تتصورون تعديل بعض هذه الميزات الذكية؟ على سبيل المثال، يمكنني أن أتخيل أنه قد يكون من الجيد تحرير المطالبات المستخدمة لإنشاء الوثيقة الافتراضية وللتحكم في الملخص/الإجابة. على سبيل المثال، روبوت الدردشة الحالي مطول جداً عندما يجد إجابات. سيكون من الجيد أن نتمكن من إضافة “بإيجاز” أو “باختصار” كبادئة للمطالبة (كما أفعل غالباً عند استخدام ChatGPT نفسه).

4 إعجابات
4 إعجابات

ملاحظة رائعة!


أعلم أن الكثيرين لن يولوا اهتمامًا لهذا البيان، ولكن إذا كنت تدفع أموالًا حقيقية لتشغيل الموجهات، فهذه واحدة من أكثر البيانات قيمة التي تحتاج إلى فهمها.

انظر:

الموجهات

40-90%: المبلغ المدخر بإضافة “كن موجزًا” إلى موجهك

من المهم أن تتذكر أنك تدفع لكل رمز (token) مقابل الاستجابات. هذا يعني أن مطالبة نموذج لغوي كبير (LLM) بأن يكون موجزًا يمكن أن يوفر لك الكثير من المال [1]. يمكن توسيع هذا إلى ما هو أبعد من مجرد إضافة “كن موجزًا” إلى موجهك: إذا كنت تستخدم GPT-4 لإنشاء 10 بدائل، فربما تطلب منه 5 وتحتفظ بالنصف الآخر من المال.

إعجاب واحد (1)

لدينا الواجهة الخلفية جاهزة له، لكن سيستغرق الأمر بعض الوقت لدمجها بشكل صحيح في صفحة نتائج البحث في Discourse نظرًا لأن واجهة المستخدم صعبة بعض الشيء.

اليوم لا نقدم أي تحكم في المطالبات، ولكننا سنقوم بتخصيصها في المستقبل، بعد أن نجعل الميزة تعمل بشكل جيد.

3 إعجابات

يمكنك تجربته هنا على Meta، فقط انتقل إلى صفحة البحث وجرب بعض الأسئلة. أخبرني كيف سارت الأمور معك.

إعجابَين (2)

إنه أمر رائع! خاصة عندما أدخل عبارة بحث تُرجع “لم يتم العثور على نتائج” للبحث المطابق تمامًا.

أحصل على عدد قليل من المطابقات الصحيحة دلاليًا لمواضيع Marketplace المغلقة. ربما يكون من المفيد إرجاعها، ولكن ربما يجب أن تظهر بالقرب من أسفل القائمة.

ربما يمكن تضييق نطاق بعض عمليات البحث إلى فئات أو علامات محددة. على سبيل المثال:

  • عند البحث عن “كيف يمكنني منع إرسال رسائل البريد الإلكتروني للتنشيط عند تسجيل دخول المستخدمين من ووردبريس؟” سيتم العثور على أفضل النتائج في Documentation أو Support > WordPress.

  • عند البحث عن “كيفية كتابة استعلام Data Explorer يُرجع الموضوعات الأكثر إعجابًا؟” سيتم العثور على أفضل النتائج في فئات Data & reporting و Documentation.

إذا كان ذلك ممكنًا، يمكن للبحث الأولي إرجاع نتائج من الفئات الأكثر احتمالاً، ويمكن تقديم اقتراح لتجربة توسيع البحث ليشمل فئات أخرى.

بالتفكير في البحث الدلالي كنقطة انطلاق لاستخدام Discourse كمنتدى دعم العملاء، سيكون من الجيد أن نتمكن من تحديد أولويات فئات أو علامات محددة. على سبيل المثال، في Meta، يمكن للبحث الأولي إعطاء الأولوية للبحث في فئة Documentation.

4 إعجابات

هذه بالضبط إحدى المشكلات التي أردت معالجتها بهذه الميزة الجديدة. سيبحث البحث الدلالي دائمًا عن شيء ما.

في الوقت الحالي، البحث الدلالي بسيط للغاية. يتكون من بضعة أسطر من التعليمات البرمجية في الواجهة الخلفية ويُرجع أي شيء هو الأقرب دلاليًا. يفتقر إلى أي من ميزات البحث التي أضفناها إلى البحث القياسي على مدار العقد الماضي، مثل تحسينات البحث في 2.3 والعديد من التحسينات الأخرى. لهذا السبب، يتم تقديمه حاليًا كمجموعة نتائج تكميلية.

إذا تم استقبال الميزة بشكل جيد وتمكنا من إتقان واجهة المستخدم في المنتج، فسنحاول دمج الأجزاء الخاصة بـ Discourse في نتائج البحث الدلالي.

5 إعجابات

نعم، هذا مذهل حقًا للاستعلامات المعقدة.

على الرغم من أنه لم يعثر على مشاركة لهذا الاستعلام، إلا أنه تمكن من العثور على مواضيع كافية تشير إلى المكان الصحيح!

5 إعجابات