هل البحث الدلالي للصفحة الكاملة باللغة الإنجليزية فقط؟

بحث دلالي بصفحة كاملة… هل يمكن أن يكون باللغة الإنجليزية فقط؟ وهل هناك حاجة لبعض سحر Rails لتسهيل الأمر؟

يمكنني العمل بشرط أن تقوم بتبديل نموذج التضمين إلى النموذج متعدد اللغات. لم أقم باختباره، لكن من الناحية النظرية يجب أن يعمل.

لقد بدأت أتساءل لأنها في معظم الحالات لا تقدم أي شيء، وإذا كانت هناك نتائج بحث، فهي غير ذات صلة على الإطلاق.

ما هو النموذج الذي تستخدمه للتضمينات؟
هل قمت بإنشاء تضمينات لجميع المواضيع؟
ما هو النموذج الذي تستخدمه للبحث عن HyDE؟

  • text-embedding-ada-002
  • على حد علمي نعم
  • gpt-3.5-turbo

لقد أجريت بعض الاختبارات - آسف، ليست متسقة جدًا، ولكن باستخدام أسلوب مثل الأرنب بين أضواء السيارة الأمامية.

يمكنه بالتأكيد باللغة الفنلندية أيضًا. أعتقد أن هناك قضايا أكثر جوهرية تتعلق بالذكاء الاصطناعي واللغات الثانوية. والمستخدمين.

أولاً وقبل كل شيء، لا تمتلك OpenAI مواد كافية للتعامل مع اللغة الفنلندية، ولكنني متأكد من أن هذا الوضع يشمل جميع اللغات التي لا توجد بها مواد كافية يمكن للذكاء الاصطناعي أن يسرقها يستخدمها للتعلم. هذا يعني أن البحث الدلالي أصعب بكثير من الأسئلة الأخرى، وهذه الأسئلة صعبة حقًا على Chat GPT عند استخدامه بلغة أخرى غير الإنجليزية أو اللغات الرئيسية الأخرى.

يبدو أن GPT-4 أكثر دقة من GPT-3.5-turbo. ولكن عندما كانت ضربات 3.5 مجرد ضوضاء ربما 8 مرات من أصل 10 وحتى Discourse يمكن أن تقدم هاتين النتيجتين الصحيحتين باستخدام العلامات فقط، كان لدى GPT-4 نسبة نجاح تبلغ حوالي 50٪. ونعم، هذه إحصائيات غير دقيقة.

إن إنشاء بحث يكون فيه النهج الدلالي مفيدًا هو في الواقع أمر صعب للغاية. بالنسبة لي على أي حال لأن لدي توقعات بما يجب أن أحصل عليه. لذا فهي ليست مجرد مسألة عمليات بحث دلالية حقيقية، بل هي أكثر أو أقل بحث باستخدام جملة بحث غير دقيقة عبر قائمة مصطلحات البحث التي تم إنشاؤها من تلك الجملة. نعم، أعرف - هذا النوع من البحث هو بحث دلالي أيضًا.

نقطتي الضعيفة جدًا هي أن المكون الدلالي يعمل كما ينبغي، ولكن المشكلات تأتي من قيود الذكاء الاصطناعي نفسه وتوقعات المستخدم المرتفعة جدًا. واللغة غير الإنجليزية ليست مشكلة بحد ذاتها.

ولكن…

البحث الدلالي للصفحة الكاملة بطيء بشكل رهيب. هل أنا على حق إذا ألقيت باللوم على الضعف التقني لخادم VPS الخاص بي - ذاكرة وصول عشوائي غير كافية، مخلوقات سحرية، إلخ؟ لأن الأمر سريع هنا.

ثانيًا… هل يمكننا في مرحلة ما تقديم نتائج الذكاء الاصطناعي كخيار افتراضي، بدلاً من تلك التي تم إنشاؤها بواسطة Discourse؟

فقط للحفاظ على الأشياء والمواضيع معًا: لقد كنت مخطئًا جدًا. لا علاقة لذلك بـ 3.5 و 4. كان السبب هو عمل البحث الدلالي على الهواتف المحمولة. يبدأ البحث بعد ثلاثة أحرف ثم تكون النتيجة خاطئة جدًا. عندما يتم فتح الفلتر المتقدم، أو النقر على زر البحث إذا كنت أتذكر بشكل صحيح، سيقوم الذكاء الاصطناعي بإجراء بحث جديد وتحديث النتائج - وعندئذ تكون “نسبة النجاح” أقرب إلى الصحيح.