في Discourse-AI، بدأنا في تجربة البحث الدلالي. لا يزال هذا في مراحله الأولى ولا نزال نستكشف هذه الأنظمة.
استخدام نماذج اللغة الكبيرة لتحسين موجه البحث هو أيضًا نهج ممكن (وإن كان بطيئًا اليوم):
تم ذكر هذه التقنية هنا: GitHub - texttron/hyde: HyDE: Precise Zero-Shot Dense Retrieval without Relevance Labels
إلى جانب الأساليب المؤتمتة بنسبة 100٪
استراتيجيتنا العامة هنا هي التكرار. لدينا بالفعل “كلمات مراقبة” في المنتج، ولن أمانع في ميزة تضيف “مرادفات البحث” حيث تحدد الأخطاء المطبعية الشائعة والعبارات الشائعة التي ترغب في “حشوها”. إنه ليس عملًا مجدولًا ولكنه بالتأكيد شيء يمكنك النظر في رعايته.
هناك سابقة لهذه الميزة بالضبط في Postgres وفقًا لـ: https://www.postgresql.org/docs/current/textsearch-dictionaries.html#TEXTSEARCH-SYNONYM-DICTIONARY
المجال الآخر الذي أنا منفتح على استكشافه (أنا متحمس له فقط بدرجة فاترة) هو السماح بـ “بيانات وصفية” مخفية في المنشورات، حيث يمكن للمسؤولين حشو مصطلحات البحث. إنه غير مرئي للغاية وبشكل عام أوصي فقط بـ “حشو” الأعمال “بشكل صحيح” حتى لا يتم إخفاء الأشياء على سبيل المثال:
SEO
دلالي، ذو صلة، تحسين