القيود الحالية:
• البحث الدلالي في المنتدى يفهرس نص المنشور فقط، وليس مرفقات PDF
• لا يمكن البحث في ملفات PDF عبر تبديل الذكاء الاصطناعي /search
• لتجاوز ذلك، اضطررت إلى تحميل ملفات PDF يدويًا بشكل منفصل إلى RAG الخاص بالشخصية
الحل المقترح:
• استخراج النص من مرفقات PDF أثناء إنشاء التضمينات
• فهرسة محتويات PDF جنبًا إلى جنب مع نص المنشور
• جعل المواضيع المرفق بها ملفات PDF قابلة للاكتشاف عبر البحث الدلالي
الفوائد:
• يجد المستخدمون الوثائق الفنية عبر بحث المنتدى
• لا حاجة لتكرار المحتوى (منشور المنتدى + تحميل RAG)
• تحسين محركات البحث (SEO) (ملفات PDF مرفقة بمواضيع مفهرسة)
• بنية أبسط (أمر البحث يعمل ببساطة)
إذا قمت بتنفيذ هذا، يمكنني أن:
أزيل الأدوات المفروضة (سيجد البحث محتويات PDF بشكل طبيعي)
ألغي تحميلات RAG تمامًا (كل شيء في مواضيع المنتدى)
أعتقد أن إضافة (plugin) قد تضيف النص إلى المنشور المطهو في عنصر تفاصيل مخفي اختياريًا. هذا من شأنه أن يضيفه ليتم العثور عليه، على ما أعتقد. إذا كنت تستضيف بنفسك، أعتقد أن تطويره سيكلف بضع مئات من الدولارات فقط. أو، إذا بدا أنهم مهتمون، يمكن تقديمه كطلب سحب (PR)، مقابل ضعف المبلغ تقريبًا (لتضمين الاختبارات وما إلى ذلك).
للعلم - وجدت أن تحميل ملفات PDF إلى الشخصية أوقفها عن العثور على محتوى المنتدى “العادي” في البحث بمساعدة الذكاء الاصطناعي. لذلك لجأت إلى الجمع بين (أ) تحويل الملفات الرئيسية إلى ترميز ماركداون (حتى أتمكن من نشرها مباشرة كمواضيع) أو (ب) استخراج الكلمات الرئيسية/جدول المحتويات الرئيسي وما إلى ذلك ونشرها جنبًا إلى جنب مع ملفات PDF في المنتديات. واضطررت أيضًا إلى التبديل من GPT 4.1 إلى Sonnet 4.5 وتعطيل HYDE لجعله موثوقًا به.