هل سيدعم RAG ملفات PDF في المستقبل؟

أولاً، فإن محتوى الذكاء الاصطناعي الخاص بك رائع!

ثانياً، إذا قمنا بنشر ملفات PDF أو Word أو PowerPoint على منتدانا، فهل سيقرأها أيضاً ويقسمها إلى متجهات لاستخدامها في RAG؟

إعجابَين (2)

للأسف، لا يوجد لدينا دعم لملفات PDF حتى الآن، وهو أمر نفكر فيه. نحن ندعم ملفات TXT في تطبيق Persona و Tool RAG الخاص بنا. لذا، طالما أنك قادر على تحويل المواد المصدرية إلى ملفات نصية، يمكنك استهلاكها في Persona.

3 إعجابات

نعم، هذا ما فعلناه، قمنا بتحويل المرفقات إلى نص وربطناها بكل موضوع.

إعجاب واحد (1)

لقد رأينا هذه الملاحظات عدة مرات ونفكر في توسيع دعم الملحقات في المستقبل من خلال شخصية روبوت الذكاء الاصطناعي لدينا وتنفيذ Tool RAG.

4 إعجابات

كحل بديل في الوقت الحالي، نقوم بتحويل ملف PowerPoint أو Word أو PDF إلى نص وإرفاقه بنفس الموضوع الذي ينتمي إليه.

إعجاب واحد (1)

سيكون دعم PDF تغييرًا جذريًا للعديد من المجتمعات! نظرًا لأنه يبدو معيارًا عالميًا للمستندات، غالبًا ما نجد أنفسنا مضطرين إلى إعادة تنسيق الأشياء إلى .txt لـ RAG وهو أمر مستهلك للوقت بالفعل :face_with_spiral_eyes:

6 إعجابات

نحن ننهي بعض الأعمال على Embeddings وبمجرد اكتمال ذلك، ستكون الخطوة التالية هي إضافة دعم PDF.

5 إعجابات

رائع، هذا لطيف للغاية. تحية للفريق الذي يأخذ دائمًا في الاعتبار ما يحتاجه المجتمع!

ماذا عن ملفات JSON؟ كان لدي الكثير من دردشات Discord المصدرة التي نحتاج إلى الاستعلام عنها داخل الذكاء الاصطناعي حتى لا نفقد هذه المعلومات :slight_smile:

كنت أفكر في ضبط النماذج بدقة، لكن أعتقد أن إضافة الملفات إلى Discourse يجب أن يكون أفضل وأبسط للجميع ممن لديهم حالة استخدام مماثلة.

JSON هو مجرد نص، لذا فنحن ندعمه بالفعل.

إنه تمثيل غير فعال لنماذج اللغة الكبيرة نظرًا للكم الكبير من التكرار داخل التنسيق، لذا فإنه سيؤدي إلى إهدار بعض الرموز (tokens)، ولكنه سيعمل بشكل عام. أوصي بتشغيل برنامج نصي عليه وإعادة تنسيقه لتحسين أداء RAG.

من الصعب جدًا القيام بذلك تلقائيًا لأن JSON يمكن أن يكون متداخلاً للغاية، واختيار تمثيل نصي مثالي خاص بالمجال يعتمد بشكل كبير على المجال.

3 إعجابات

شكراً سام، هل يمكنني السؤال عن اقتراحك للحفاظ على توازن الأداء والسعر عند إضافة حوالي 150 ميجابايت من JSON (على PDF)؟

هذه هي المرة الأولى لي في RAG على بياناتنا وسأبدأ في التعلم قريبًا عن العملية.

أقدر أي رؤى من المجتمع أيضًا.

يجب أن أقول، هذا الالتزام يبدو جميلاً جداً :heart_eyes:

هل هناك أي جدول زمني محتمل لإصدار هذه الميزة بالكامل؟ أرى أنها ميزة موقع مخفية في الوقت الحالي

5 إعجابات

أحد التحديات المتعلقة بالعمل وراء هذا هو دعم ملفات PDF بجميع أنواعها. كما يمكنك أن تتخيل، فإن بعض ملفات PDF عبارة عن نصوص بسيطة ويسهل تحليلها. ومع ذلك، هناك بعض الملفات التي تحتوي على خطوط مخصصة وصور ورسومات وتنسيقات غير خطية وما إلى ذلك…

نحن نحاول إيجاد طريقة لجعل جميع أنواع ملفات PDF تعمل، وقد يستغرق ذلك بعض الوقت.

4 إعجابات

قول جيد جداً. أعتقد أن DeepSeek يغير هذا المشهد قليلاً الآن. تشغيل نماذج DeepSeek الأصغر محليًا باستخدام ollama يمكن أن يوفر الآن استدلالًا عالي الجودة، ويوفر حلاً لهذه المخاوف.

عذرًا على الإزعاج، @Saif هل يمكنني الحصول على مساعدتك في موضوع ذي صلة هنا: How to properly debug AI Personas? شكراً لك!

شكراً لك على هذا التحسين المذهل للإضافة الرائعة بالفعل.
تشير طلبات السحب (PR) إلى أن:

  • مهمة هضم RAG: تتعامل مهمة DigestRagUpload الآن مع تحميلات PDF والصور. تستخدم PdfToImages و ImageToText لاستخراج النص وإنشاء أجزاء من المستند.

متى سيتم تشغيل هذه المهمة فعلياً؟ هل هذا شيء أحتاج إلى بدئه؟
لقد قمت للتو بتحميل بعض الملفات النصية وملف PDF. يتم فهرسة الملفات النصية على الفور ولكن ملف PDF لا يزال يقول “جاهز للفهرسة”.
شكراً لك. :pray:

إعجاب واحد (1)

الوظيفة قيد التشغيل ولكنها تواجه خطأ:

Jobs::HandledExceptionWrapper: Wrapped NameError: undefined local variable or method `temp_dir’ for an instance of DiscourseAi::Utils::PdfToImages

أنا أستضيف ذاتيًا. ربما يمكنني التعمق في هذا الأمر؟

أود أن أتوقف عن استخدام هذه الميزة نظرًا لأنها ليست متاحة تقنيًا بعد. ستواجه مشكلات هنا

إعجابَين (2)

أعتقد أنني وجدت المشكلة في PdfToImages:

3 إعجابات

تم التأكيد، امنحني بضعة أيام هنا، وأرغب أيضًا في تجربة استخراج النص المباشر وهو شيء يمكننا تمكينه افتراضيًا.

بعد ذلك، يمكن أن يكون الاستخراج “الغني” المستند إلى نماذج لغوية كبيرة (LLM) خلف علامات.

المشكلة مع العديد من ملفات PDF هي أنها ضخمة ويمكن أن تكون مرهقة جدًا لموارد الخادم. بالإضافة إلى ذلك، يمكن أن يكون تثبيت أشياء مثل tesseract صعبًا بعض الشيء - يمكنه تحسين الجودة.

5 إعجابات

@sam، أنا أستضيف ذاتيًا وأصارع مع tesseract الآن. تم التثبيت بدون مشكلة ولكنه يرمي أخطاء لا تبدو خطيرة بما يكفي لفشل المهمة:

خطأ أثناء معالجة التعرف الضوئي على الحروف: /var/www/discourse/lib/discourse.rb:139:in `exec’: فشل في التعرف الضوئي على الحروف للصورة باستخدام Tesseract
تقدير الدقة على أنها 337

حتى مع هذا الخطأ، يظهر ملف PDF في Persona على أنه مفهرس.

أنا لست متأكدًا مما يعنيه هذا فيما يتعلق بتأثيره على RAG. سأتعمق أكثر خلال عطلة نهاية الأسبوع.

شكراً لردك السريع.

إعجابَين (2)

لدينا تقييم (وأريد إضافة المزيد)، لكن بشكل أساسي يعتمد على جودة الصورة إلى نص النموذج إذا لم تكن مبنية بشكل جيد.

الخبر السار هو أنه باستخدام PDF يمكننا استخراج النص بطريقة بدون خسارة ثم نعتمد فقط على النموذج اللغوي الكبير لتحسينه إذا رغبت في التجميل. من المفترض أن يكون هناك شيء ما الأسبوع المقبل.

6 إعجابات