هل سيدعم RAG ملفات PDF في المستقبل؟

تم التأكيد، امنحني بضعة أيام هنا، وأرغب أيضًا في تجربة استخراج النص المباشر وهو شيء يمكننا تمكينه افتراضيًا.

بعد ذلك، يمكن أن يكون الاستخراج “الغني” المستند إلى نماذج لغوية كبيرة (LLM) خلف علامات.

المشكلة مع العديد من ملفات PDF هي أنها ضخمة ويمكن أن تكون مرهقة جدًا لموارد الخادم. بالإضافة إلى ذلك، يمكن أن يكون تثبيت أشياء مثل tesseract صعبًا بعض الشيء - يمكنه تحسين الجودة.

5 إعجابات