أولاً، فإن محتوى الذكاء الاصطناعي الخاص بك رائع!
ثانياً، إذا قمنا بنشر ملفات PDF أو Word أو PowerPoint على منتدانا، فهل سيقرأها أيضاً ويقسمها إلى متجهات لاستخدامها في RAG؟
أولاً، فإن محتوى الذكاء الاصطناعي الخاص بك رائع!
ثانياً، إذا قمنا بنشر ملفات PDF أو Word أو PowerPoint على منتدانا، فهل سيقرأها أيضاً ويقسمها إلى متجهات لاستخدامها في RAG؟
للأسف، لا يوجد لدينا دعم لملفات PDF حتى الآن، وهو أمر نفكر فيه. نحن ندعم ملفات TXT في تطبيق Persona و Tool RAG الخاص بنا. لذا، طالما أنك قادر على تحويل المواد المصدرية إلى ملفات نصية، يمكنك استهلاكها في Persona.
نعم، هذا ما فعلناه، قمنا بتحويل المرفقات إلى نص وربطناها بكل موضوع.
لقد رأينا هذه الملاحظات عدة مرات ونفكر في توسيع دعم الملحقات في المستقبل من خلال شخصية روبوت الذكاء الاصطناعي لدينا وتنفيذ Tool RAG.
كحل بديل في الوقت الحالي، نقوم بتحويل ملف PowerPoint أو Word أو PDF إلى نص وإرفاقه بنفس الموضوع الذي ينتمي إليه.
سيكون دعم PDF تغييرًا جذريًا للعديد من المجتمعات! نظرًا لأنه يبدو معيارًا عالميًا للمستندات، غالبًا ما نجد أنفسنا مضطرين إلى إعادة تنسيق الأشياء إلى .txt لـ RAG وهو أمر مستهلك للوقت بالفعل ![]()
نحن ننهي بعض الأعمال على Embeddings وبمجرد اكتمال ذلك، ستكون الخطوة التالية هي إضافة دعم PDF.
رائع، هذا لطيف للغاية. تحية للفريق الذي يأخذ دائمًا في الاعتبار ما يحتاجه المجتمع!
ماذا عن ملفات JSON؟ كان لدي الكثير من دردشات Discord المصدرة التي نحتاج إلى الاستعلام عنها داخل الذكاء الاصطناعي حتى لا نفقد هذه المعلومات ![]()
كنت أفكر في ضبط النماذج بدقة، لكن أعتقد أن إضافة الملفات إلى Discourse يجب أن يكون أفضل وأبسط للجميع ممن لديهم حالة استخدام مماثلة.
JSON هو مجرد نص، لذا فنحن ندعمه بالفعل.
إنه تمثيل غير فعال لنماذج اللغة الكبيرة نظرًا للكم الكبير من التكرار داخل التنسيق، لذا فإنه سيؤدي إلى إهدار بعض الرموز (tokens)، ولكنه سيعمل بشكل عام. أوصي بتشغيل برنامج نصي عليه وإعادة تنسيقه لتحسين أداء RAG.
من الصعب جدًا القيام بذلك تلقائيًا لأن JSON يمكن أن يكون متداخلاً للغاية، واختيار تمثيل نصي مثالي خاص بالمجال يعتمد بشكل كبير على المجال.
شكراً سام، هل يمكنني السؤال عن اقتراحك للحفاظ على توازن الأداء والسعر عند إضافة حوالي 150 ميجابايت من JSON (على PDF)؟
هذه هي المرة الأولى لي في RAG على بياناتنا وسأبدأ في التعلم قريبًا عن العملية.
أقدر أي رؤى من المجتمع أيضًا.
يجب أن أقول، هذا الالتزام يبدو جميلاً جداً ![]()
هل هناك أي جدول زمني محتمل لإصدار هذه الميزة بالكامل؟ أرى أنها ميزة موقع مخفية في الوقت الحالي
أحد التحديات المتعلقة بالعمل وراء هذا هو دعم ملفات PDF بجميع أنواعها. كما يمكنك أن تتخيل، فإن بعض ملفات PDF عبارة عن نصوص بسيطة ويسهل تحليلها. ومع ذلك، هناك بعض الملفات التي تحتوي على خطوط مخصصة وصور ورسومات وتنسيقات غير خطية وما إلى ذلك…
نحن نحاول إيجاد طريقة لجعل جميع أنواع ملفات PDF تعمل، وقد يستغرق ذلك بعض الوقت.
قول جيد جداً. أعتقد أن DeepSeek يغير هذا المشهد قليلاً الآن. تشغيل نماذج DeepSeek الأصغر محليًا باستخدام ollama يمكن أن يوفر الآن استدلالًا عالي الجودة، ويوفر حلاً لهذه المخاوف.
عذرًا على الإزعاج، @Saif هل يمكنني الحصول على مساعدتك في موضوع ذي صلة هنا: How to properly debug AI Personas? شكراً لك!
شكراً لك على هذا التحسين المذهل للإضافة الرائعة بالفعل.
تشير طلبات السحب (PR) إلى أن:
DigestRagUpload الآن مع تحميلات PDF والصور. تستخدم PdfToImages و ImageToText لاستخراج النص وإنشاء أجزاء من المستند.متى سيتم تشغيل هذه المهمة فعلياً؟ هل هذا شيء أحتاج إلى بدئه؟
لقد قمت للتو بتحميل بعض الملفات النصية وملف PDF. يتم فهرسة الملفات النصية على الفور ولكن ملف PDF لا يزال يقول “جاهز للفهرسة”.
شكراً لك. ![]()
الوظيفة قيد التشغيل ولكنها تواجه خطأ:
Jobs::HandledExceptionWrapper: Wrapped NameError: undefined local variable or method `temp_dir’ for an instance of DiscourseAi::Utils::PdfToImages
أنا أستضيف ذاتيًا. ربما يمكنني التعمق في هذا الأمر؟
أود أن أتوقف عن استخدام هذه الميزة نظرًا لأنها ليست متاحة تقنيًا بعد. ستواجه مشكلات هنا
أعتقد أنني وجدت المشكلة في PdfToImages:
تم التأكيد، امنحني بضعة أيام هنا، وأرغب أيضًا في تجربة استخراج النص المباشر وهو شيء يمكننا تمكينه افتراضيًا.
بعد ذلك، يمكن أن يكون الاستخراج “الغني” المستند إلى نماذج لغوية كبيرة (LLM) خلف علامات.
المشكلة مع العديد من ملفات PDF هي أنها ضخمة ويمكن أن تكون مرهقة جدًا لموارد الخادم. بالإضافة إلى ذلك، يمكن أن يكون تثبيت أشياء مثل tesseract صعبًا بعض الشيء - يمكنه تحسين الجودة.
@sam، أنا أستضيف ذاتيًا وأصارع مع tesseract الآن. تم التثبيت بدون مشكلة ولكنه يرمي أخطاء لا تبدو خطيرة بما يكفي لفشل المهمة:
خطأ أثناء معالجة التعرف الضوئي على الحروف: /var/www/discourse/lib/discourse.rb:139:in `exec’: فشل في التعرف الضوئي على الحروف للصورة باستخدام Tesseract
تقدير الدقة على أنها 337
حتى مع هذا الخطأ، يظهر ملف PDF في Persona على أنه مفهرس.
أنا لست متأكدًا مما يعنيه هذا فيما يتعلق بتأثيره على RAG. سأتعمق أكثر خلال عطلة نهاية الأسبوع.
شكراً لردك السريع.
لدينا تقييم (وأريد إضافة المزيد)، لكن بشكل أساسي يعتمد على جودة الصورة إلى نص النموذج إذا لم تكن مبنية بشكل جيد.
الخبر السار هو أنه باستخدام PDF يمكننا استخراج النص بطريقة بدون خسارة ثم نعتمد فقط على النموذج اللغوي الكبير لتحسينه إذا رغبت في التجميل. من المفترض أن يكون هناك شيء ما الأسبوع المقبل.