يشرح هذا الدليل كيفية تطبيق واستخدام إمكانيات معالجة ملفات PDF داخل discourse-ai، بما في ذلك استخراج النص الأساسي والمعالجة المحسّنة بمساعدة نموذج اللغة الكبير (LLM).
مستوى المستخدم المطلوب: مسؤول
ملخص
يدعم المكوّن الإضافي discourse-ai معالجة ملفات PDF من أجل التوليد المعزز بالاسترجاع (RAG) في وضعين متميزين:
استخراج النص الأساسي
المعالجة المحسّنة بتحليل نماذج اللغة الكبيرة (LLM)
استخراج النص الأساسي
يوفر هذا الوضع إمكانيات أساسية لمعالجة ملفات PDF:
يستخرج محتوى النص باستخدام مكتبة pdf-reader
يدعم الملفات التي تصل إلى 100 ميجابايت
يعمل فور تثبيت المكوّن الإضافي
يعالج المحتوى النصي فقط (يتجاهل العناصر المرئية)
المعالجة المحسّنة بتحسينات نماذج اللغة الكبيرة (LLM)
يتطلب هذا الوضع إعدادًا محددًا ويوفر إمكانيات أكثر تقدمًا.
المتطلبات:
اشتراك خطة المؤسسة (Enterprise plan) أو استضافة Discourse ذاتيًا
تثبيت ImageMagick مع دعم Ghostscript داخل الحاوية
تفعيل إعداد الموقع ai_rag_images_enabled (مخفي - يجب تعيينه عبر وحدة تحكم Rails)
تهيئة نموذج RAG LLM على وكيل الذكاء الاصطناعي أو الأداة
القدرات:
تفسير الصور والرسوم البيانية والمخططات
توفير السياق من العناصر المرئية
معالجة ملفات PDF صفحة بصفحة
الحفاظ على حد حجم الملف البالغ 100 ميجابايت
تمكين تحميل ملفات الصور (png، jpg، jpeg) لفهرسة RAG عبر استخراج النص المستند إلى LLM
تفاصيل التنفيذ
مواصفات المعالجة
دقة معالجة الصفحة: 300 نقطة في البوصة (DPI)
مهلة تحويل الصورة لكل صفحة: 30 ثانية
التنظيف التلقائي للملفات المؤقتة
تكامل كامل مع تضمينات مستندات RAG
سير عمل المعالجة
تحميل ملف PDF والتحقق من صحته
استخراج المحتوى (الوضع الأساسي أو المحسّن)
تجزئة النص مع تداخل قابل للتهيئة
تضمين القطع وتخزينها
تتبع التقدم عبر MessageBus
القيود
كن على دراية بهذه القيود عند تطبيق معالجة ملفات PDF:
قيود حجم الملف:
100 ميجابايت للمعالجة الحالية لملفات PDF
20 ميجابايت للتحميلات الجديدة عبر واجهة المسؤول
يتطلب الوضع المحسّن موارد نظام إضافية
قد لا يتم تفسير تصميمات ملفات PDF المعقدة بشكل مثالي
أيضًا، هل هناك أي خطة للسماح بإجراء RAG “الدردشة مع ملفات PDF الخاصة بك” عن طريق تحميل ملفات PDF في رسالة خاصة روبوت ذكاء اصطناعي أو في موضوع/منشور وذكر الروبوت؟
In my website (Arabic Forum) I did a test in Arabic by adding legislation in the first post “topic” and then I asked questions using AI, but the answers not accurate and I think this is because it is not Context Ragging
أولاً وقبل كل شيء، شكراً جزيلاً على عملكم الرائع. أنا معجب به حقًا.
بعد التجربة مع الإعدادات وتغيير نموذج الذكاء الاصطناعي إلى Gemini-Flash-2.0، لقد عمل بشكل رائع بالنسبة لي. إليك الوضع الذي لدي:
نحن مجتمع من المدققين والمحاسبين ومستشاري الضرائب، وكنا بحاجة إلى أداة لمشاركة القوانين ذات الصلة وإثارة المناقشات حولها. يجب أن تكون هذه المناقشة مفيدة جدًا للزوار، حيث أننا محترفون في مجالنا. نحن نستهدف نموذج الذكاء الاصطناعي لفحص التشريعات وتحليلها والإجابة على أسئلتنا. أدت التجربة الرائعة إلى استنتاج مفاده أنه يمكننا حقًا مناقشة السياق المضاف في المنشور الأول، وإذا كان نموذج الذكاء الاصطناعي ذكيًا بما يكفي، فسوف يجيب على أسئلتنا بمخرجات عالية الجودة للغاية.
شكرًا جزيلاً مرة أخرى ونتطلع إلى دعم PDF لأنه سيجعل Discourse أفضل برنامج للمنتديات.
هل يجب تمكينه عبر وحدة التحكم؟ لا أرى أي خيارات للوضع المتقدم عبر واجهة المستخدم.
علاوة على ذلك، أحصل على خطأ عند محاولة تحميل ملف PDF هذا. حجمه 34 ميجابايت ولكن لدي الحد الأقصى لحجم المرفقات المحدد بـ 100 ميجابايت (في كل من إعدادات المسؤول و app.yml). الغريب هو أن لدي نسخة مضغوطة حجمها 16 ميجابايت وتقوم بالتحميل بشكل جيد. ولكن ربما يكون ملف PDF الأكبر معقدًا جدًا في الوقت الحالي؟ هناك الكثير من الصور والمعادلات وما إلى ذلك.
أتلقى هذا الخطأ عند مطالبة الروبوت بتلخيص محتويات بعض ملفات PDF على موقعي. لم أقم بتمكين المعالجة المحسّنة، وأستخدم GPT 4.1. أي أفكار حول ما أفعله بشكل خاطئ؟
عذرًا، يبدو أن نظامنا واجه مشكلة غير متوقعة أثناء محاولة الرد.
تفاصيل الخطأ
{
“error”: {
“message”: “يجب أن يتبع رسالة المساعد التي تحتوي على ‘tool_calls’ رسائل أدوات تستجيب لكل ‘tool_call_id’. لم يكن لـ tool_call_ids التالية رسائل استجابة: call_nrDCba5mt83oavbXfPq2BtEV”,
“type”: “invalid_request_error”,
“param”: “messages.[2].role”,
“code”: null
}
}
هل هناك أي تحديثات بخصوص هذا الأمر؟ أنا أرفق ملف PDF عند بدء محادثة مع الذكاء الاصطناعي، ولكنه لا يزال لا يتعرف عليه على ما يبدو. أنا أستخدم حاليًا GPT. هل يجب عليّ ربما التفكير في استخدام نموذج مختلف مصمم خصيصًا لمعالجة ملفات PDF؟