دعم ملفات PDF في Discourse AI (RAG)

sam · 18 فبراير 2025، 4:32ص

يشرح هذا الدليل كيفية تطبيق واستخدام إمكانيات معالجة ملفات PDF داخل discourse-ai، بما في ذلك استخراج النص الأساسي والمعالجة المحسّنة بمساعدة نموذج اللغة الكبير (LLM).

مستوى المستخدم المطلوب: مسؤول

ملخص

يدعم المكوّن الإضافي discourse-ai معالجة ملفات PDF من أجل التوليد المعزز بالاسترجاع (RAG) في وضعين متميزين:

استخراج النص الأساسي
المعالجة المحسّنة بتحليل نماذج اللغة الكبيرة (LLM)

استخراج النص الأساسي

يوفر هذا الوضع إمكانيات أساسية لمعالجة ملفات PDF:

يستخرج محتوى النص باستخدام مكتبة pdf-reader
يدعم الملفات التي تصل إلى 100 ميجابايت
يعمل فور تثبيت المكوّن الإضافي
يعالج المحتوى النصي فقط (يتجاهل العناصر المرئية)

المعالجة المحسّنة بتحسينات نماذج اللغة الكبيرة (LLM)

يتطلب هذا الوضع إعدادًا محددًا ويوفر إمكانيات أكثر تقدمًا.

المتطلبات:

اشتراك خطة المؤسسة (Enterprise plan) أو استضافة Discourse ذاتيًا
تثبيت ImageMagick مع دعم Ghostscript داخل الحاوية
تفعيل إعداد الموقع ai_rag_images_enabled (مخفي - يجب تعيينه عبر وحدة تحكم Rails)
تهيئة نموذج RAG LLM على وكيل الذكاء الاصطناعي أو الأداة

القدرات:

تفسير الصور والرسوم البيانية والمخططات
توفير السياق من العناصر المرئية
معالجة ملفات PDF صفحة بصفحة
الحفاظ على حد حجم الملف البالغ 100 ميجابايت
تمكين تحميل ملفات الصور (png، jpg، jpeg) لفهرسة RAG عبر استخراج النص المستند إلى LLM

تفاصيل التنفيذ

مواصفات المعالجة

دقة معالجة الصفحة: 300 نقطة في البوصة (DPI)
مهلة تحويل الصورة لكل صفحة: 30 ثانية
التنظيف التلقائي للملفات المؤقتة
تكامل كامل مع تضمينات مستندات RAG

سير عمل المعالجة

تحميل ملف PDF والتحقق من صحته
استخراج المحتوى (الوضع الأساسي أو المحسّن)
تجزئة النص مع تداخل قابل للتهيئة
تضمين القطع وتخزينها
تتبع التقدم عبر MessageBus

القيود

كن على دراية بهذه القيود عند تطبيق معالجة ملفات PDF:

قيود حجم الملف:
- 100 ميجابايت للمعالجة الحالية لملفات PDF
- 20 ميجابايت للتحميلات الجديدة عبر واجهة المسؤول
يتطلب الوضع المحسّن موارد نظام إضافية
قد لا يتم تفسير تصميمات ملفات PDF المعقدة بشكل مثالي
المعالجة المحسّنة تزيد وقت المعالجة بشكل كبير

انظر أيضاً:

MachineScholar · 18 فبراير 2025، 1:17م

هذه أخبار رائعة حقًا. شكرًا للفريق! لا أستطيع الانتظار حتى يتم الانتهاء من المعالجة المُحسنة. سيكون ذلك حاسمًا في تغذية أوراق بحث LLMs.

[اقتباس=“سام سافّرون، المنشور: 22، الموضوع: 335804، اسم المستخدم: سام”]
الانتظارين للمعالجة المُحسنة، أعطونا بضعة أسابيع
[/اقتباس]

أيضًا، هل هناك أي خطة للسماح بإجراء RAG “الدردشة مع ملفات PDF الخاصة بك” عن طريق تحميل ملفات PDF في رسالة خاصة روبوت ذكاء اصطناعي أو في موضوع/منشور وذكر الروبوت؟

hameedacpa · 24 فبراير 2025، 4:30ص

@sam هل يمكنك تقديم فيديو بسيط لشرح هذا الخيار الرائع، لأن ما ذكرته غير واضح بما فيه الكفاية للتنفيذ

hameedacpa · 24 فبراير 2025، 8:42ص

قيمة إعداد الموقع ai_rag_images_enabled
[/quote]
أين يمكنني العثور على هذا الإعداد

sam · 24 فبراير 2025، 10:18ص

إنه إعداد مخفي، تحتاج إلى استخدام وحدة التحكم، ولكنك تحتاج أيضًا إلى تكوين الحاوية، نوصي بالانتظار بضعة أسابيع أخرى

hameedacpa · 24 فبراير 2025، 2:47م

شكرًا لك، أقدر عملك الرائع

hameedacpa · 24 فبراير 2025، 10:49م

In my website (Arabic Forum) I did a test in Arabic by adding legislation in the first post “topic” and then I asked questions using AI, but the answers not accurate and I think this is because it is not Context Ragging

محاسبة دوت نت – 24 Feb 25

قرار وزاري رقم (120) لسنة 2023م في شأن التعديلات بموجب الأحكام الانتقالية...

المحاسبة والضرائب والتشريعات - دولة الإمارات ضريبة الشركات - دولة الإمارات

بسم الله الرحمن الرحيم تحية طيبة وبعد، يشرفني أن أقدم لكم تحليلاً مفصلاً للنص الذي تفضلتم بعرضه، مع الربط بينه وبين معايير المحاسبة الدولية IFRS والمعايير الدولية للتدقيق ISA، بالإضافة إلى أحدث الأبحاث والممارسات المهنية والقواعد المحاسبية...

sam · 25 فبراير 2025، 1:00ص

عذرًا، لكن هذا ليس ما يحدث، تحتاج إلى تحديد شخصية أو أداة ثم إضافة التحميل هناك.

كان هناك بعض النقاش حول دعم “التحميل والسؤال” هنا: Upload and discuss pdfs in composer ولكن لم يتم دعمه بعد.

hameedacpa · 25 فبراير 2025، 6:45ص

أولاً وقبل كل شيء، شكراً جزيلاً على عملكم الرائع. أنا معجب به حقًا.

بعد التجربة مع الإعدادات وتغيير نموذج الذكاء الاصطناعي إلى Gemini-Flash-2.0، لقد عمل بشكل رائع بالنسبة لي. إليك الوضع الذي لدي:

نحن مجتمع من المدققين والمحاسبين ومستشاري الضرائب، وكنا بحاجة إلى أداة لمشاركة القوانين ذات الصلة وإثارة المناقشات حولها. يجب أن تكون هذه المناقشة مفيدة جدًا للزوار، حيث أننا محترفون في مجالنا. نحن نستهدف نموذج الذكاء الاصطناعي لفحص التشريعات وتحليلها والإجابة على أسئلتنا. أدت التجربة الرائعة إلى استنتاج مفاده أنه يمكننا حقًا مناقشة السياق المضاف في المنشور الأول، وإذا كان نموذج الذكاء الاصطناعي ذكيًا بما يكفي، فسوف يجيب على أسئلتنا بمخرجات عالية الجودة للغاية.
شكرًا جزيلاً مرة أخرى ونتطلع إلى دعم PDF لأنه سيجعل Discourse أفضل برنامج للمنتديات.

sam · 28 فبراير 2025، 12:04ص

أحدث صورة لـ discourse تدعم الوضع المتقدم إذا أراد أي شخص الاختبار

MachineScholar · 28 فبراير 2025، 12:01م

هل يجب تمكينه عبر وحدة التحكم؟ لا أرى أي خيارات للوضع المتقدم عبر واجهة المستخدم.

علاوة على ذلك، أحصل على خطأ عند محاولة تحميل ملف PDF هذا. حجمه 34 ميجابايت ولكن لدي الحد الأقصى لحجم المرفقات المحدد بـ 100 ميجابايت (في كل من إعدادات المسؤول و app.yml). الغريب هو أن لدي نسخة مضغوطة حجمها 16 ميجابايت وتقوم بالتحميل بشكل جيد. ولكن ربما يكون ملف PDF الأكبر معقدًا جدًا في الوقت الحالي؟ هناك الكثير من الصور والمعادلات وما إلى ذلك.

Falco · 28 فبراير 2025، 3:17م

نعم، تحتاج إلى تعيين SiteSetting.ai_rag_images_enabled = true في وحدة تحكم Rails لتمكينها.

sam · 28 فبراير 2025، 11:48م

تخميني هنا هو أن بعض إعدادات nginx تحتاج إلى التغيير في الحاوية أيضًا حتى لا تقوم بالرفض

Michael_Liu · 17 أبريل 2025، 12:17ص

مرحباً @sam
أواجه حاليًا مشكلة في تحميل وفهرسة ملفات PDF بسبب هذا الخطأ: Job exception: undefined method `length’ for nil.

كنت أتساءل عما إذا كان الخطأ يتعلق بالإعدادات التي ناقشناها أعلاه.
تتجمد الواجهة عند فهرسة 0% ولا تتحرك،
وتفاصيل الاستثناء كما يلي:

/var/www/discourse/plugins/discourse-ai/app/jobs/regular/digest_rag_upload.rb:81:in `chunk_document'
/var/www/discourse/plugins/discourse-ai/app/jobs/regular/digest_rag_upload.rb:40:in `block in execute'
activerecord-7.2.2.1/lib/active_record/connection_adapters/abstract/transaction.rb:616:in `block in within_new_transaction'
activesupport-7.2.2.1/lib/active_support/concurrency/null_lock.rb:9:in `synchronize'
activerecord-7.2.2.1/lib/active_record/connection_adapters/abstract/transaction.rb:613:in `within_new_transaction'
activerecord-7.2.2.1/lib/active_record/connection_adapters/abstract/database_statements.rb:361:in `transaction'
activerecord-7.2.2.1/lib/active_record/transactions.rb:234:in `block in transaction'
activerecord-7.2.2.1/lib/active_record/connection_adapters/abstract/connection_pool.rb:415:in `with_connection'
activerecord-7.2.2.1/lib/active_record/connection_handling.rb:296:in `with_connection'
activerecord-7.2.2.1/lib/active_record/transactions.rb:233:in `transaction'
/var/www/discourse/plugins/discourse-ai/app/jobs/regular/digest_rag_upload.rb:39:in `execute'
/var/www/discourse/app/jobs/base.rb:316:in `block (2 levels) in perform'
rails_multisite-6.1.0/lib/rails_multisite/connection_management/null_instance.rb:49:in `with_connection'
rails_multisite-6.1.0/lib/rails_multisite/connection_management.rb:21:in `with_connection'
/var/www/discourse/app/jobs/base.rb:303:in `block in perform'
/var/www/discourse/app/jobs/base.rb:299:in `each'
/var/www/discourse/app/jobs/base.rb:299:in `perform'
sidekiq-7.3.9/lib/sidekiq/processor.rb:220:in `execute_job'
sidekiq-7.3.9/lib/sidekiq/processor.rb:185:in `block (4 levels) in process'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:180:in `traverse'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:183:in `block in traverse'
/var/www/discourse/lib/sidekiq/pausable.rb:132:in `call'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:182:in `traverse'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:183:in `block in traverse'
sidekiq-7.3.9/lib/sidekiq/job/interrupt_handler.rb:9:in `call'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:182:in `traverse'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:183:in `block in traverse'
sidekiq-7.3.9/lib/sidekiq/metrics/tracking.rb:26:in `track'
sidekiq-7.3.9/lib/sidekiq/metrics/tracking.rb:134:in `call'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:182:in `traverse'
sidekiq-7.3.9/lib/sidekiq/middleware/chain.rb:173:in `invoke'
sidekiq-7.3.9/lib/sidekiq/processor.rb:184:in `block (3 levels) in process'
sidekiq-7.3.9/lib/sidekiq/processor.rb:145:in `block (6 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/job_retry.rb:118:in `local'
sidekiq-7.3.9/lib/sidekiq/processor.rb:144:in `block (5 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/config.rb:39:in `block in <class:Config>'
sidekiq-7.3.9/lib/sidekiq/processor.rb:139:in `block (4 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/processor.rb:281:in `stats'
sidekiq-7.3.9/lib/sidekiq/processor.rb:134:in `block (3 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/job_logger.rb:15:in `call'
sidekiq-7.3.9/lib/sidekiq/processor.rb:133:in `block (2 levels) in dispatch'
sidekiq-7.3.9/lib/sidekiq/job_retry.rb:85:in `global'
sidekiq-7.3.9/lib/sidekiq/processor.rb:132:in `block in dispatch'
sidekiq-7.3.9/lib/sidekiq/job_logger.rb:40:in `prepare'
sidekiq-7.3.9/lib/sidekiq/processor.rb:131:in `dispatch'
sidekiq-7.3.9/lib/sidekiq/processor.rb:183:in `block (2 levels) in process'
sidekiq-7.3.9/lib/sidekiq/processor.rb:182:in `handle_interrupt'
sidekiq-7.3.9/lib/sidekiq/processor.rb:182:in `block in process'
sidekiq-7.3.9/lib/sidekiq/processor.rb:181:in `handle_interrupt'
sidekiq-7.3.9/lib/sidekiq/processor.rb:181:in `process'
sidekiq-7.3.9/lib/sidekiq/processor.rb:86:in `process_one'
sidekiq-7.3.9/lib/sidekiq/processor.rb:76:in `run'
sidekiq-7.3.9/lib/sidekiq/component.rb:10:in `watchdog'
sidekiq-7.3.9/lib/sidekiq/component.rb:19:in `block in safe_thread'

Michael_Liu · 17 أبريل 2025، 1:45ص

شكرًا على هذا التحديث الرائع، فقط لدي استفسار واحد هنا، هل الحد الأقصى 100 ميجابايت لكل روبوت Persona AI أو لجميع الشخصيات؟

pacharanero · 30 أبريل 2025، 9:52م

أنا جديد على Discourse AI ولكني خبير في Discourse بشكل عام.

أتطلع حقًا لتجربة هذا لحالة استخدام محددة في شكل تجريبي في هذه المرحلة.

لقد قمت بتمكين إعداد الموقع المخفي.

لا يوجد شيء في SideKiq يمكنني رؤيته. كيف يمكنني معرفة ما إذا كان يعمل على الإطلاق؟

أنا على علم بأن هذه ميزة إصدار مسبق وليست جاهزة للاستخدام العام بعد، ومع ذلك، سيكون من الرائع أن أتمكن من تجربتها واختبارها.

أتطلع حقًا لأي تلميحات أو نصائح أو لقطات شاشة أو وصفات من الأشخاص الذين يجربون هذا.

Neil_Evans2 · 15 يوليو 2025، 6:18م

أتلقى هذا الخطأ عند مطالبة الروبوت بتلخيص محتويات بعض ملفات PDF على موقعي. لم أقم بتمكين المعالجة المحسّنة، وأستخدم GPT 4.1. أي أفكار حول ما أفعله بشكل خاطئ؟

عذرًا، يبدو أن نظامنا واجه مشكلة غير متوقعة أثناء محاولة الرد.

تفاصيل الخطأ

{
“error”: {
“message”: “يجب أن يتبع رسالة المساعد التي تحتوي على ‘tool_calls’ رسائل أدوات تستجيب لكل ‘tool_call_id’. لم يكن لـ tool_call_ids التالية رسائل استجابة: call_nrDCba5mt83oavbXfPq2BtEV”,
“type”: “invalid_request_error”,
“param”: “messages.[2].role”,
“code”: null
}
}

MachineScholar · 20 أغسطس 2025، 7:12ص

هل لي أن أستفسر عن الوضع الحالي لدعم ملفات PDF؟

MachineScholar · 20 أغسطس 2025، 7:24ص

عندما تقوم بتكوين أحجام التحميل في app.yml، فإنها تكون على مستوى الموقع بأكمله، لذا فهي تنطبق على كل شخصية.

kuaza · 22 نوفمبر 2025، 5:40م

هل هناك أي تحديثات بخصوص هذا الأمر؟ أنا أرفق ملف PDF عند بدء محادثة مع الذكاء الاصطناعي، ولكنه لا يزال لا يتعرف عليه على ما يبدو. أنا أستخدم حاليًا GPT. هل يجب عليّ ربما التفكير في استخدام نموذج مختلف مصمم خصيصًا لمعالجة ملفات PDF؟

الموضوع		الردود	مرات العرض
Will RAG Support PDF Files in the Future? Feature completed , ai , ai-bot	21	783	11 مارس 2025
Upload and discuss pdfs in composer Feature ai	5	303	24 فبراير 2025
Is the PDF upload feature for the new AI Bot UX still in development Support ai , ai-bot	2	144	9 مايو 2025
Using PDF and attachment support with AI bots Site Management how-to , ai , ai-bot	0	348	11 ديسمبر 2025
Allow ChatBot to read PDFs so it can join in a group discussion Feature ai , ai-bot	6	1001	12 أكتوبر 2023