محتويات ملف الفهرس للبحث

ahuling · 7 أغسطس 2015، 6:37م

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

codinghorror · 7 أغسطس 2015، 6:47م

No plans for this at the moment.

DDo · 11 يونيو 2020، 7:06ص

“أنا أيضًا”
نود أيضًا فهرسة المرفقات (في حالتنا، ملفات PDF) لمحركات البحث.

sam · 11 يونيو 2020، 7:40ص

هذه الميزة موجهة بشكل كبير للعملاء من فئة المؤسسات. ليس لدينا خطط محددة هنا مع جدول زمني، وأنا غير متأكد مما سيحدث لـ Postgres مع مستندات PDF ضخمة.

بالتأكيد شيء فكرنا فيه على مر السنين وقد نصل إليه خلال السنوات القليلة القادمة.

Craig_Robben · 17 مارس 2022، 8:58م

هل أضاف Discourse القدرة على فهرسة ملفات PDF والبحث فيها بعد؟

sam · 17 مارس 2022، 11:16م

ليس بعد، ولكن من الممكن جدًا بناؤه في إضافة.

avandorp · 29 يونيو 2022، 7:51ص

عند تطوير مثل هذه الإضافة: من أين ستبدأ؟ كوني جديدًا تمامًا على كود discourse، ربما أحاول ربط UploadCreator، لكن هذا قد يكون خاطئًا جدًا.

mjbergman92 · 16 أكتوبر 2024، 5:45م

تطوير إضافة لـ Discourse تتكامل مع Paperless سيكون بداية جيدة.

مثل هذه الإضافة ستكون معقدة، على أقل تقدير، كما ذكرنا سابقًا.

ستتطلب إضافة كهذه أن تسمح واجهة برمجة تطبيقات Discourse بالتعامل الخارجي مع المستندات. هل هذا متاح حاليًا؟

ستتطلب هذه الإضافة التكامل مع إمكانيات البحث التي توفرها واجهة برمجة تطبيقات Discourse. في حين أن هذا ليس بالأمر السهل، فقد تم القيام به بواسطة العديد من الإضافات الحالية، وتحديداً إضافة discourse/discourse-algolia.

مجالات أخرى للنظر فيها

النسخ الاحتياطي

سيكون هذا شيئًا أهتم به شخصيًا لتطوير مهاراتي. لقد بدأت بالاطلاع على واجهة برمجة تطبيقات Paperless إلى جانب الهندسة العكسية لمشروع discourse/discourse-algolia… ولكن هناك إضافات أخرى تتكامل مع البحث.

أي أفكار بخصوص اختيار Paperless؟ أحب مدى نشاط المشروع وعدد المشكلات التي تم إغلاقها بالإضافة إلى عدد المشكلات لديهم (حالياً 0).

dennisjbr · 23 سبتمبر 2025، 5:45ص

سيكون هذا تحسينًا ضخمًا ، خاصة بالنسبة للمنتديات التي تحمل الكثير من الوثائق عبر ملفات PDF أو المسح الضوئي أو الصور. إذا كان نطاق هذا يقتصر على البحث ، فمن المثالي أن تحتاج فقط إلى استخراج / إنشاء نص ثم تخزين هذا النص في عمود في postgres. عند القيام بذلك ، يمكنك الاستفادة من النص الكامل لـ postgres الموجود بالفعل.

في لينكس على سبيل المثال ، يمكنك استخدام pdftotext لاستخراج النص من ملف PDF وتخزينه في قاعدة البيانات. فكرة أخرى (أكثر تكلفة) هي استخدام رؤية الذكاء الاصطناعي لشرح / استخراج ملف PDF أو الصورة للتخزين في قاعدة البيانات.

أفكار؟

dennisjbr · 21 أبريل 2026، 7:34ص

لذا، لقد كنت أبحث في هذا الأمر، وأقوم بإعداد مخطط هيكلي (باستخدام الذكاء الاصطناعي) حول أفضل طريقة لتحقيق ذلك. هناك عدة أفكار تتبادر إلى ذهني. استخدام Apache TIKA سيسمح لنا بإجراء التعرف الضوئي على الحروف (OCR) تقريبًا لأي نوع من الملفات التي تحتوي على نصوص، بما في ذلك الصور. سيكون هذا خيارًا مستضافًا ذاتيًا. أو: استخدام Gemini Flash 1.5 (على سبيل المثال) ليس فقط لأداء التعرف الضوئي على الحروف، بل أيضًا لوصف الصور التي يتم رؤيتها وتحليلها، ثم نشر هذه البيانات في جدول/عمود PostgreSQL للبحث. بالطبع، يتطلب هذا استثمارًا كبيرًا في الرموز (tokens) مسبقًا لإعادة معالجة جميع المنشورات المرفقة/المحملة، لكنه سيكون الأكثر فائدة. أعتقد أنك تحصل على ما تدفع ثمنه؟

الموضوع		الردود	مرات العرض
Index PDFs for search Support	1	389	7 أكتوبر 2023
Searchable File Attachments Feature	12	2885	3 مايو 2022
Add support for searching pdf files in forum topics from AI personas Feature	3	139	12 ديسمبر 2025
Browser-based PDF Viewer with search and highlighting capabilities Feature	9	2621	15 ديسمبر 2020
Upload and discuss pdfs in composer Feature ai	5	301	24 فبراير 2025

محتويات ملف الفهرس للبحث

الموضوعات ذات الصلة