محتويات ملف الفهرس للبحث

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

8 إعجابات

No plans for this at the moment.

“Me, too”
We’d like to have attachments (in our case, PDF’s) indexed for the search engine, too.

3 إعجابات

This is very much an enterprise customer type feature. We don’t have concrete plans here with a timeline, I am uncertain what would happen to Postgres with huge PDF documents.

Certainly something we have thought about over the years and may get to over the next few years.

4 إعجابات

هل أضاف Discourse القدرة على فهرسة ملفات PDF والبحث فيها بعد؟

إعجاب واحد (1)

ليس بعد، ولكن من الممكن جدًا بناؤه في إضافة.

إعجاب واحد (1)

عند تطوير مثل هذه الإضافة: من أين ستبدأ؟ كوني جديدًا تمامًا على كود discourse، ربما أحاول ربط UploadCreator، لكن هذا قد يكون خاطئًا جدًا.

تطوير إضافة لـ Discourse تتكامل مع Paperless سيكون بداية جيدة.

مثل هذه الإضافة ستكون معقدة، على أقل تقدير، كما ذكرنا سابقًا.

ستتطلب إضافة كهذه أن تسمح واجهة برمجة تطبيقات Discourse بالتعامل الخارجي مع المستندات. هل هذا متاح حاليًا؟

ستتطلب هذه الإضافة التكامل مع إمكانيات البحث التي توفرها واجهة برمجة تطبيقات Discourse. في حين أن هذا ليس بالأمر السهل، فقد تم القيام به بواسطة العديد من الإضافات الحالية، وتحديداً إضافة discourse/discourse-algolia.

مجالات أخرى للنظر فيها

  • النسخ الاحتياطي

سيكون هذا شيئًا أهتم به شخصيًا لتطوير مهاراتي. لقد بدأت بالاطلاع على واجهة برمجة تطبيقات Paperless إلى جانب الهندسة العكسية لمشروع discourse/discourse-algolia… ولكن هناك إضافات أخرى تتكامل مع البحث.

أي أفكار بخصوص اختيار Paperless؟ أحب مدى نشاط المشروع وعدد المشكلات التي تم إغلاقها بالإضافة إلى عدد المشكلات لديهم (حالياً 0).

إعجابَين (2)

سيكون هذا تحسينًا ضخمًا ، خاصة بالنسبة للمنتديات التي تحمل الكثير من الوثائق عبر ملفات PDF أو المسح الضوئي أو الصور. إذا كان نطاق هذا يقتصر على البحث ، فمن المثالي أن تحتاج فقط إلى استخراج / إنشاء نص ثم تخزين هذا النص في عمود في postgres. عند القيام بذلك ، يمكنك الاستفادة من النص الكامل لـ postgres الموجود بالفعل.

في لينكس على سبيل المثال ، يمكنك استخدام pdftotext لاستخراج النص من ملف PDF وتخزينه في قاعدة البيانات. فكرة أخرى (أكثر تكلفة) هي استخدام رؤية الذكاء الاصطناعي لشرح / استخراج ملف PDF أو الصورة للتخزين في قاعدة البيانات.

أفكار؟

إعجابَين (2)