Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.
Any plans for this?
Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.
Any plans for this?
No plans for this at the moment.
“أنا أيضًا”
نود أيضًا فهرسة المرفقات (في حالتنا، ملفات PDF) لمحركات البحث.
هذه الميزة موجهة بشكل كبير للعملاء من فئة المؤسسات. ليس لدينا خطط محددة هنا مع جدول زمني، وأنا غير متأكد مما سيحدث لـ Postgres مع مستندات PDF ضخمة.
بالتأكيد شيء فكرنا فيه على مر السنين وقد نصل إليه خلال السنوات القليلة القادمة.
ليس بعد، ولكن من الممكن جدًا بناؤه في إضافة.
عند تطوير مثل هذه الإضافة: من أين ستبدأ؟ كوني جديدًا تمامًا على كود discourse، ربما أحاول ربط UploadCreator، لكن هذا قد يكون خاطئًا جدًا.
تطوير إضافة لـ Discourse تتكامل مع Paperless سيكون بداية جيدة.
مثل هذه الإضافة ستكون معقدة، على أقل تقدير، كما ذكرنا سابقًا.
ستتطلب إضافة كهذه أن تسمح واجهة برمجة تطبيقات Discourse بالتعامل الخارجي مع المستندات. هل هذا متاح حاليًا؟
ستتطلب هذه الإضافة التكامل مع إمكانيات البحث التي توفرها واجهة برمجة تطبيقات Discourse. في حين أن هذا ليس بالأمر السهل، فقد تم القيام به بواسطة العديد من الإضافات الحالية، وتحديداً إضافة discourse/discourse-algolia.
مجالات أخرى للنظر فيها
سيكون هذا شيئًا أهتم به شخصيًا لتطوير مهاراتي. لقد بدأت بالاطلاع على واجهة برمجة تطبيقات Paperless إلى جانب الهندسة العكسية لمشروع discourse/discourse-algolia… ولكن هناك إضافات أخرى تتكامل مع البحث.
أي أفكار بخصوص اختيار Paperless؟ أحب مدى نشاط المشروع وعدد المشكلات التي تم إغلاقها بالإضافة إلى عدد المشكلات لديهم (حالياً 0).
سيكون هذا تحسينًا ضخمًا ، خاصة بالنسبة للمنتديات التي تحمل الكثير من الوثائق عبر ملفات PDF أو المسح الضوئي أو الصور. إذا كان نطاق هذا يقتصر على البحث ، فمن المثالي أن تحتاج فقط إلى استخراج / إنشاء نص ثم تخزين هذا النص في عمود في postgres. عند القيام بذلك ، يمكنك الاستفادة من النص الكامل لـ postgres الموجود بالفعل.
في لينكس على سبيل المثال ، يمكنك استخدام pdftotext لاستخراج النص من ملف PDF وتخزينه في قاعدة البيانات. فكرة أخرى (أكثر تكلفة) هي استخدام رؤية الذكاء الاصطناعي لشرح / استخراج ملف PDF أو الصورة للتخزين في قاعدة البيانات.
أفكار؟