Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.
Any plans for this?
Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.
Any plans for this?
No plans for this at the moment.
“Me, too”
We’d like to have attachments (in our case, PDF’s) indexed for the search engine, too.
This is very much an enterprise customer type feature. We don’t have concrete plans here with a timeline, I am uncertain what would happen to Postgres with huge PDF documents.
Certainly something we have thought about over the years and may get to over the next few years.
Ich bin neugierig, ob Discourse bereits die Möglichkeit hinzugefügt hat, PDFs zu indizieren und zu durchsuchen?
Noch nicht, aber sehr gut in einem Plugin umsetzbar.
Wenn Sie ein solches Plugin entwickeln: Wo würden Sie anfangen? Da ich den Discourse-Code völlig neu bin, würde ich wahrscheinlich versuchen, mich in UploadCreator einzuhaken, aber das könnte sehr falsch sein.
Die Entwicklung eines Discourse-Plugins, das sich in Paperless integriert, wäre ein guter Anfang.
Ein solches Plugin wäre, wie bereits erwähnt, mindestens aufwendig.
Ein Plugin wie dieses würde erfordern, dass die Discourse-API die externe Handhabung von Dokumenten erlaubt. Ist das derzeit verfügbar?
Dieses Plugin würde eine Integration mit den Suchfunktionen der Discourse-API erfordern. Obwohl dies nicht trivial ist, wurde dies bereits von mehreren bestehenden Plugins durchgeführt, nämlich dem discourse/discourse-algolia-Plugin.
Andere zu berücksichtigende Bereiche
Dies wäre etwas, woran ich persönlich gerne meine Zähne ausbeißen würde. Ich habe damit begonnen, mir die Paperless API anzusehen und das Projekt discourse/discourse-algolia zu reverse-engineeren… aber es gibt auch andere, die sich in die Suche integrieren.
Gibt es Gedanken zur Wahl von Paperless? Mir gefällt, wie aktiv das Projekt ist und wie viele Issues sie geschlossen haben, zusätzlich zur Anzahl der offenen Issues (derzeit 0).
Dies wäre eine RIESIGE Verbesserung, insbesondere für Foren, die viele Dokumentationen über PDFs, Scans oder Bilder enthalten. Wenn sich der Umfang auf die Suche beschränkt, müssten Sie idealerweise nur Text extrahieren/erstellen und diesen Text dann in einer Spalte in PostgreSQL speichern. Wenn Sie das tun, können Sie die bereits vorhandene Volltextsuche von PostgreSQL nutzen.
Unter Linux könnten Sie beispielsweise pdftotext verwenden, um den Text aus einer PDF-Datei zu extrahieren und in der Datenbank zu speichern. Eine weitere (teurere) Idee ist die Verwendung von KI-Vision, um die PDF oder das Bild zu erklären/extrahieren und in der Datenbank zu speichern.
Gedanken dazu?