Inhaltsverzeichnis der Indexdatei für die Suche

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

8 „Gefällt mir“

No plans for this at the moment.

“Me, too”
We’d like to have attachments (in our case, PDF’s) indexed for the search engine, too.

3 „Gefällt mir“

This is very much an enterprise customer type feature. We don’t have concrete plans here with a timeline, I am uncertain what would happen to Postgres with huge PDF documents.

Certainly something we have thought about over the years and may get to over the next few years.

4 „Gefällt mir“

Ich bin neugierig, ob Discourse bereits die Möglichkeit hinzugefügt hat, PDFs zu indizieren und zu durchsuchen?

1 „Gefällt mir“

Noch nicht, aber sehr gut in einem Plugin umsetzbar.

1 „Gefällt mir“

Wenn Sie ein solches Plugin entwickeln: Wo würden Sie anfangen? Da ich den Discourse-Code völlig neu bin, würde ich wahrscheinlich versuchen, mich in UploadCreator einzuhaken, aber das könnte sehr falsch sein.

Die Entwicklung eines Discourse-Plugins, das sich in Paperless integriert, wäre ein guter Anfang.

Ein solches Plugin wäre, wie bereits erwähnt, mindestens aufwendig.

Ein Plugin wie dieses würde erfordern, dass die Discourse-API die externe Handhabung von Dokumenten erlaubt. Ist das derzeit verfügbar?

Dieses Plugin würde eine Integration mit den Suchfunktionen der Discourse-API erfordern. Obwohl dies nicht trivial ist, wurde dies bereits von mehreren bestehenden Plugins durchgeführt, nämlich dem discourse/discourse-algolia-Plugin.

Andere zu berücksichtigende Bereiche

  • Backups

Dies wäre etwas, woran ich persönlich gerne meine Zähne ausbeißen würde. Ich habe damit begonnen, mir die Paperless API anzusehen und das Projekt discourse/discourse-algolia zu reverse-engineeren… aber es gibt auch andere, die sich in die Suche integrieren.

Gibt es Gedanken zur Wahl von Paperless? Mir gefällt, wie aktiv das Projekt ist und wie viele Issues sie geschlossen haben, zusätzlich zur Anzahl der offenen Issues (derzeit 0).

2 „Gefällt mir“

Dies wäre eine RIESIGE Verbesserung, insbesondere für Foren, die viele Dokumentationen über PDFs, Scans oder Bilder enthalten. Wenn sich der Umfang auf die Suche beschränkt, müssten Sie idealerweise nur Text extrahieren/erstellen und diesen Text dann in einer Spalte in PostgreSQL speichern. Wenn Sie das tun, können Sie die bereits vorhandene Volltextsuche von PostgreSQL nutzen.

Unter Linux könnten Sie beispielsweise pdftotext verwenden, um den Text aus einer PDF-Datei zu extrahieren und in der Datenbank zu speichern. Eine weitere (teurere) Idee ist die Verwendung von KI-Vision, um die PDF oder das Bild zu erklären/extrahieren und in der Datenbank zu speichern.

Gedanken dazu?

2 „Gefällt mir“