Inhaltsverzeichnis der Indexdatei für die Suche

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

8 „Gefällt mir“

No plans for this at the moment.

“Ich auch”
Wir möchten, dass auch Anhänge (in unserem Fall PDFs) für die Suchmaschine indiziert werden.

3 „Gefällt mir“

Dies ist eindeutig eine Funktion für Enterprise-Kunden. Wir haben hier keine konkreten Pläne mit einem Zeitplan; ich bin unsicher, was mit Postgres bei riesigen PDF-Dokumenten passieren würde.

Das ist etwas, das wir im Laufe der Jahre bedacht haben und das wir in den nächsten Jahren möglicherweise umsetzen werden.

4 „Gefällt mir“

Ich bin neugierig, ob Discourse bereits die Möglichkeit hinzugefügt hat, PDFs zu indizieren und zu durchsuchen?

1 „Gefällt mir“

Noch nicht, aber sehr gut in einem Plugin umsetzbar.

1 „Gefällt mir“

Wenn Sie ein solches Plugin entwickeln: Wo würden Sie anfangen? Da ich den Discourse-Code völlig neu bin, würde ich wahrscheinlich versuchen, mich in UploadCreator einzuhaken, aber das könnte sehr falsch sein.

Die Entwicklung eines Discourse-Plugins, das sich in Paperless integriert, wäre ein guter Anfang.

Ein solches Plugin wäre, wie bereits erwähnt, mindestens aufwendig.

Ein Plugin wie dieses würde erfordern, dass die Discourse-API die externe Handhabung von Dokumenten erlaubt. Ist das derzeit verfügbar?

Dieses Plugin würde eine Integration mit den Suchfunktionen der Discourse-API erfordern. Obwohl dies nicht trivial ist, wurde dies bereits von mehreren bestehenden Plugins durchgeführt, nämlich dem discourse/discourse-algolia-Plugin.

Andere zu berücksichtigende Bereiche

  • Backups

Dies wäre etwas, woran ich persönlich gerne meine Zähne ausbeißen würde. Ich habe damit begonnen, mir die Paperless API anzusehen und das Projekt discourse/discourse-algolia zu reverse-engineeren… aber es gibt auch andere, die sich in die Suche integrieren.

Gibt es Gedanken zur Wahl von Paperless? Mir gefällt, wie aktiv das Projekt ist und wie viele Issues sie geschlossen haben, zusätzlich zur Anzahl der offenen Issues (derzeit 0).

2 „Gefällt mir“

Dies wäre eine RIESIGE Verbesserung, insbesondere für Foren, die viele Dokumentationen über PDFs, Scans oder Bilder enthalten. Wenn sich der Umfang auf die Suche beschränkt, müssten Sie idealerweise nur Text extrahieren/erstellen und diesen Text dann in einer Spalte in PostgreSQL speichern. Wenn Sie das tun, können Sie die bereits vorhandene Volltextsuche von PostgreSQL nutzen.

Unter Linux könnten Sie beispielsweise pdftotext verwenden, um den Text aus einer PDF-Datei zu extrahieren und in der Datenbank zu speichern. Eine weitere (teurere) Idee ist die Verwendung von KI-Vision, um die PDF oder das Bild zu erklären/extrahieren und in der Datenbank zu speichern.

Gedanken dazu?

2 „Gefällt mir“