Inhaltsverzeichnis der Indexdatei für die Suche

ahuling · 7. August 2015 um 18:37

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

codinghorror · 7. August 2015 um 18:47

No plans for this at the moment.

DDo · 11. Juni 2020 um 07:06

“Ich auch”
Wir möchten, dass auch Anhänge (in unserem Fall PDFs) für die Suchmaschine indiziert werden.

sam · 11. Juni 2020 um 07:40

Dies ist eindeutig eine Funktion für Enterprise-Kunden. Wir haben hier keine konkreten Pläne mit einem Zeitplan; ich bin unsicher, was mit Postgres bei riesigen PDF-Dokumenten passieren würde.

Das ist etwas, das wir im Laufe der Jahre bedacht haben und das wir in den nächsten Jahren möglicherweise umsetzen werden.

Craig_Robben · 17. März 2022 um 20:58

Ich bin neugierig, ob Discourse bereits die Möglichkeit hinzugefügt hat, PDFs zu indizieren und zu durchsuchen?

sam · 17. März 2022 um 23:16

Noch nicht, aber sehr gut in einem Plugin umsetzbar.

avandorp · 29. Juni 2022 um 07:51

Wenn Sie ein solches Plugin entwickeln: Wo würden Sie anfangen? Da ich den Discourse-Code völlig neu bin, würde ich wahrscheinlich versuchen, mich in UploadCreator einzuhaken, aber das könnte sehr falsch sein.

mjbergman92 · 16. Oktober 2024 um 17:45

Die Entwicklung eines Discourse-Plugins, das sich in Paperless integriert, wäre ein guter Anfang.

Ein solches Plugin wäre, wie bereits erwähnt, mindestens aufwendig.

Ein Plugin wie dieses würde erfordern, dass die Discourse-API die externe Handhabung von Dokumenten erlaubt. Ist das derzeit verfügbar?

Dieses Plugin würde eine Integration mit den Suchfunktionen der Discourse-API erfordern. Obwohl dies nicht trivial ist, wurde dies bereits von mehreren bestehenden Plugins durchgeführt, nämlich dem discourse/discourse-algolia-Plugin.

Andere zu berücksichtigende Bereiche

Backups

Dies wäre etwas, woran ich persönlich gerne meine Zähne ausbeißen würde. Ich habe damit begonnen, mir die Paperless API anzusehen und das Projekt discourse/discourse-algolia zu reverse-engineeren… aber es gibt auch andere, die sich in die Suche integrieren.

Gibt es Gedanken zur Wahl von Paperless? Mir gefällt, wie aktiv das Projekt ist und wie viele Issues sie geschlossen haben, zusätzlich zur Anzahl der offenen Issues (derzeit 0).

dennisjbr · 23. September 2025 um 05:45

Dies wäre eine RIESIGE Verbesserung, insbesondere für Foren, die viele Dokumentationen über PDFs, Scans oder Bilder enthalten. Wenn sich der Umfang auf die Suche beschränkt, müssten Sie idealerweise nur Text extrahieren/erstellen und diesen Text dann in einer Spalte in PostgreSQL speichern. Wenn Sie das tun, können Sie die bereits vorhandene Volltextsuche von PostgreSQL nutzen.

Unter Linux könnten Sie beispielsweise pdftotext verwenden, um den Text aus einer PDF-Datei zu extrahieren und in der Datenbank zu speichern. Eine weitere (teurere) Idee ist die Verwendung von KI-Vision, um die PDF oder das Bild zu erklären/extrahieren und in der Datenbank zu speichern.

Gedanken dazu?

dennisjbr · 21. April 2026 um 07:34

Also, ich habe mich damit beschäftigt und (mit KI) ein Wireframe erstellt, wie man das am besten umsetzt. Dazu fallen mir ein paar Ideen ein. Die Nutzung von Apache Tika würde es uns ermöglichen, fast alle Dateitypen mit Text, einschließlich Bilder, per OCR zu verarbeiten. Das wäre eine selbst gehostete Option. Und/oder: Gemini Flash 1.5 (zum Beispiel) nutzen, um nicht nur OCR durchzuführen, sondern auch gesehene und analysierte Bilder zu beschreiben und diese Daten dann in einer PostgreSQL-Tabelle/-Spalte zur Suche abzulegen. Natürlich erfordert dies eine beträchtliche Investition an Tokens im Voraus, um alle Beiträge mit Anhängen/Uploads neu zu verarbeiten, aber es wäre am nützlichsten. Ich vermute, man bekommt, wofür man bezahlt?

Thema		Antworten	Aufrufe
Index PDFs for search Support	1	389	7. Oktober 2023
Searchable File Attachments Feature	12	2885	3. Mai 2022
Add support for searching pdf files in forum topics from AI personas Feature	3	140	12. Dezember 2025
Browser-based PDF Viewer with search and highlighting capabilities Feature	9	2621	15. Dezember 2020
Upload and discuss pdfs in composer Feature ai	5	303	24. Februar 2025

Inhaltsverzeichnis der Indexdatei für die Suche

Verwandte Themen