Contenuti del file di indice per la ricerca

ahuling · 7 Agosto 2015, 6:37pm

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

codinghorror · 7 Agosto 2015, 6:47pm

No plans for this at the moment.

DDo · 11 Giugno 2020, 7:06am

“Anche io”
Anche noi vorremmo che gli allegati (nel nostro caso, i file PDF) fossero indicizzati per il motore di ricerca.

sam · 11 Giugno 2020, 7:40am

Questa è una funzionalità tipica per clienti enterprise. Non abbiamo piani concreti con una timeline; non sono sicuro di cosa accadrà a Postgres con documenti PDF di grandi dimensioni.

È certamente qualcosa che abbiamo preso in considerazione negli anni e che potremmo affrontare nei prossimi anni.

Craig_Robben · 17 Marzo 2022, 8:58pm

Curioso se Discourse ha aggiunto la capacità di indicizzare e cercare PDF?

sam · 17 Marzo 2022, 11:16pm

Non ancora, ma molto fattibile da costruire in un plugin.

avandorp · 29 Giugno 2022, 7:51am

Quando si sviluppa un plugin del genere: Da dove si inizierebbe? Essendo totalmente nuovo al codice di discourse, probabilmente proverei a collegarmi a UploadCreator, ma potrebbe essere molto sbagliato.

mjbergman92 · 16 Ottobre 2024, 5:45pm

Sviluppare un plugin Discourse che si integri con Paperless sarebbe un buon punto di partenza.

Un plugin del genere sarebbe coinvolto, per usare un eufemismo, come detto in precedenza.

Un plugin come questo richiederebbe che l’API di Discourse consenta la gestione esterna dei documenti. È attualmente disponibile?

Questo plugin richiederebbe l’integrazione con le capacità di ricerca offerte dall’API di Discourse. Sebbene non sia banale, ciò è stato fatto da diversi plugin esistenti, in particolare il plugin discourse/discourse-algolia.

Altre aree da considerare

Backup

Questo sarebbe qualcosa su cui mi piacerebbe fare pratica. Ho iniziato esaminando l’ API di Paperless e facendo reverse engineering del progetto discourse/discourse-algolia… ma ci sono altri che si integrano con la ricerca.

Qualche pensiero sulla scelta di Paperless? Mi piace quanto sia attivo il progetto e la quantità di issue che hanno chiuso oltre al numero di issue aperte (attualmente 0).

dennisjbr · 23 Settembre 2025, 5:45am

Questo sarebbe un ENORME miglioramento, specialmente per quei forum che contengono molta documentazione tramite PDF, scansioni o immagini. Se l’ambito di questo si limitasse alla ricerca, allora idealmente sarebbe sufficiente estrarre/creare testo e quindi archiviare quel testo in una colonna in postgres. Quando lo fai, puoi sfruttare la full-text di postgres già in atto.

In Linux, ad esempio, potresti usare pdftotext per estrarre il testo da un PDF e archiviarlo nel DB. Un’altra idea (più costosa) è usare la visione AI per spiegare/estrarre il PDF o l’immagine per archiviarla nel DB.

Pensieri?

dennisjbr · 21 Aprile 2026, 7:34am

Quindi, ho esaminato la questione e ho preparato una bozza (con l’aiuto dell’IA) su come raggiungere al meglio questo obiettivo. Mi vengono in mente alcune idee. Utilizzare Apache TIKA ci permetterebbe di eseguire l’OCR su quasi tutti i tipi di file contenenti testo, comprese le immagini. Sarebbe un’opzione self-hosted. E/O: Utilizzare Gemini Flash 1.5 (ad esempio) non solo per eseguire l’OCR, ma anche per descrivere le immagini analizzate, per poi archiviare tali dati in una colonna di una tabella PostgreSQL per la ricerca. Naturalmente, questo richiede un investimento significativo di token in anticipo per rielaborare tutti i post con allegati/caricamenti, ma sarebbe il più utile. Immagino che si ottiene ciò per cui si paga?

Argomento		Risposte	Visualizzazioni
Index PDFs for search Support	1	389	Ottobre 7, 2023
Searchable File Attachments Feature	12	2885	Maggio 3, 2022
Add support for searching pdf files in forum topics from AI personas Feature	3	140	Dicembre 12, 2025
Browser-based PDF Viewer with search and highlighting capabilities Feature	9	2621	Dicembre 15, 2020
Upload and discuss pdfs in composer Feature ai	5	303	Febbraio 24, 2025

Contenuti del file di indice per la ricerca

Argomenti correlati