Contenuti del file di indice per la ricerca

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

8 Mi Piace

No plans for this at the moment.

“Anche io”
Anche noi vorremmo che gli allegati (nel nostro caso, i file PDF) fossero indicizzati per il motore di ricerca.

3 Mi Piace

Questa è una funzionalità tipica per clienti enterprise. Non abbiamo piani concreti con una timeline; non sono sicuro di cosa accadrà a Postgres con documenti PDF di grandi dimensioni.

È certamente qualcosa che abbiamo preso in considerazione negli anni e che potremmo affrontare nei prossimi anni.

4 Mi Piace

Curioso se Discourse ha aggiunto la capacità di indicizzare e cercare PDF?

1 Mi Piace

Non ancora, ma molto fattibile da costruire in un plugin.

1 Mi Piace

Quando si sviluppa un plugin del genere: Da dove si inizierebbe? Essendo totalmente nuovo al codice di discourse, probabilmente proverei a collegarmi a UploadCreator, ma potrebbe essere molto sbagliato.

Sviluppare un plugin Discourse che si integri con Paperless sarebbe un buon punto di partenza.

Un plugin del genere sarebbe coinvolto, per usare un eufemismo, come detto in precedenza.

Un plugin come questo richiederebbe che l’API di Discourse consenta la gestione esterna dei documenti. È attualmente disponibile?

Questo plugin richiederebbe l’integrazione con le capacità di ricerca offerte dall’API di Discourse. Sebbene non sia banale, ciò è stato fatto da diversi plugin esistenti, in particolare il plugin discourse/discourse-algolia.

Altre aree da considerare

  • Backup

Questo sarebbe qualcosa su cui mi piacerebbe fare pratica. Ho iniziato esaminando l’ API di Paperless e facendo reverse engineering del progetto discourse/discourse-algolia… ma ci sono altri che si integrano con la ricerca.

Qualche pensiero sulla scelta di Paperless? Mi piace quanto sia attivo il progetto e la quantità di issue che hanno chiuso oltre al numero di issue aperte (attualmente 0).

2 Mi Piace

Questo sarebbe un ENORME miglioramento, specialmente per quei forum che contengono molta documentazione tramite PDF, scansioni o immagini. Se l’ambito di questo si limitasse alla ricerca, allora idealmente sarebbe sufficiente estrarre/creare testo e quindi archiviare quel testo in una colonna in postgres. Quando lo fai, puoi sfruttare la full-text di postgres già in atto.

In Linux, ad esempio, potresti usare pdftotext per estrarre il testo da un PDF e archiviarlo nel DB. Un’altra idea (più costosa) è usare la visione AI per spiegare/estrarre il PDF o l’immagine per archiviarla nel DB.

Pensieri?

2 Mi Piace