Contenido del archivo index para búsqueda

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

8 Me gusta

No plans for this at the moment.

“Me, too”
We’d like to have attachments (in our case, PDF’s) indexed for the search engine, too.

3 Me gusta

This is very much an enterprise customer type feature. We don’t have concrete plans here with a timeline, I am uncertain what would happen to Postgres with huge PDF documents.

Certainly something we have thought about over the years and may get to over the next few years.

4 Me gusta

¿Ya añadió Discourse la capacidad de indexar y buscar archivos PDF?

1 me gusta

Todavía no, pero es muy factible construirlo en un plugin.

1 me gusta

Al desarrollar un plugin así: ¿Por dónde empezarías? Al ser totalmente nuevo en el código de Discourse, probablemente intentaría conectarme a UploadCreator, pero eso podría estar muy mal.

Desarrollar un plugin de Discourse que se integre con Paperless sería un buen comienzo.

Dicho plugin sería complicado, por decir lo menos, como se mencionó anteriormente.

Un plugin como este requeriría que la API de Discourse permita el manejo externo de documentos. ¿Está eso disponible actualmente?

Este plugin requeriría la integración con las capacidades de búsqueda que ofrece la API de Discourse. Si bien esto no es trivial, ya ha sido realizado por varios plugins existentes, a saber, el plugin discourse/discourse-algolia.

Otras áreas a considerar

  • Copias de seguridad

Esto sería algo en lo que personalmente estaría interesado en empezar. He comenzado por mirar la API de Paperless junto con la ingeniería inversa del proyecto discourse/discourse-algolia… pero hay otros que se integran con la búsqueda.

¿Alguna opinión sobre la elección de Paperless? Me gusta lo activo que es el proyecto y la cantidad de incidencias que han cerrado además del número de incidencias abiertas (actualmente 0).

2 Me gusta

Esto sería una ENORME mejora, especialmente para aquellos foros que contienen mucha documentación a través de PDFs, escaneos o imágenes. Si el alcance de esto se limita a la búsqueda, entonces idealmente solo necesitaría extraer/crear texto y luego almacenar ese texto en una columna en postgres. Cuando haga eso, podrá aprovechar el texto completo de postgres ya implementado.

En Linux, por ejemplo, podría usar pdftotext para extraer el texto de un PDF y almacenarlo en la base de datos. Otra idea (más costosa) es usar IA de visión para explicar/extraer el PDF o la imagen para almacenarla en la base de datos.

¿Opiniones?

2 Me gusta