Contenido del archivo index para búsqueda

ahuling · 7 Agosto, 2015 18:37

Right now, file names are indexed for search but the contents are not. It would be nice if the contents of files were also indexed, at least for the most common text-based files types, e.g. txt, pdf, doc, xls, csv, etc.

Any plans for this?

codinghorror · 7 Agosto, 2015 18:47

No plans for this at the moment.

DDo · 11 Junio, 2020 07:06

“Yo también”
Nos gustaría que los archivos adjuntos (en nuestro caso, PDFs) también fueran indexados por el motor de búsqueda.

sam · 11 Junio, 2020 07:40

Esta es una característica claramente orientada a clientes empresariales. No tenemos planes concretos con una línea de tiempo definida; no estoy seguro de qué sucedería con Postgres al manejar documentos PDF muy grandes.

Ciertamente, es algo que hemos considerado a lo largo de los años y que podríamos abordar en los próximos años.

Craig_Robben · 17 Marzo, 2022 20:58

¿Ya añadió Discourse la capacidad de indexar y buscar archivos PDF?

sam · 17 Marzo, 2022 23:16

Todavía no, pero es muy factible construirlo en un plugin.

avandorp · 29 Junio, 2022 07:51

Al desarrollar un plugin así: ¿Por dónde empezarías? Al ser totalmente nuevo en el código de Discourse, probablemente intentaría conectarme a UploadCreator, pero eso podría estar muy mal.

mjbergman92 · 16 Octubre, 2024 17:45

Desarrollar un plugin de Discourse que se integre con Paperless sería un buen comienzo.

Dicho plugin sería complicado, por decir lo menos, como se mencionó anteriormente.

Un plugin como este requeriría que la API de Discourse permita el manejo externo de documentos. ¿Está eso disponible actualmente?

Este plugin requeriría la integración con las capacidades de búsqueda que ofrece la API de Discourse. Si bien esto no es trivial, ya ha sido realizado por varios plugins existentes, a saber, el plugin discourse/discourse-algolia.

Otras áreas a considerar

Copias de seguridad

Esto sería algo en lo que personalmente estaría interesado en empezar. He comenzado por mirar la API de Paperless junto con la ingeniería inversa del proyecto discourse/discourse-algolia… pero hay otros que se integran con la búsqueda.

¿Alguna opinión sobre la elección de Paperless? Me gusta lo activo que es el proyecto y la cantidad de incidencias que han cerrado además del número de incidencias abiertas (actualmente 0).

dennisjbr · 23 Septiembre, 2025 05:45

Esto sería una ENORME mejora, especialmente para aquellos foros que contienen mucha documentación a través de PDFs, escaneos o imágenes. Si el alcance de esto se limita a la búsqueda, entonces idealmente solo necesitaría extraer/crear texto y luego almacenar ese texto en una columna en postgres. Cuando haga eso, podrá aprovechar el texto completo de postgres ya implementado.

En Linux, por ejemplo, podría usar pdftotext para extraer el texto de un PDF y almacenarlo en la base de datos. Otra idea (más costosa) es usar IA de visión para explicar/extraer el PDF o la imagen para almacenarla en la base de datos.

¿Opiniones?

dennisjbr · 21 Abril, 2026 07:34

Así que he estado investigando esto y he preparado un esquema (con ayuda de IA) sobre cómo lograrlo de la mejor manera. Se me ocurren algunas ideas. Usar Apache TIKA nos permitiría realizar OCR en casi cualquier tipo de archivo que contenga texto, incluidas las imágenes. Sería una opción autoalojada. O bien: usar Gemini Flash 1.5 (por ejemplo) no solo para realizar OCR, sino también para describir las imágenes que se ven y analizan, y luego guardar esos datos en una tabla/columna de PostgreSQL para su búsqueda. Por supuesto, esto requiere una inversión considerable de tokens por adelantado para volver a procesar todas las publicaciones con archivos adjuntos o subidas, pero sería lo más útil. Supongo que obtienes lo que pagas.

Tema		Respuestas	Vistas
Index PDFs for search Support	1	389	7 Octubre 2023
Searchable File Attachments Feature	12	2885	3 Mayo 2022
Add support for searching pdf files in forum topics from AI personas Feature	3	140	12 Diciembre 2025
Browser-based PDF Viewer with search and highlighting capabilities Feature	9	2621	15 Diciembre 2020
Upload and discuss pdfs in composer Feature ai	5	303	24 Febrero 2025

Contenido del archivo index para búsqueda

Temas relacionados