¿RAG soportará archivos PDF en el futuro?

silvacarl · 30 Septiembre, 2024 17:35

Primero, ¡tu IA es genial!

Segundo, si publicamos archivos PDF, Word o PowerPoint en nuestro foro, ¿también los leerá y los dividirá en vectores para RAG?

sam · 1 Octubre, 2024 05:38

Lamentablemente, todavía no tenemos soporte para PDF, es algo en lo que estamos pensando. Admitimos archivos TXT en nuestra implementación de Persona y Tool RAG. Por lo tanto, siempre que pueda convertir el material de origen a archivos de texto, podrá consumirlo en una persona.

silvacarl · 7 Octubre, 2024 20:39

Sí, eso es lo que hicimos, convertimos los archivos adjuntos a texto y los asociamos con cada tema.

Saif · 8 Octubre, 2024 14:54

Hemos visto este comentario algunas veces y estamos considerando expandir el soporte de extensiones en el futuro a través de nuestra personalidad de bot de IA y la implementación de Tool RAG.

silvacarl · 8 Octubre, 2024 18:43

Como solución provisional por ahora, simplemente convertimos el archivo de PowerPoint, Word o PDF a texto y lo adjuntamos al mismo tema al que pertenece.

MachineScholar · 12 Noviembre, 2024 16:04

¡El soporte para PDF sería un gran avance para muchas comunidades! Dado que parece ser un estándar universal para documentos, a menudo tenemos que reformatear cosas a .txt para RAG, lo que realmente consume mucho tiempo

Saif · 12 Noviembre, 2024 19:26

Estamos terminando un trabajo en Embeddings y, tan pronto como eso se complete, lo próximo será agregar soporte para PDF.

satonotdead · 12 Noviembre, 2024 22:27

Vaya, eso es súper bueno. ¡Felicitaciones al equipo que siempre tiene en cuenta lo que la comunidad necesita!

¿Qué pasa con los archivos JSON? Tengo un montón de chats de Discord exportados que necesitamos consultar dentro de la IA para no perder esta información

Estaba pensando en ajustar modelos, pero creo que añadir los archivos a Discourse sería mejor y más simple para todos con un caso de uso similar.

sam · 13 Noviembre, 2024 00:11

JSON es solo texto, así que ya lo soportamos.

Es una representación ineficiente para los LLM dado el gran volumen de duplicación dentro del formato, por lo que desperdiciaría algunos tokens, pero en general funcionará. Recomendaría ejecutar un script sobre él y reformatearlo para mejorar el rendimiento de RAG.

Es muy difícil hacer esto automáticamente porque JSON puede estar muy anidado y elegir una representación de texto específica del dominio perfecta depende en gran medida del dominio.

satonotdead · 15 Noviembre, 2024 21:45

Gracias Sam, ¿puedo preguntar sobre tu sugerencia para mantener un rendimiento+precio equilibrado al agregar ~150 MB de JSON (en PDF)?

Es la primera vez que utilizo RAG con nuestros datos y pronto empezaré a aprender sobre el proceso.

Agradezco cualquier información de la comunidad también.

MachineScholar · 14 Febrero, 2025 10:19

Debo decir que este commit se ve bastante hermoso

github.com/discourse/discourse-ai

FEATURE: PDF support for rag pipeline (#1118)

committed 01:15AM - 14 Feb 25 UTC

SamSaffron

+1329 -141

This PR introduces several enhancements and refactorings to the AI Persona and R…AG (Retrieval-Augmented Generation) functionalities within the discourse-ai plugin. Here's a breakdown of the changes: **1. LLM Model Association for RAG and Personas:** - **New Database Columns:** Adds `rag_llm_model_id` to both `ai_personas` and `ai_tools` tables. This allows specifying a dedicated LLM for RAG indexing, separate from the persona's primary LLM. Adds `default_llm_id` and `question_consolidator_llm_id` to `ai_personas`. - **Migration:** Includes a migration (`20250210032345_migrate_persona_to_llm_model_id.rb`) to populate the new `default_llm_id` and `question_consolidator_llm_id` columns in `ai_personas` based on the existing `default_llm` and `question_consolidator_llm` string columns, and a post migration to remove the latter. - **Model Changes:** The `AiPersona` and `AiTool` models now `belong_to` an `LlmModel` via `rag_llm_model_id`. The `LlmModel.proxy` method now accepts an `LlmModel` instance instead of just an identifier. `AiPersona` now has `default_llm_id` and `question_consolidator_llm_id` attributes. - **UI Updates:** The AI Persona and AI Tool editors in the admin panel now allow selecting an LLM for RAG indexing (if PDF/image support is enabled). The RAG options component displays an LLM selector. - **Serialization:** The serializers (`AiCustomToolSerializer`, `AiCustomToolListSerializer`, `LocalizedAiPersonaSerializer`) have been updated to include the new `rag_llm_model_id`, `default_llm_id` and `question_consolidator_llm_id` attributes. **2. PDF and Image Support for RAG:** - **Site Setting:** Introduces a new hidden site setting, `ai_rag_pdf_images_enabled`, to control whether PDF and image files can be indexed for RAG. This defaults to `false`. - **File Upload Validation:** The `RagDocumentFragmentsController` now checks the `ai_rag_pdf_images_enabled` setting and allows PDF, PNG, JPG, and JPEG files if enabled. Error handling is included for cases where PDF/image indexing is attempted with the setting disabled. - **PDF Processing:** Adds a new utility class, `DiscourseAi::Utils::PdfToImages`, which uses ImageMagick (`magick`) to convert PDF pages into individual PNG images. A maximum PDF size and conversion timeout are enforced. - **Image Processing:** A new utility class, `DiscourseAi::Utils::ImageToText`, is included to handle OCR for the images and PDFs. - **RAG Digestion Job:** The `DigestRagUpload` job now handles PDF and image uploads. It uses `PdfToImages` and `ImageToText` to extract text and create document fragments. - **UI Updates:** The RAG uploader component now accepts PDF and image file types if `ai_rag_pdf_images_enabled` is true. The UI text is adjusted to indicate supported file types. **3. Refactoring and Improvements:** - **LLM Enumeration:** The `DiscourseAi::Configuration::LlmEnumerator` now provides a `values_for_serialization` method, which returns a simplified array of LLM data (id, name, vision_enabled) suitable for use in serializers. This avoids exposing unnecessary details to the frontend. - **AI Helper:** The `AiHelper::Assistant` now takes optional `helper_llm` and `image_caption_llm` parameters in its constructor, allowing for greater flexibility. - **Bot and Persona Updates:** Several updates were made across the codebase, changing the string based association to a LLM to the new model based. - **Audit Logs:** The `DiscourseAi::Completions::Endpoints::Base` now formats raw request payloads as pretty JSON for easier auditing. - **Eval Script:** An evaluation script is included. **4. Testing:** - The PR introduces a new eval system for LLMs, this allows us to test how functionality works across various LLM providers. This lives in `/evals`

¿Hay alguna posibilidad de que haya un cronograma para el lanzamiento completo de esta función? Veo que por ahora es una función oculta del sitio.

Saif · 14 Febrero, 2025 11:22

Uno de los desafíos del trabajo detrás de esto es dar soporte a todos los tipos de PDF. Como puedes imaginar, algunos PDF son texto plano y fáciles de analizar. Sin embargo, hay algunos con fuentes personalizadas, imágenes, gráficos, formato no lineal, etc.

Estamos tratando de encontrar una manera de hacer que todo tipo de PDF funcionen y, por lo tanto, puede llevar algo de tiempo.

Overgrow · 14 Febrero, 2025 12:43

Muy bien dicho. Creo que DeepSeek está cambiando un poco ese panorama. Ejecutar modelos DeepSeek más pequeños localmente con ollama ahora puede proporcionar inferencia de calidad y ofrecer una solución a estas preocupaciones.

Disculpa la molestia, @Saif, ¿podrías ayudarme con un tema relacionado aquí: How to properly debug AI Personas? Gracias!

Yenwod · 14 Febrero, 2025 14:07

Gracias por una mejora tan increíble en un plugin que ya era asombroso.

La PR señala que:

Trabajo de digestión RAG: El trabajo DigestRagUpload ahora maneja cargas de PDF e imágenes. Utiliza PdfToImages e ImageToText para extraer texto y crear fragmentos de documentos.

¿Cuándo se ejecutará realmente este trabajo? ¿Es algo que necesito iniciar?

Acabo de subir algunos archivos txt y un PDF. Los archivos txt se indexan inmediatamente, pero el PDF todavía dice “listo para ser indexado”.

Gracias.

Yenwod · 14 Febrero, 2025 17:35

El trabajo se está ejecutando pero está experimentando un error:

Jobs::HandledExceptionWrapper: Wrapped NameError: variable local o método `temp_dir’ no definido para una instancia de DiscourseAi::Utils::PdfToImages

Me auto-hospedo. ¿Quizás esto es algo en lo que puedo profundizar?

Saif · 14 Febrero, 2025 17:41

Te sugeriría que te abstengas de usar esta función ya que aún no está técnicamente activa. Vas a tener problemas aquí.

Yenwod · 14 Febrero, 2025 17:41

Creo que encontré el problema en PdfToImages:

sam · 14 Febrero, 2025 23:52

Confirmado, deme unos días aquí, también quiero probar la extracción de texto directo, que es algo que podemos habilitar por defecto.

Luego, la extracción “enriquecida” basada en LLM puede estar detrás de indicadores.

El problema con muchos PDF es que son enormes y pueden consumir muchos recursos del servidor. Además, cosas como Tesseract pueden ser un poco complicadas de instalar; puede mejorar la calidad.

Yenwod · 15 Febrero, 2025 00:44

@sam, me autoalojo y ahora estoy lidiando con tesseract. Se instaló sin problemas, pero está arrojando errores que no parecen ser lo suficientemente graves como para fallar el trabajo:

Error durante el procesamiento de OCR: /var/www/discourse/lib/discourse.rb:139:in `exec’: Falló el OCR de la imagen con Tesseract
Estimando la resolución en 337

Incluso con ese error, el PDF se muestra en Persona como indexado.

No estoy seguro de lo que esto significa en términos de impacto en RAG. Profundizaré durante el fin de semana.

Gracias por responder tan rápidamente.

sam · 15 Febrero, 2025 03:16

[cita=“Chris, post:19, tema:335804, nombre de usuario:Yenwod”]
No estoy seguro de qué significa esto en términos del impacto en RAG.
[/cita]

Tenemos una evaluación (y quiero agregar más), pero básicamente, dependiendo de la calidad de la imagen del modelo a texto, varía mucho si no está fundamentada.

La buena noticia, sin embargo, es que con PDF podemos hacer extracción de texto de manera sin pérdidas y luego solo apoyarnos en el LLM para mejorarlo si quieres pulirlo mucho. Debería tener algo para la próxima semana.

Tema		Respuestas	Vistas
PDF support in Discourse AI (RAG) Site Management how-to , ai	20	1093	5 Diciembre 2025
Is the PDF upload feature for the new AI Bot UX still in development Support ai , ai-bot	2	144	9 Mayo 2025
Using PDF and attachment support with AI bots Site Management how-to , ai , ai-bot	0	348	11 Diciembre 2025
Upload and discuss pdfs in composer Feature ai	5	303	24 Febrero 2025
Allow ChatBot to read PDFs so it can join in a group discussion Feature ai , ai-bot	6	1001	12 Octubre 2023

¿RAG soportará archivos PDF en el futuro?

Temas relacionados