Il RAG supporterà i file PDF in futuro?

silvacarl · 30 Settembre 2024, 5:35pm

Innanzitutto, la tua roba AI spacca!

In secondo luogo, se pubblichiamo file PDF, Word o PowerPoint sul nostro forum, li leggerà anche e li dividerà in vettori per il RAG?

sam · 1 Ottobre 2024, 5:38am

Purtroppo non abbiamo ancora il supporto per i PDF, è qualcosa a cui stiamo pensando. Supportiamo i file TXT nella nostra implementazione Persona e Tool RAG. Quindi, finché sei in grado di convertire il materiale sorgente in file di testo, puoi utilizzarlo in una persona.

silvacarl · 7 Ottobre 2024, 8:39pm

Sì, è quello che abbiamo fatto, abbiamo convertito gli allegati in testo e li abbiamo associati a ciascun argomento.

Saif · 8 Ottobre 2024, 2:54pm

Abbiamo ricevuto questo feedback alcune volte e stiamo prendendo in considerazione l’espansione del supporto per le estensioni in futuro attraverso la nostra implementazione del bot AI persona e Tool RAG.

silvacarl · 8 Ottobre 2024, 6:43pm

come soluzione temporanea per ora, convertiamo il file powerpoint, word o pdf in testo e lo alleghiamo allo stesso argomento a cui appartiene.

MachineScholar · 12 Novembre 2024, 4:04pm

Il supporto PDF cambierebbe assolutamente le regole del gioco per molte community! Dato che sembra essere uno standard universale per i documenti, ci troviamo spesso a dover riformattare le cose in .txt per RAG, il che richiede molto tempo

Saif · 12 Novembre 2024, 7:26pm

Stiamo finendo alcuni lavori sugli Embeddings e non appena saranno completati, la prossima cosa sarà aggiungere il supporto PDF.

satonotdead · 12 Novembre 2024, 10:27pm

Wow, è davvero fantastico. Complimenti al team che tiene sempre conto di ciò di cui la community ha bisogno!

E per quanto riguarda i file JSON? Avevo un sacco di chat di Discord esportate che dobbiamo interrogare all’interno dell’IA in modo da non perdere queste informazioni

Stavo pensando di fare il fine-tuning dei modelli, ma penso che aggiungere i file a Discourse dovrebbe essere meglio e più semplice per tutti con un caso d’uso simile.

sam · 13 Novembre 2024, 12:11am

JSON è solo testo, quindi lo supportiamo già.

È una rappresentazione inefficiente per gli LLM dato l’elevato volume di duplicazioni all’interno del formato, quindi sprecherebbe alcuni token, ma nel complesso funzionerà. Consiglierei di eseguire uno script su di esso e riformattarlo per migliorare le prestazioni di RAG.

È molto difficile farlo automaticamente perché il JSON può essere molto nidificato e scegliere una rappresentazione testuale specifica del dominio perfetta dipende molto dal dominio.

satonotdead · 15 Novembre 2024, 9:45pm

Grazie Sam, posso chiedere del tuo suggerimento per mantenere un equilibrio tra prestazioni e prezzo quando si aggiungono circa 150 MB di JSON (su PDF)?

È la prima volta che mi occupo di RAG sui nostri dati e presto inizierò a imparare il processo.

Apprezzo anche qualsiasi spunto dalla community.

MachineScholar · 14 Febbraio 2025, 10:19am

Devo dire che questo commit è davvero fantastico

github.com/discourse/discourse-ai

FEATURE: PDF support for rag pipeline (#1118)

committed 01:15AM - 14 Feb 25 UTC

SamSaffron

+1329 -141

This PR introduces several enhancements and refactorings to the AI Persona and R…AG (Retrieval-Augmented Generation) functionalities within the discourse-ai plugin. Here's a breakdown of the changes: **1. LLM Model Association for RAG and Personas:** - **New Database Columns:** Adds `rag_llm_model_id` to both `ai_personas` and `ai_tools` tables. This allows specifying a dedicated LLM for RAG indexing, separate from the persona's primary LLM. Adds `default_llm_id` and `question_consolidator_llm_id` to `ai_personas`. - **Migration:** Includes a migration (`20250210032345_migrate_persona_to_llm_model_id.rb`) to populate the new `default_llm_id` and `question_consolidator_llm_id` columns in `ai_personas` based on the existing `default_llm` and `question_consolidator_llm` string columns, and a post migration to remove the latter. - **Model Changes:** The `AiPersona` and `AiTool` models now `belong_to` an `LlmModel` via `rag_llm_model_id`. The `LlmModel.proxy` method now accepts an `LlmModel` instance instead of just an identifier. `AiPersona` now has `default_llm_id` and `question_consolidator_llm_id` attributes. - **UI Updates:** The AI Persona and AI Tool editors in the admin panel now allow selecting an LLM for RAG indexing (if PDF/image support is enabled). The RAG options component displays an LLM selector. - **Serialization:** The serializers (`AiCustomToolSerializer`, `AiCustomToolListSerializer`, `LocalizedAiPersonaSerializer`) have been updated to include the new `rag_llm_model_id`, `default_llm_id` and `question_consolidator_llm_id` attributes. **2. PDF and Image Support for RAG:** - **Site Setting:** Introduces a new hidden site setting, `ai_rag_pdf_images_enabled`, to control whether PDF and image files can be indexed for RAG. This defaults to `false`. - **File Upload Validation:** The `RagDocumentFragmentsController` now checks the `ai_rag_pdf_images_enabled` setting and allows PDF, PNG, JPG, and JPEG files if enabled. Error handling is included for cases where PDF/image indexing is attempted with the setting disabled. - **PDF Processing:** Adds a new utility class, `DiscourseAi::Utils::PdfToImages`, which uses ImageMagick (`magick`) to convert PDF pages into individual PNG images. A maximum PDF size and conversion timeout are enforced. - **Image Processing:** A new utility class, `DiscourseAi::Utils::ImageToText`, is included to handle OCR for the images and PDFs. - **RAG Digestion Job:** The `DigestRagUpload` job now handles PDF and image uploads. It uses `PdfToImages` and `ImageToText` to extract text and create document fragments. - **UI Updates:** The RAG uploader component now accepts PDF and image file types if `ai_rag_pdf_images_enabled` is true. The UI text is adjusted to indicate supported file types. **3. Refactoring and Improvements:** - **LLM Enumeration:** The `DiscourseAi::Configuration::LlmEnumerator` now provides a `values_for_serialization` method, which returns a simplified array of LLM data (id, name, vision_enabled) suitable for use in serializers. This avoids exposing unnecessary details to the frontend. - **AI Helper:** The `AiHelper::Assistant` now takes optional `helper_llm` and `image_caption_llm` parameters in its constructor, allowing for greater flexibility. - **Bot and Persona Updates:** Several updates were made across the codebase, changing the string based association to a LLM to the new model based. - **Audit Logs:** The `DiscourseAi::Completions::Endpoints::Base` now formats raw request payloads as pretty JSON for easier auditing. - **Eval Script:** An evaluation script is included. **4. Testing:** - The PR introduces a new eval system for LLMs, this allows us to test how functionality works across various LLM providers. This lives in `/evals`

C’è forse, possibilmente, forse una tempistica per il rilascio completo di questa funzionalità? Vedo che per ora è una funzionalità del sito nascosta.

Saif · 14 Febbraio 2025, 11:22am

Una delle sfide del lavoro dietro questo è il supporto per PDF di tutti i tipi. Come puoi immaginare, alcuni PDF sono di testo puro e facili da analizzare. Tuttavia, ce ne sono alcuni con caratteri personalizzati, immagini, grafica, formattazione non lineare, ecc.

Stiamo cercando un modo per far funzionare tutti i tipi di PDF e, pertanto, potrebbe volerci un po’ di tempo.

Overgrow · 14 Febbraio 2025, 12:43pm

Molto ben detto. Penso che DeepSeek stia ora cambiando un po’ questo panorama. Eseguire modelli DeepSeek più piccoli localmente con ollama può ora fornire inferenze di qualità e offrire una soluzione a queste preoccupazioni.

Scusa il disturbo, @Saif, potrei chiederti aiuto su un argomento correlato qui: How to properly debug AI Personas? Grazie!

Yenwod · 14 Febbraio 2025, 2:07pm

Grazie per un incredibile miglioramento a un plugin già fantastico.

La PR sottolinea che:

Job di digestione RAG: Il job DigestRagUpload ora gestisce i caricamenti di PDF e immagini. Utilizza PdfToImages e ImageToText per estrarre testo e creare frammenti di documenti.

Quando verrà eseguito effettivamente questo job? È qualcosa che devo avviare io?

Ho appena caricato alcuni file txt e un PDF. I file txt vengono indicizzati immediatamente, ma il PDF dice ancora “pronto per essere indicizzato”.

Grazie.

Yenwod · 14 Febbraio 2025, 5:35pm

Il processo è in esecuzione ma sta riscontrando un bug:

Jobs::HandledExceptionWrapper: Wrapped NameError: undefined local variable or method `temp_dir’ for an instance of DiscourseAi::Utils::PdfToImages

Mi auto-ospito. Forse è qualcosa che posso approfondire?

Saif · 14 Febbraio 2025, 5:41pm

Ti consiglierei di rimandare l’uso di questa funzionalità poiché non è ancora tecnicamente attiva. Incontrerai problemi qui.

Yenwod · 14 Febbraio 2025, 5:41pm

Penso di aver trovato il problema in PdfToImages:

sam · 14 Febbraio 2025, 11:52pm

Confermato, dammi qualche giorno qui, voglio anche provare l’estrazione diretta del testo che è qualcosa che possiamo abilitare per impostazione predefinita.

Quindi l’“estrazione avanzata” basata su LLM può essere dietro flag.

Il problema con molti PDF è che sono enormi e possono gravare molto sulle risorse del server. Inoltre, cose come tesseract possono essere un po’ complicate da installare - può migliorare la qualità.

Yenwod · 15 Febbraio 2025, 12:44am

@sam, mi auto-ospito e sto lottando con tesseract ora. Installato senza problemi ma sta generando errori che non sembrano abbastanza seri da far fallire il lavoro:

Errore durante l’elaborazione OCR: /var/www/discourse/lib/discourse.rb:139:in `exec’: Impossibile eseguire l’OCR dell’immagine con Tesseract
Stima della risoluzione come 337

Anche con quell’errore, il PDF viene mostrato in Persona come indicizzato.

Non sono sicuro di cosa significhi questo in termini di impatto su RAG. Approfondirò durante il fine settimana.

Grazie per aver risposto così rapidamente.

sam · 15 Febbraio 2025, 3:16am

Abbiamo una valutazione (e voglio aggiungerne altre), ma fondamentalmente a seconda del modello la qualità da immagine a testo varia molto se non è ancorata.
La buona notizia, tuttavia, è che con i PDF possiamo estrarre il testo in modo lossless e poi fare affidamento sull’LLM solo per migliorarlo se si vuole una finitura di lusso. Dovremmo avere qualcosa la prossima settimana.

Argomento		Risposte	Visualizzazioni
PDF support in Discourse AI (RAG) Site Management how-to , ai	20	1081	Dicembre 5, 2025
Is the PDF upload feature for the new AI Bot UX still in development Support ai , ai-bot	2	144	Maggio 9, 2025
Using PDF and attachment support with AI bots Site Management how-to , ai , ai-bot	0	327	Dicembre 11, 2025
Upload and discuss pdfs in composer Feature ai	5	298	Febbraio 24, 2025
Allow ChatBot to read PDFs so it can join in a group discussion Feature ai , ai-bot	6	1001	Ottobre 12, 2023

Il RAG supporterà i file PDF in futuro?

Argomenti correlati