RAG suportará arquivos PDF no futuro?

silvacarl · Setembro 30, 2024, 5:35pm

primeiro, suas coisas de IA são demais!

segundo, se postarmos arquivos PDF, Word ou PowerPoint em nosso fórum, ele também os lerá e os dividirá em vetores para RAG?

sam · Outubro 1, 2024, 5:38am

Infelizmente, ainda não temos suporte a PDF, é algo que estamos considerando. Apoiamos arquivos TXT em nossa implementação de Persona e Tool RAG. Portanto, desde que você consiga converter o material de origem para arquivos de texto, poderá consumi-lo em uma persona.

silvacarl · Outubro 7, 2024, 8:39pm

Sim, foi o que fizemos, convertemos os anexos em texto e os associamos a cada tópico.

Saif · Outubro 8, 2024, 2:54pm

Vimos esse feedback algumas vezes e estamos considerando expandir o suporte a extensões no futuro por meio de nossa persona de bot de IA e implementação de Tool RAG.

silvacarl · Outubro 8, 2024, 6:43pm

como uma solução alternativa por enquanto, nós apenas convertemos o arquivo powerpoint, word ou pdf para texto e o anexamos ao mesmo tópico a que pertence.

MachineScholar · Novembro 12, 2024, 4:04pm

O suporte a PDF seria uma mudança de jogo absoluta para muitas comunidades! Dado que parece ser um padrão universal para documentos, muitas vezes nos encontramos tendo que reformatar coisas para .txt para RAG, o que é realmente demorado

Saif · Novembro 12, 2024, 7:26pm

Estamos finalizando alguns trabalhos em Embeddings e, assim que isso for concluído, o próximo passo será adicionar suporte a PDF.

satonotdead · Novembro 12, 2024, 10:27pm

Uau, isso é super legal. Parabéns à equipe que sempre leva em consideração o que a comunidade precisa!

E quanto aos arquivos JSON? Eu tinha um monte de chats do Discord exportados que precisamos consultar dentro da IA para não perdermos essas informações

Eu estava pensando em ajustar modelos, mas acho que adicionar os arquivos ao Discourse seria melhor e mais simples para todos com um caso de uso semelhante.

sam · Novembro 13, 2024, 12:11am

JSON é apenas texto, então já o suportamos.

É uma representação ineficiente para LLMs, dada a grande quantidade de duplicação dentro do formato, o que desperdiçaria alguns tokens, mas, no geral, funcionará. Eu recomendaria executar um script sobre ele e reformatá-lo para melhorar o desempenho do RAG.

É muito difícil fazer isso automaticamente porque o JSON pode ser muito aninhado e escolher uma representação de texto específica do domínio perfeita depende muito do domínio.

satonotdead · Novembro 15, 2024, 9:45pm

Obrigado, Sam. Posso perguntar sobre sua sugestão para manter um desempenho+preço equilibrado ao adicionar cerca de 150 MB de JSON (em PDF)?

Esta é a primeira vez que uso RAG em nossos dados e em breve começarei a aprender sobre o processo.

Agradeço qualquer insight da comunidade também.

MachineScholar · Fevereiro 14, 2025, 10:19am

Devo dizer que este commit está muito bonito

github.com/discourse/discourse-ai

FEATURE: PDF support for rag pipeline (#1118)

committed 01:15AM - 14 Feb 25 UTC

SamSaffron

+1329 -141

This PR introduces several enhancements and refactorings to the AI Persona and R…AG (Retrieval-Augmented Generation) functionalities within the discourse-ai plugin. Here's a breakdown of the changes: **1. LLM Model Association for RAG and Personas:** - **New Database Columns:** Adds `rag_llm_model_id` to both `ai_personas` and `ai_tools` tables. This allows specifying a dedicated LLM for RAG indexing, separate from the persona's primary LLM. Adds `default_llm_id` and `question_consolidator_llm_id` to `ai_personas`. - **Migration:** Includes a migration (`20250210032345_migrate_persona_to_llm_model_id.rb`) to populate the new `default_llm_id` and `question_consolidator_llm_id` columns in `ai_personas` based on the existing `default_llm` and `question_consolidator_llm` string columns, and a post migration to remove the latter. - **Model Changes:** The `AiPersona` and `AiTool` models now `belong_to` an `LlmModel` via `rag_llm_model_id`. The `LlmModel.proxy` method now accepts an `LlmModel` instance instead of just an identifier. `AiPersona` now has `default_llm_id` and `question_consolidator_llm_id` attributes. - **UI Updates:** The AI Persona and AI Tool editors in the admin panel now allow selecting an LLM for RAG indexing (if PDF/image support is enabled). The RAG options component displays an LLM selector. - **Serialization:** The serializers (`AiCustomToolSerializer`, `AiCustomToolListSerializer`, `LocalizedAiPersonaSerializer`) have been updated to include the new `rag_llm_model_id`, `default_llm_id` and `question_consolidator_llm_id` attributes. **2. PDF and Image Support for RAG:** - **Site Setting:** Introduces a new hidden site setting, `ai_rag_pdf_images_enabled`, to control whether PDF and image files can be indexed for RAG. This defaults to `false`. - **File Upload Validation:** The `RagDocumentFragmentsController` now checks the `ai_rag_pdf_images_enabled` setting and allows PDF, PNG, JPG, and JPEG files if enabled. Error handling is included for cases where PDF/image indexing is attempted with the setting disabled. - **PDF Processing:** Adds a new utility class, `DiscourseAi::Utils::PdfToImages`, which uses ImageMagick (`magick`) to convert PDF pages into individual PNG images. A maximum PDF size and conversion timeout are enforced. - **Image Processing:** A new utility class, `DiscourseAi::Utils::ImageToText`, is included to handle OCR for the images and PDFs. - **RAG Digestion Job:** The `DigestRagUpload` job now handles PDF and image uploads. It uses `PdfToImages` and `ImageToText` to extract text and create document fragments. - **UI Updates:** The RAG uploader component now accepts PDF and image file types if `ai_rag_pdf_images_enabled` is true. The UI text is adjusted to indicate supported file types. **3. Refactoring and Improvements:** - **LLM Enumeration:** The `DiscourseAi::Configuration::LlmEnumerator` now provides a `values_for_serialization` method, which returns a simplified array of LLM data (id, name, vision_enabled) suitable for use in serializers. This avoids exposing unnecessary details to the frontend. - **AI Helper:** The `AiHelper::Assistant` now takes optional `helper_llm` and `image_caption_llm` parameters in its constructor, allowing for greater flexibility. - **Bot and Persona Updates:** Several updates were made across the codebase, changing the string based association to a LLM to the new model based. - **Audit Logs:** The `DiscourseAi::Completions::Endpoints::Base` now formats raw request payloads as pretty JSON for easier auditing. - **Eval Script:** An evaluation script is included. **4. Testing:** - The PR introduces a new eval system for LLMs, this allows us to test how functionality works across various LLM providers. This lives in `/evals`

Existe alguma linha do tempo para o lançamento completo deste recurso? Vejo que é um recurso oculto do site por enquanto.

Saif · Fevereiro 14, 2025, 11:22am

Um dos desafios com o trabalho por trás disso é o suporte a PDFs de todos os tipos. Como você pode imaginar, alguns PDFs são texto puro e fáceis de analisar. No entanto, existem alguns com fontes personalizadas, imagens, gráficos, formatação não linear, etc…

Estamos tentando encontrar uma maneira de fazer com que todos os tipos de PDFs funcionem e, como tal, pode levar um tempo.

Overgrow · Fevereiro 14, 2025, 12:43pm

Muito bem dito. Acho que o DeepSeek está mudando um pouco esse cenário agora. Rodar modelos menores do DeepSeek localmente com ollama agora pode fornecer inferência de qualidade e oferecer uma solução para essas preocupações.

Desculpe incomodar, @Saif, posso ter sua ajuda com um tópico relacionado aqui: How to properly debug AI Personas? Obrigado!

Yenwod · Fevereiro 14, 2025, 2:07pm

Obrigado por um aprimoramento tão incrível em um plugin já fantástico.

O PR aponta que:

Job de Digestão RAG: O job DigestRagUpload agora lida com uploads de PDF e imagem. Ele usa PdfToImages e ImageToText para extrair texto e criar fragmentos de documentos.

Quando este job realmente será executado? É algo que preciso iniciar?

Acabei de fazer upload de alguns arquivos txt e um PDF. Os arquivos txt são indexados imediatamente, mas o PDF ainda diz “pronto para ser indexado”.

Obrigado.

Yenwod · Fevereiro 14, 2025, 5:35pm

O trabalho está em execução, mas está apresentando um bug:

Jobs::HandledExceptionWrapper: Wrapped NameError: undefined local variable or method `temp_dir’ for an instance of DiscourseAi::Utils::PdfToImages

Eu mesmo hospedo. Talvez isso seja algo em que eu possa investigar mais a fundo?

Saif · Fevereiro 14, 2025, 5:41pm

Eu esperaria antes de usar este recurso, pois ele ainda não está tecnicamente ativo. Você vai encontrar problemas aqui.

Yenwod · Fevereiro 14, 2025, 5:41pm

Acho que encontrei o problema em PdfToImages:

sam · Fevereiro 14, 2025, 11:52pm

Confirmado, me dê alguns dias aqui, quero também tentar a extração de texto direta, que é algo que podemos habilitar por padrão.

Então a extração “rica” baseada em LLM pode ficar atrás de flags.

O problema com muitos PDFs é que eles são enormes e podem consumir muitos recursos do servidor. Além disso, coisas como o Tesseract podem ser um pouco complicadas de instalar - isso pode melhorar a qualidade.

Yenwod · Fevereiro 15, 2025, 12:44am

@sam, eu hospedo em casa e estou lutando com o tesseract agora. Instalou sem problemas, mas está gerando erros que não parecem ser sérios o suficiente para falhar o trabalho:

Erro durante o processamento de OCR: /var/www/discourse/lib/discourse.rb:139:in `exec’: Falha ao fazer OCR da imagem com Tesseract
Estimando a resolução como 337

Mesmo com esse erro, o PDF mostra na Persona como sendo indexado.

Não tenho certeza do que isso significa em termos de impacto no RAG. Vou investigar mais a fundo durante o fim de semana.

Obrigado por responder tão rapidamente.

sam · Fevereiro 15, 2025, 3:16am

Temos uma avaliação (e quero adicionar mais), mas basicamente, dependendo da qualidade da imagem do modelo para texto, varia muito se não estiver fundamentada.
A boa notícia, no entanto, é que com PDF podemos fazer a extração de texto de forma sem perdas e, em seguida, apenas confiar no LLM para melhorá-la se você quiser um acabamento de luxo. Deverá haver algo na próxima semana.

Tópico		Respostas	Visualizações
PDF support in Discourse AI (RAG) Site Management how-to , ai	20	808	5 de Dezembro de 2025
Is the PDF upload feature for the new AI Bot UX still in development Support ai-bot , ai	3	90	9 de Maio de 2025
Using PDF and attachment support with AI bots Site Management ai-bot , how-to , ai	0	145	11 de Dezembro de 2025
Upload and discuss pdfs in composer Feature ai	5	221	24 de Fevereiro de 2025
Allow ChatBot to read PDFs so it can join in a group discussion Feature ai , ai-bot	6	954	12 de Outubro de 2023

RAG suportará arquivos PDF no futuro?

Tópicos relacionados