Будет ли RAG поддерживать PDF-файлы в будущем?

silvacarl · 30.Сентябрь.2024 17:35:55

Сначала: ваши AI-функции просто крутые!

Во-вторых, если мы разместим файлы PDF, Word или PowerPoint на нашем форуме, сможете ли вы также прочитать их и разбить на векторы для RAG?

sam · 01.Октябрь.2024 05:38:47

К сожалению, поддержка PDF-файлов пока отсутствует — мы рассматриваем возможность её добавления. Однако мы поддерживаем файлы TXT в нашей реализации RAG для персон и инструментов. Таким образом, если вы сможете конвертировать исходные материалы в текстовые файлы, их можно будет использовать в персоне.

silvacarl · 07.Октябрь.2024 20:39:53

Да, именно так мы и поступили: преобразовали вложения в текст и связали их с каждой темой.

Saif · 08.Октябрь.2024 14:54:23

Мы несколько раз получали такую обратную связь и рассматриваем возможность расширения поддержки форматов файлов в будущем через нашего AI-бота и реализацию Tool RAG.

silvacarl · 08.Октябрь.2024 18:43:56

В качестве временного решения мы просто конвертируем файлы PowerPoint, Word или PDF в текст и прикрепляем их к соответствующей теме.

MachineScholar · 12.Ноябрь.2024 16:04:41

Поддержка PDF стала бы настоящим прорывом для многих сообществ! Поскольку это, по сути, универсальный стандарт для документов, нам часто приходится переформатировать материалы в .txt для RAG, что действительно отнимает много времени

Saif · 12.Ноябрь.2024 19:26:34

Мы завершаем работу над эмбеддингами, и как только она будет закончена, следующим шагом станет добавление поддержки PDF.

satonotdead · 12.Ноябрь.2024 22:27:43

Вау, это очень приятно. Респект команде, которая всегда учитывает потребности сообщества!

А как насчёт JSON-файлов? У меня есть множество экспортированных чатов из Discord, которые нам нужно будет обрабатывать с помощью ИИ, чтобы не потерять эту информацию

Я думал о дообучении моделей, но, пожалуй, добавлять файлы в Discourse будет лучше и проще для всех, у кого есть похожие задачи.

sam · 13.Ноябрь.2024 00:11:33

JSON — это просто текст, поэтому мы уже поддерживаем его.

Для больших языковых моделей это неэффективный формат из-за значительного дублирования внутри структуры, что приведёт к неоправданному расходу токенов, но в целом он будет работать. Я рекомендую запустить скрипт для преобразования и переформатирования данных, чтобы улучшить производительность RAG.

Автоматизировать это очень сложно, так как JSON может быть сильно вложенным, а выбор идеального текстового представления, специфичного для предметной области, сильно зависит от самой области.

satonotdead · 15.Ноябрь.2024 21:45:52

Спасибо, Сэм. Можно спросить о вашем предложении поддерживать сбалансированное соотношение производительности и цены при добавлении ~150 МБ JSON (в PDF)?

Это мой первый опыт работы с RAG на наших данных, и я скоро начну изучать этот процесс.

Буду признателен за любые советы от сообщества.

MachineScholar · 14.Февраль.2025 10:19:05

Скажу прямо: этот коммит выглядит просто великолепно

github.com/discourse/discourse-ai

FEATURE: PDF support for rag pipeline (#1118)

committed 01:15AM - 14 Feb 25 UTC

SamSaffron

+1329 -141

This PR introduces several enhancements and refactorings to the AI Persona and R…AG (Retrieval-Augmented Generation) functionalities within the discourse-ai plugin. Here's a breakdown of the changes: **1. LLM Model Association for RAG and Personas:** - **New Database Columns:** Adds `rag_llm_model_id` to both `ai_personas` and `ai_tools` tables. This allows specifying a dedicated LLM for RAG indexing, separate from the persona's primary LLM. Adds `default_llm_id` and `question_consolidator_llm_id` to `ai_personas`. - **Migration:** Includes a migration (`20250210032345_migrate_persona_to_llm_model_id.rb`) to populate the new `default_llm_id` and `question_consolidator_llm_id` columns in `ai_personas` based on the existing `default_llm` and `question_consolidator_llm` string columns, and a post migration to remove the latter. - **Model Changes:** The `AiPersona` and `AiTool` models now `belong_to` an `LlmModel` via `rag_llm_model_id`. The `LlmModel.proxy` method now accepts an `LlmModel` instance instead of just an identifier. `AiPersona` now has `default_llm_id` and `question_consolidator_llm_id` attributes. - **UI Updates:** The AI Persona and AI Tool editors in the admin panel now allow selecting an LLM for RAG indexing (if PDF/image support is enabled). The RAG options component displays an LLM selector. - **Serialization:** The serializers (`AiCustomToolSerializer`, `AiCustomToolListSerializer`, `LocalizedAiPersonaSerializer`) have been updated to include the new `rag_llm_model_id`, `default_llm_id` and `question_consolidator_llm_id` attributes. **2. PDF and Image Support for RAG:** - **Site Setting:** Introduces a new hidden site setting, `ai_rag_pdf_images_enabled`, to control whether PDF and image files can be indexed for RAG. This defaults to `false`. - **File Upload Validation:** The `RagDocumentFragmentsController` now checks the `ai_rag_pdf_images_enabled` setting and allows PDF, PNG, JPG, and JPEG files if enabled. Error handling is included for cases where PDF/image indexing is attempted with the setting disabled. - **PDF Processing:** Adds a new utility class, `DiscourseAi::Utils::PdfToImages`, which uses ImageMagick (`magick`) to convert PDF pages into individual PNG images. A maximum PDF size and conversion timeout are enforced. - **Image Processing:** A new utility class, `DiscourseAi::Utils::ImageToText`, is included to handle OCR for the images and PDFs. - **RAG Digestion Job:** The `DigestRagUpload` job now handles PDF and image uploads. It uses `PdfToImages` and `ImageToText` to extract text and create document fragments. - **UI Updates:** The RAG uploader component now accepts PDF and image file types if `ai_rag_pdf_images_enabled` is true. The UI text is adjusted to indicate supported file types. **3. Refactoring and Improvements:** - **LLM Enumeration:** The `DiscourseAi::Configuration::LlmEnumerator` now provides a `values_for_serialization` method, which returns a simplified array of LLM data (id, name, vision_enabled) suitable for use in serializers. This avoids exposing unnecessary details to the frontend. - **AI Helper:** The `AiHelper::Assistant` now takes optional `helper_llm` and `image_caption_llm` parameters in its constructor, allowing for greater flexibility. - **Bot and Persona Updates:** Several updates were made across the codebase, changing the string based association to a LLM to the new model based. - **Audit Logs:** The `DiscourseAi::Completions::Endpoints::Base` now formats raw request payloads as pretty JSON for easier auditing. - **Eval Script:** An evaluation script is included. **4. Testing:** - The PR introduces a new eval system for LLMs, this allows us to test how functionality works across various LLM providers. This lives in `/evals`

Не подскажете, есть ли какие-то сроки полного выпуска этой функции? Я вижу, что пока она скрыта как функция сайта.

Saif · 14.Февраль.2025 11:22:23

Одной из сложностей в работе над этим является поддержка PDF-файлов всех типов. Как вы можете себе представить, некоторые PDF-файлы содержат простой текст и их легко обработать. Однако есть файлы с пользовательскими шрифтами, изображениями, графикой, нелинейным форматированием и т.д.

Мы пытаемся найти способ заставить работать все типы PDF-файлов, поэтому это может занять некоторое время.

Overgrow · 14.Февраль.2025 12:43:51

Очень верно сказано. Я считаю, что DeepSeek сейчас немного меняет эту ситуацию. Запуск более мелких моделей DeepSeek локально с помощью Ollama теперь может обеспечивать качественную инференс и предлагать решение этих проблем.

Извините, что отвлекаю, @Saif, не могли бы вы помочь мне по связанной теме здесь: How to properly debug AI Personas? Спасибо!

Yenwod · 14.Февраль.2025 14:07:14

Спасибо за такое невероятное дополнение к уже потрясающему плагину.

В PR указано, что:

Задание RAG Digestion: Задание DigestRagUpload теперь обрабатывает загрузку PDF-файлов и изображений. Оно использует PdfToImages и ImageToText для извлечения текста и создания фрагментов документа.

Когда это задание фактически выполняется? Нужно ли мне запускать его вручную?

Я только что загрузил несколько текстовых файлов и один PDF-файл. Текстовые файлы индексируются сразу, но для PDF-файла всё ещё отображается статус «готов к индексации».

Спасибо.

Yenwod · 14.Февраль.2025 17:35:29

Задача выполняется, но возникла ошибка:

Jobs::HandledExceptionWrapper: Wrapped NameError: undefined local variable or method `temp_dir’ for an instance of DiscourseAi::Utils::PdfToImages

Я использую собственную установку. Возможно, я смогу разобраться в этом подробнее?

Saif · 14.Февраль.2025 17:41:07

Я бы воздержался от использования этой функции, поскольку она технически ещё не запущена. Вы столкнетесь с проблемами здесь.

Yenwod · 14.Февраль.2025 17:41:32

Я думаю, я нашел проблему в PdfToImages:

sam · 14.Февраль.2025 23:52:21

Подтверждаю, дайте мне несколько дней, я также хочу попробовать прямое извлечение текста, что мы можем включить по умолчанию.

Затем «богатое» извлечение на основе LLM можно разместить за флагами.

Проблема многих PDF-файлов в том, что они огромны и могут сильно нагружать ресурсы сервера. Кроме того, такие инструменты, как Tesseract, могут быть довольно сложными в установке, но они могут улучшить качество.

Yenwod · 15.Февраль.2025 00:44:32

@sam, я размещаю это на собственном сервере и сейчас сталкиваюсь с проблемами в Tesseract. Установил без проблем, но он выдаёт ошибки, которые, кажется, недостаточно серьёзны, чтобы сорвать выполнение задачи:

Ошибка при обработке OCR: /var/www/discourse/lib/discourse.rb:139:in `exec’: Не удалось выполнить OCR изображения с помощью Tesseract
Оценка разрешения как 337

Даже при этой ошибке PDF отображается в Persona как проиндексированный.

Не уверен, что это означает для влияния на RAG. Разберусь глубже в выходные.

Спасибо за столь быстрый ответ.

sam · 15.Февраль.2025 03:16:34

У нас есть оценка (и я хочу добавить больше), но в целом качество преобразования изображения в текст сильно варьируется в зависимости от модели, если оно не основано на фактах.

Хорошая новость в том, что с PDF мы можем извлекать текст без потерь, а затем полагаться на LLM только для его улучшения, если вы хотите довести его до идеала. Что-то будет на следующей неделе.

Тема		Ответов	Просм.
PDF support in Discourse AI (RAG) Site Management how-to , ai	20	1080	05.12.2025
Is the PDF upload feature for the new AI Bot UX still in development Support ai , ai-bot	2	142	09.05.2025
Using PDF and attachment support with AI bots Site Management how-to , ai , ai-bot	0	324	11.12.2025
Upload and discuss pdfs in composer Feature ai	5	297	24.02.2025
Allow ChatBot to read PDFs so it can join in a group discussion Feature ai , ai-bot	6	999	12.10.2023

Будет ли RAG поддерживать PDF-файлы в будущем?

Связанные темы