Wird RAG in Zukunft PDF-Dateien unterstützen?

silvacarl · 30. September 2024 um 17:35

Zuerst einmal, eure KI-Sachen sind spitze!

Zweitens, wenn wir PDF-, Word- oder PowerPoint-Dateien in unserem Forum posten, wird es diese auch lesen und für RAG in Vektoren zerlegen?

sam · 1. Oktober 2024 um 05:38

Leider unterstützen wir noch keine PDFs, wir denken aber darüber nach. Wir unterstützen TXT-Dateien in unserer Persona- und Tool-RAG-Implementierung. Solange Sie also das Quellmaterial in Textdateien konvertieren können, können Sie es in einer Persona verwenden.

silvacarl · 7. Oktober 2024 um 20:39

Ja, das haben wir gemacht, wir haben Anhänge in Text umgewandelt und diese jedem Thema zugeordnet.

Saif · 8. Oktober 2024 um 14:54

Wir haben dieses Feedback schon ein paar Mal erhalten und erwägen, die Unterstützung für Erweiterungen in Zukunft durch unsere KI-Bot-Persona und die Tool-RAG-Implementierung zu erweitern.

silvacarl · 8. Oktober 2024 um 18:43

Als vorübergehende Lösung konvertieren wir die PowerPoint-, Word- oder PDF-Datei in Text und hängen sie an das Thema an, zu dem sie gehört.

MachineScholar · 12. November 2024 um 16:04

PDF-Unterstützung wäre absolut bahnbrechend für viele Communities! Da es ein universeller Standard für Dokumente zu sein scheint, müssen wir oft Dinge in .txt für RAG neu formatieren, was tatsächlich zeitaufwendig ist

Saif · 12. November 2024 um 19:26

Wir schließen einige Arbeiten an Embeddings ab und sobald diese abgeschlossen sind, wird als Nächstes die PDF-Unterstützung hinzugefügt.

satonotdead · 12. November 2024 um 22:27

Wow, das ist super nett. Ein großes Lob an das Team, das immer die Bedürfnisse der Community berücksichtigt!

Was ist mit JSON-Dateien? Ich hatte eine Menge exportierter Discord-Chats, die wir innerhalb von KI abfragen müssen, damit diese Informationen nicht verloren gehen

Ich habe über das Fine-Tuning von Modellen nachgedacht, aber ich denke, das Hinzufügen der Dateien zu Discourse wäre für alle mit einem ähnlichen Anwendungsfall besser und einfacher.

sam · 13. November 2024 um 00:11

JSON ist nur Text, daher unterstützen wir ihn bereits.

Es ist eine ineffiziente Darstellung für LLMs, da das Format viel Duplizierung aufweist, was einige Tokens verschwendet, aber insgesamt wird es funktionieren. Ich würde empfehlen, ein Skript darauf auszuführen und es neu zu formatieren, um die RAG-Leistung zu verbessern.

Es ist sehr schwierig, dies automatisch zu tun, da JSON sehr verschachtelt sein kann und die Auswahl einer perfekten domänenspezifischen Textdarstellung stark von der Domäne abhängt.

satonotdead · 15. November 2024 um 21:45

Danke Sam, darf ich nach deinem Vorschlag fragen, um eine ausgewogene Leistung und einen ausgewogenen Preis zu erzielen, wenn ~150 MB JSON (auf PDF) hinzugefügt werden?

Das ist mein erstes Mal bei RAG mit unseren Daten und ich werde bald mit dem Prozess beginnen.

Ich freue mich über jede Einsicht von der Community.

MachineScholar · 14. Februar 2025 um 10:19

Ich muss sagen, dieser Commit sieht ziemlich gut aus

github.com/discourse/discourse-ai

FEATURE: PDF support for rag pipeline (#1118)

committed 01:15AM - 14 Feb 25 UTC

SamSaffron

+1329 -141

This PR introduces several enhancements and refactorings to the AI Persona and R…AG (Retrieval-Augmented Generation) functionalities within the discourse-ai plugin. Here's a breakdown of the changes: **1. LLM Model Association for RAG and Personas:** - **New Database Columns:** Adds `rag_llm_model_id` to both `ai_personas` and `ai_tools` tables. This allows specifying a dedicated LLM for RAG indexing, separate from the persona's primary LLM. Adds `default_llm_id` and `question_consolidator_llm_id` to `ai_personas`. - **Migration:** Includes a migration (`20250210032345_migrate_persona_to_llm_model_id.rb`) to populate the new `default_llm_id` and `question_consolidator_llm_id` columns in `ai_personas` based on the existing `default_llm` and `question_consolidator_llm` string columns, and a post migration to remove the latter. - **Model Changes:** The `AiPersona` and `AiTool` models now `belong_to` an `LlmModel` via `rag_llm_model_id`. The `LlmModel.proxy` method now accepts an `LlmModel` instance instead of just an identifier. `AiPersona` now has `default_llm_id` and `question_consolidator_llm_id` attributes. - **UI Updates:** The AI Persona and AI Tool editors in the admin panel now allow selecting an LLM for RAG indexing (if PDF/image support is enabled). The RAG options component displays an LLM selector. - **Serialization:** The serializers (`AiCustomToolSerializer`, `AiCustomToolListSerializer`, `LocalizedAiPersonaSerializer`) have been updated to include the new `rag_llm_model_id`, `default_llm_id` and `question_consolidator_llm_id` attributes. **2. PDF and Image Support for RAG:** - **Site Setting:** Introduces a new hidden site setting, `ai_rag_pdf_images_enabled`, to control whether PDF and image files can be indexed for RAG. This defaults to `false`. - **File Upload Validation:** The `RagDocumentFragmentsController` now checks the `ai_rag_pdf_images_enabled` setting and allows PDF, PNG, JPG, and JPEG files if enabled. Error handling is included for cases where PDF/image indexing is attempted with the setting disabled. - **PDF Processing:** Adds a new utility class, `DiscourseAi::Utils::PdfToImages`, which uses ImageMagick (`magick`) to convert PDF pages into individual PNG images. A maximum PDF size and conversion timeout are enforced. - **Image Processing:** A new utility class, `DiscourseAi::Utils::ImageToText`, is included to handle OCR for the images and PDFs. - **RAG Digestion Job:** The `DigestRagUpload` job now handles PDF and image uploads. It uses `PdfToImages` and `ImageToText` to extract text and create document fragments. - **UI Updates:** The RAG uploader component now accepts PDF and image file types if `ai_rag_pdf_images_enabled` is true. The UI text is adjusted to indicate supported file types. **3. Refactoring and Improvements:** - **LLM Enumeration:** The `DiscourseAi::Configuration::LlmEnumerator` now provides a `values_for_serialization` method, which returns a simplified array of LLM data (id, name, vision_enabled) suitable for use in serializers. This avoids exposing unnecessary details to the frontend. - **AI Helper:** The `AiHelper::Assistant` now takes optional `helper_llm` and `image_caption_llm` parameters in its constructor, allowing for greater flexibility. - **Bot and Persona Updates:** Several updates were made across the codebase, changing the string based association to a LLM to the new model based. - **Audit Logs:** The `DiscourseAi::Completions::Endpoints::Base` now formats raw request payloads as pretty JSON for easier auditing. - **Eval Script:** An evaluation script is included. **4. Testing:** - The PR introduces a new eval system for LLMs, this allows us to test how functionality works across various LLM providers. This lives in `/evals`

Gibt es vielleicht vielleicht vielleicht einen Zeitplan für die vollständige Veröffentlichung dieser Funktion? Ich sehe, dass es sich derzeit um eine versteckte Website-Funktion handelt.

Saif · 14. Februar 2025 um 11:22

Eine der Herausforderungen bei der Arbeit dahinter ist die Unterstützung von PDFs aller Art. Wie Sie sich vorstellen können, sind einige PDFs reiner Text und leicht zu analysieren. Es gibt jedoch einige mit benutzerdefinierten Schriftarten, Bildern, Grafiken, nicht-linear formatiert usw. …

Wir versuchen, einen Weg zu finden, damit alle Arten von PDFs funktionieren, und das kann einige Zeit dauern.

Overgrow · 14. Februar 2025 um 12:43

Sehr gut gesagt. Ich denke, dass DeepSeek diese Landschaft jetzt ein wenig verändert. Das lokale Ausführen von kleineren DeepSeek-Modellen mit ollama kann jetzt eine qualitativ hochwertige Inferenz liefern und eine Lösung für diese Bedenken bieten.

Entschuldigen Sie die Störung, @Saif, können Sie mir bei einem verwandten Thema hier helfen: How to properly debug AI Personas? Danke!

Yenwod · 14. Februar 2025 um 14:07

Vielen Dank für diese unglaubliche Verbesserung eines bereits erstaunlichen Plugins.

Der PR weist darauf hin, dass:

RAG-Verarbeitungsjob: Der DigestRagUpload-Job verarbeitet jetzt PDF- und Bild-Uploads. Er verwendet PdfToImages und ImageToText, um Text zu extrahieren und Dokumentfragmente zu erstellen.

Wann wird dieser Job tatsächlich ausgeführt? Muss ich ihn starten?

Ich habe gerade einige Textdateien und eine PDF-Datei hochgeladen. Die Textdateien werden sofort indiziert, aber bei der PDF-Datei steht immer noch „bereit zur Indizierung“.

Vielen Dank.

Yenwod · 14. Februar 2025 um 17:35

Der Job läuft, hat aber einen Fehler:

Jobs::HandledExceptionWrapper: Wrapped NameError: undefinierte lokale Variable oder Methode `temp_dir’ für eine Instanz von DiscourseAi::Utils::PdfToImages

Ich hoste selbst. Vielleicht kann ich das genauer untersuchen?

Saif · 14. Februar 2025 um 17:41

Ich würde davon absehen, diese Funktion zu nutzen, da sie noch nicht technisch verfügbar ist. Sie werden hier auf Probleme stoßen.

Yenwod · 14. Februar 2025 um 17:41

Ich glaube, ich habe das Problem in PdfToImages gefunden:

sam · 14. Februar 2025 um 23:52

Bestätigt, geben Sie mir hier ein paar Tage, ich möchte auch die direkte Textextraktion ausprobieren, die wir standardmäßig aktivieren können.

Dann kann die „reiche“ LLM-basierte Extraktion hinter Flags erfolgen.

Das Problem bei vielen PDFs ist, dass sie riesig sind und Serverressourcen stark beanspruchen können. Außerdem ist die Installation von Tesseract etwas knifflig – es kann die Qualität verbessern.

Yenwod · 15. Februar 2025 um 00:44

@sam, ich hoste selbst und kämpfe gerade mit Tesseract. Installation ohne Probleme, aber es wirft Fehler aus, die nicht ernst genug zu sein scheinen, um den Job fehlschlagen zu lassen:

Fehler bei der OCR-Verarbeitung: /var/www/discourse/lib/discourse.rb:139:in `exec’: Fehler beim OCR von Bildern mit Tesseract
Auflösung wird als 337 geschätzt

Selbst mit diesem Fehler wird das PDF in Persona als indiziert angezeigt.

Ich bin mir nicht sicher, was das für Auswirkungen auf RAG hat. Ich werde am Wochenende tiefer graben.

Vielen Dank für die schnelle Antwort.

sam · 15. Februar 2025 um 03:16

[Zitat=“Chris, Beitrag:19, Thema:335804, Benutzername:Yenwod”]
Ich bin mir nicht sicher, was das in Bezug auf die Auswirkungen auf RAG bedeutet.
[/Zitat]

Wir haben eine Bewertung (und ich möchte noch mehr hinzufügen), aber im Grunde hängt die Qualität des Modells Bild zu Text stark davon ab, ob es verankert ist oder nicht.

Die gute Nachricht ist jedoch, dass wir mit PDF eine verlustfreie Textextraktion durchführen können und nur noch das LLM verwenden, um sie bei Bedarf zu verbessern, wenn man es auf Hochglanz trimmen möchte. Sollte nächste Woche etwas fertig haben.

Thema		Antworten	Aufrufe
PDF support in Discourse AI (RAG) Site Management how-to , ai	20	807	5. Dezember 2025
Is the PDF upload feature for the new AI Bot UX still in development Support ai-bot , ai	3	89	9. Mai 2025
Using PDF and attachment support with AI bots Site Management ai-bot , how-to , ai	0	143	11. Dezember 2025
Upload and discuss pdfs in composer Feature ai	5	221	24. Februar 2025
Allow ChatBot to read PDFs so it can join in a group discussion Feature ai , ai-bot	6	954	12. Oktober 2023

Wird RAG in Zukunft PDF-Dateien unterstützen?

Verwandte Themen