Wird RAG in Zukunft PDF-Dateien unterstützen?

Zuerst einmal, eure KI-Sachen sind spitze!

Zweitens, wenn wir PDF-, Word- oder PowerPoint-Dateien in unserem Forum posten, wird es diese auch lesen und für RAG in Vektoren zerlegen?

2 „Gefällt mir“

Leider unterstützen wir noch keine PDFs, wir denken aber darüber nach. Wir unterstützen TXT-Dateien in unserer Persona- und Tool-RAG-Implementierung. Solange Sie also das Quellmaterial in Textdateien konvertieren können, können Sie es in einer Persona verwenden.

3 „Gefällt mir“

Ja, das haben wir gemacht, wir haben Anhänge in Text umgewandelt und diese jedem Thema zugeordnet.

1 „Gefällt mir“

Wir haben dieses Feedback schon ein paar Mal erhalten und erwägen, die Unterstützung für Erweiterungen in Zukunft durch unsere KI-Bot-Persona und die Tool-RAG-Implementierung zu erweitern.

4 „Gefällt mir“

Als vorübergehende Lösung konvertieren wir die PowerPoint-, Word- oder PDF-Datei in Text und hängen sie an das Thema an, zu dem sie gehört.

1 „Gefällt mir“

PDF-Unterstützung wäre absolut bahnbrechend für viele Communities! Da es ein universeller Standard für Dokumente zu sein scheint, müssen wir oft Dinge in .txt für RAG neu formatieren, was tatsächlich zeitaufwendig ist :face_with_spiral_eyes:

6 „Gefällt mir“

Wir schließen einige Arbeiten an Embeddings ab und sobald diese abgeschlossen sind, wird als Nächstes die PDF-Unterstützung hinzugefügt.

5 „Gefällt mir“

Wow, das ist super nett. Ein großes Lob an das Team, das immer die Bedürfnisse der Community berücksichtigt!

Was ist mit JSON-Dateien? Ich hatte eine Menge exportierter Discord-Chats, die wir innerhalb von KI abfragen müssen, damit diese Informationen nicht verloren gehen :slight_smile:

Ich habe über das Fine-Tuning von Modellen nachgedacht, aber ich denke, das Hinzufügen der Dateien zu Discourse wäre für alle mit einem ähnlichen Anwendungsfall besser und einfacher.

JSON ist nur Text, daher unterstützen wir ihn bereits.

Es ist eine ineffiziente Darstellung für LLMs, da das Format viel Duplizierung aufweist, was einige Tokens verschwendet, aber insgesamt wird es funktionieren. Ich würde empfehlen, ein Skript darauf auszuführen und es neu zu formatieren, um die RAG-Leistung zu verbessern.

Es ist sehr schwierig, dies automatisch zu tun, da JSON sehr verschachtelt sein kann und die Auswahl einer perfekten domänenspezifischen Textdarstellung stark von der Domäne abhängt.

3 „Gefällt mir“

Danke Sam, darf ich nach deinem Vorschlag fragen, um eine ausgewogene Leistung und einen ausgewogenen Preis zu erzielen, wenn ~150 MB JSON (auf PDF) hinzugefügt werden?

Das ist mein erstes Mal bei RAG mit unseren Daten und ich werde bald mit dem Prozess beginnen.

Ich freue mich über jede Einsicht von der Community.

Ich muss sagen, dieser Commit sieht ziemlich gut aus :heart_eyes:

Gibt es vielleicht vielleicht vielleicht einen Zeitplan für die vollständige Veröffentlichung dieser Funktion? Ich sehe, dass es sich derzeit um eine versteckte Website-Funktion handelt.

5 „Gefällt mir“

Eine der Herausforderungen bei der Arbeit dahinter ist die Unterstützung von PDFs aller Art. Wie Sie sich vorstellen können, sind einige PDFs reiner Text und leicht zu analysieren. Es gibt jedoch einige mit benutzerdefinierten Schriftarten, Bildern, Grafiken, nicht-linear formatiert usw. …

Wir versuchen, einen Weg zu finden, damit alle Arten von PDFs funktionieren, und das kann einige Zeit dauern.

4 „Gefällt mir“

Sehr gut gesagt. Ich denke, dass DeepSeek diese Landschaft jetzt ein wenig verändert. Das lokale Ausführen von kleineren DeepSeek-Modellen mit ollama kann jetzt eine qualitativ hochwertige Inferenz liefern und eine Lösung für diese Bedenken bieten.

Entschuldigen Sie die Störung, @Saif, können Sie mir bei einem verwandten Thema hier helfen: How to properly debug AI Personas? Danke!

Vielen Dank für diese unglaubliche Verbesserung eines bereits erstaunlichen Plugins.

Der PR weist darauf hin, dass:

  • RAG-Verarbeitungsjob: Der DigestRagUpload-Job verarbeitet jetzt PDF- und Bild-Uploads. Er verwendet PdfToImages und ImageToText, um Text zu extrahieren und Dokumentfragmente zu erstellen.

Wann wird dieser Job tatsächlich ausgeführt? Muss ich ihn starten?

Ich habe gerade einige Textdateien und eine PDF-Datei hochgeladen. Die Textdateien werden sofort indiziert, aber bei der PDF-Datei steht immer noch „bereit zur Indizierung“.

Vielen Dank. :pray:

1 „Gefällt mir“

Der Job läuft, hat aber einen Fehler:

Jobs::HandledExceptionWrapper: Wrapped NameError: undefinierte lokale Variable oder Methode `temp_dir’ für eine Instanz von DiscourseAi::Utils::PdfToImages

Ich hoste selbst. Vielleicht kann ich das genauer untersuchen?

Ich würde davon absehen, diese Funktion zu nutzen, da sie noch nicht technisch verfügbar ist. Sie werden hier auf Probleme stoßen.

2 „Gefällt mir“

Ich glaube, ich habe das Problem in PdfToImages gefunden:

3 „Gefällt mir“

Bestätigt, geben Sie mir hier ein paar Tage, ich möchte auch die direkte Textextraktion ausprobieren, die wir standardmäßig aktivieren können.

Dann kann die „reiche“ LLM-basierte Extraktion hinter Flags erfolgen.

Das Problem bei vielen PDFs ist, dass sie riesig sind und Serverressourcen stark beanspruchen können. Außerdem ist die Installation von Tesseract etwas knifflig – es kann die Qualität verbessern.

5 „Gefällt mir“

@sam, ich hoste selbst und kämpfe gerade mit Tesseract. Installation ohne Probleme, aber es wirft Fehler aus, die nicht ernst genug zu sein scheinen, um den Job fehlschlagen zu lassen:

Fehler bei der OCR-Verarbeitung: /var/www/discourse/lib/discourse.rb:139:in `exec’: Fehler beim OCR von Bildern mit Tesseract
Auflösung wird als 337 geschätzt

Selbst mit diesem Fehler wird das PDF in Persona als indiziert angezeigt.

Ich bin mir nicht sicher, was das für Auswirkungen auf RAG hat. Ich werde am Wochenende tiefer graben.

Vielen Dank für die schnelle Antwort.

2 „Gefällt mir“

[Zitat=“Chris, Beitrag:19, Thema:335804, Benutzername:Yenwod”]
Ich bin mir nicht sicher, was das in Bezug auf die Auswirkungen auf RAG bedeutet.
[/Zitat]

Wir haben eine Bewertung (und ich möchte noch mehr hinzufügen), aber im Grunde hängt die Qualität des Modells Bild zu Text stark davon ab, ob es verankert ist oder nicht.

Die gute Nachricht ist jedoch, dass wir mit PDF eine verlustfreie Textextraktion durchführen können und nur noch das LLM verwenden, um sie bei Bedarf zu verbessern, wenn man es auf Hochglanz trimmen möchte. Sollte nächste Woche etwas fertig haben.

6 „Gefällt mir“