Zuerst einmal, eure KI-Sachen sind spitze!
Zweitens, wenn wir PDF-, Word- oder PowerPoint-Dateien in unserem Forum posten, wird es diese auch lesen und für RAG in Vektoren zerlegen?
Zuerst einmal, eure KI-Sachen sind spitze!
Zweitens, wenn wir PDF-, Word- oder PowerPoint-Dateien in unserem Forum posten, wird es diese auch lesen und für RAG in Vektoren zerlegen?
Leider unterstützen wir noch keine PDFs, wir denken aber darüber nach. Wir unterstützen TXT-Dateien in unserer Persona- und Tool-RAG-Implementierung. Solange Sie also das Quellmaterial in Textdateien konvertieren können, können Sie es in einer Persona verwenden.
Ja, das haben wir gemacht, wir haben Anhänge in Text umgewandelt und diese jedem Thema zugeordnet.
Wir haben dieses Feedback schon ein paar Mal erhalten und erwägen, die Unterstützung für Erweiterungen in Zukunft durch unsere KI-Bot-Persona und die Tool-RAG-Implementierung zu erweitern.
Als vorübergehende Lösung konvertieren wir die PowerPoint-, Word- oder PDF-Datei in Text und hängen sie an das Thema an, zu dem sie gehört.
PDF-Unterstützung wäre absolut bahnbrechend für viele Communities! Da es ein universeller Standard für Dokumente zu sein scheint, müssen wir oft Dinge in .txt für RAG neu formatieren, was tatsächlich zeitaufwendig ist ![]()
Wir schließen einige Arbeiten an Embeddings ab und sobald diese abgeschlossen sind, wird als Nächstes die PDF-Unterstützung hinzugefügt.
Wow, das ist super nett. Ein großes Lob an das Team, das immer die Bedürfnisse der Community berücksichtigt!
Was ist mit JSON-Dateien? Ich hatte eine Menge exportierter Discord-Chats, die wir innerhalb von KI abfragen müssen, damit diese Informationen nicht verloren gehen ![]()
Ich habe über das Fine-Tuning von Modellen nachgedacht, aber ich denke, das Hinzufügen der Dateien zu Discourse wäre für alle mit einem ähnlichen Anwendungsfall besser und einfacher.
JSON ist nur Text, daher unterstützen wir ihn bereits.
Es ist eine ineffiziente Darstellung für LLMs, da das Format viel Duplizierung aufweist, was einige Tokens verschwendet, aber insgesamt wird es funktionieren. Ich würde empfehlen, ein Skript darauf auszuführen und es neu zu formatieren, um die RAG-Leistung zu verbessern.
Es ist sehr schwierig, dies automatisch zu tun, da JSON sehr verschachtelt sein kann und die Auswahl einer perfekten domänenspezifischen Textdarstellung stark von der Domäne abhängt.
Danke Sam, darf ich nach deinem Vorschlag fragen, um eine ausgewogene Leistung und einen ausgewogenen Preis zu erzielen, wenn ~150 MB JSON (auf PDF) hinzugefügt werden?
Das ist mein erstes Mal bei RAG mit unseren Daten und ich werde bald mit dem Prozess beginnen.
Ich freue mich über jede Einsicht von der Community.
Ich muss sagen, dieser Commit sieht ziemlich gut aus ![]()
Gibt es vielleicht vielleicht vielleicht einen Zeitplan für die vollständige Veröffentlichung dieser Funktion? Ich sehe, dass es sich derzeit um eine versteckte Website-Funktion handelt.
Eine der Herausforderungen bei der Arbeit dahinter ist die Unterstützung von PDFs aller Art. Wie Sie sich vorstellen können, sind einige PDFs reiner Text und leicht zu analysieren. Es gibt jedoch einige mit benutzerdefinierten Schriftarten, Bildern, Grafiken, nicht-linear formatiert usw. …
Wir versuchen, einen Weg zu finden, damit alle Arten von PDFs funktionieren, und das kann einige Zeit dauern.
Sehr gut gesagt. Ich denke, dass DeepSeek diese Landschaft jetzt ein wenig verändert. Das lokale Ausführen von kleineren DeepSeek-Modellen mit ollama kann jetzt eine qualitativ hochwertige Inferenz liefern und eine Lösung für diese Bedenken bieten.
Entschuldigen Sie die Störung, @Saif, können Sie mir bei einem verwandten Thema hier helfen: How to properly debug AI Personas? Danke!
Vielen Dank für diese unglaubliche Verbesserung eines bereits erstaunlichen Plugins.
Der PR weist darauf hin, dass:
DigestRagUpload-Job verarbeitet jetzt PDF- und Bild-Uploads. Er verwendet PdfToImages und ImageToText, um Text zu extrahieren und Dokumentfragmente zu erstellen.Wann wird dieser Job tatsächlich ausgeführt? Muss ich ihn starten?
Ich habe gerade einige Textdateien und eine PDF-Datei hochgeladen. Die Textdateien werden sofort indiziert, aber bei der PDF-Datei steht immer noch „bereit zur Indizierung“.
Vielen Dank. ![]()
Der Job läuft, hat aber einen Fehler:
Jobs::HandledExceptionWrapper: Wrapped NameError: undefinierte lokale Variable oder Methode `temp_dir’ für eine Instanz von DiscourseAi::Utils::PdfToImages
Ich hoste selbst. Vielleicht kann ich das genauer untersuchen?
Ich würde davon absehen, diese Funktion zu nutzen, da sie noch nicht technisch verfügbar ist. Sie werden hier auf Probleme stoßen.
Ich glaube, ich habe das Problem in PdfToImages gefunden:
Bestätigt, geben Sie mir hier ein paar Tage, ich möchte auch die direkte Textextraktion ausprobieren, die wir standardmäßig aktivieren können.
Dann kann die „reiche“ LLM-basierte Extraktion hinter Flags erfolgen.
Das Problem bei vielen PDFs ist, dass sie riesig sind und Serverressourcen stark beanspruchen können. Außerdem ist die Installation von Tesseract etwas knifflig – es kann die Qualität verbessern.
@sam, ich hoste selbst und kämpfe gerade mit Tesseract. Installation ohne Probleme, aber es wirft Fehler aus, die nicht ernst genug zu sein scheinen, um den Job fehlschlagen zu lassen:
Fehler bei der OCR-Verarbeitung: /var/www/discourse/lib/discourse.rb:139:in `exec’: Fehler beim OCR von Bildern mit Tesseract
Auflösung wird als 337 geschätzt
Selbst mit diesem Fehler wird das PDF in Persona als indiziert angezeigt.
Ich bin mir nicht sicher, was das für Auswirkungen auf RAG hat. Ich werde am Wochenende tiefer graben.
Vielen Dank für die schnelle Antwort.
[Zitat=“Chris, Beitrag:19, Thema:335804, Benutzername:Yenwod”]
Ich bin mir nicht sicher, was das in Bezug auf die Auswirkungen auf RAG bedeutet.
[/Zitat]
Wir haben eine Bewertung (und ich möchte noch mehr hinzufügen), aber im Grunde hängt die Qualität des Modells Bild zu Text stark davon ab, ob es verankert ist oder nicht.
Die gute Nachricht ist jedoch, dass wir mit PDF eine verlustfreie Textextraktion durchführen können und nur noch das LLM verwenden, um sie bei Bedarf zu verbessern, wenn man es auf Hochglanz trimmen möchte. Sollte nächste Woche etwas fertig haben.