Kann Unterstützung für das Discourse-KI-Plugin hinzugefügt werden, um den Text in Bildern zum Beitrag hinzuzufügen (OCR)? Kann hierfür die Google Lens API (Cloud Vision) unterstützt werden?
Es ist in unserer Roadmap, ein multimodales LLM zu nutzen, um Bildbeschreibungen zu erstellen, was auch ein gewisses Maß an OCR bieten sollte. Aber für reine OCR, vielleicht probieren Sie dieses Plugin aus?
Ich habe dieses Plugin in älteren Versionen von Discourse verwendet und es hat funktioniert. Aber leider funktioniert es in der neuen Version von Discourse nicht mehr
Siehe AI Image Captioning Feature in Discourse AI Plugin, dies ist jetzt hier auf Meta fertig und aktiviert.
Ich denke, wir sollten das trotzdem offen halten, da die Untertitelfunktion zwar mit OCR verwandt, aber nicht genau OCR ist.
OCR würde es Ihnen beispielsweise ermöglichen, ein Foto Ihrer Notizen zu machen und es dann hochzuladen und exakt auszudrucken. Die KI-Untertitelung ist viel ausgefeilter, aber sie ermöglicht Ihnen nicht, eine ganze Textseite mit dieser Genauigkeit auszudrucken.
Ich bin mir nicht sicher, wann wir Zeit haben werden, an einer OCR zu arbeiten, aber es fühlt sich doch etwas anders an.
Da Anthropic Claude 3 jetzt die Bildunterstützung hat, macht es einen guten Job bei OCR-Aufgaben, zum Beispiel
Weint auf Deutsch
![]()
![]()
Im Ernst, ich bin neugierig, wie es mit einem Bild wie diesem umgehen würde:
Tesseract liefert Folgendes:
MINGW64 ~/Source/Repos/Sut. Driver. Firmware
git push Locking support detected on remote “origin”. Consider enabling it with: git config Ifs ‘1fs.locksverify true
LFS: Access forbidden. Check your access level.
error: failed to push some refs to
MINGW64 ~/Source/Repos/Sut. Driver. Firmware
git push Locking support detected on remote “origin”. Consider enabling it with: git config Ifs. /\fs.locksverify true
Uploading LFS objects: 100% (1/1), 584 KB | 0 B/s, done.
Enumerating objects: 9, done.
Counting objects: 100% (9/9), done.
Delta compression using up to 8 threads
Compressing objects: 100% (3/3), done.
Writing objects: 100% (5/5), 478 bytes | 478.00 KiB/s, done.
Total 5 (delta 1), reused 0 (delta 0), pack-reused 0 »
remote:
remote: To create a merge request for visit:
remote: 1
remote:
To
2c50e5b. . ba25f3e
L MINGN64 ~/Source/Repos /Sut. Driver. Firmware
(Ok, ich bin überrascht, wie vernünftig dieses Ergebnis ist. Tesseract vertauscht oft die Zeilenreihenfolge und verfälscht Buchstaben bei diesen Arten von Beispielen.)
Sam, wäre es möglich, dass du dieses Bild in Claude einfügst und das Ergebnis postest?
Fühlen Sie sich frei, es hier zu versuchen, die kreative Claude-Persona hat hier eine Bildunterstützung, die gerade aktiviert wurde
[quote=„Forumhelfer-Bot, Beitrag:6, Thema:301329, Benutzername:ForumHelperBot“]Das Bild zeigt im Hintergrund einen gewundenen Pfad durch eine hügelige, natürliche Landschaft. Der Text scheint geführte Tutorials oder einen Lernpfad zu bewerben, der speziell darauf abzielt, Benutzern den Erfolg auf der Discourse-Plattform zu ermöglichen.
[/quote]
https://meta.discourse.org/t/parsing-complex-json-data-in-tris20-code/301329
Entweder ist das ein Fähigkeitsproblem meinerseits, oder Claude hat ein kleines Problem ![]()
Skill issue
Ich habe den Forum Helper anstelle der Creative-Persönlichkeit verwendet.
Claude Creative gibt uns Folgendes:
MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
git push Locking support detected on remote “origin”. Consider enabling it with: git config lfs.http://tfs.locksverify true
LFS: Access forbidden. Check your access level.
error: failed to push some refs to ‘http://tfs.lockeed/tfs/HnC/TEC/SUT/Driver%20Firmware/_git/Sut.Driver.Firmware’MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
git push Locking support detected on remote “origin”. Consider enabling it with: git config lfs.http://tfs.locked/tfs.locksverify true
Uploading LFS objects: 100% (1/1), 584 KB | 0 B/s, done.
Enumerating objects: 9, done.
Counting objects: 100% (9/9), done.
Delta compression using up to 8 threads
Compressing objects: 100% (3/3), done.
Writing objects: 100% (5/5), 478 bytes | 478.00 KiB/s, done.
Total 5 (delta 1), reused 0 (delta 0), pack-reused 0
remote: To create a merge request for kingfisher, visit:
remote: http://tfs.locked/tfs/HRC/TEC/SUT/_git/Sut.Driver.Firmware/pullrequest/new?sourceRef=kingfisher&targetRef=develop
remote:
To http://tfs.locked/tfs/HRC/TEC/SUT/_git/Sut.Driver.Firmware
2c50e5b…ba25f3e kingfisher - kingfisherMINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
$
Interessantes Ergebnis. Ich finde, die beiden sind in diesem Beispiel ungefähr auf Augenhöhe, aber mit unterschiedlichen Fehlern. Claude hat hier die URL halluziniert und kontextbezogen vermutet, dass wir basierend auf dem Git-Problem einen Pull-Request erstellen.
Tesseract halluziniert nicht und scheint in diesem Fall korrekter zu sein. Das Einzige, was auffällt, ist „1fs“ in Zeile 4 und „\fs“ in Zeile 10 anstelle von „lfs“.
Claude macht auch durchweg einen ähnlichen Fehler und verwendet „tfs“ anstelle von „lfs“. Es ist überraschend, denn die Extrapolation der URL basierend auf dem Kontext zeigt, dass es den Kontext verstanden hat, aber dann anstelle von lfs, das in diesem Problembereich prominent ist, etwas völlig Neues geschaffen hat: tfs.
Was ich hier absolut atemberaubend fand, ist, dass man eine OCR-Engine hat, mit der man interagieren kann.
Mag die Eisvogel-Halluzination nicht … gut … bitten Sie sie einfach, diese Sache nicht zu tun.
Wirklich verblüffend, was man mit dieser Technologie machen kann:
(Entschuldigung für das kaputte Bild im Eröffnungspost, wir beheben es, das Bild ist)


