是否可以为 Discourse AI 插件添加支持,以便将图像中的文本添加到帖子中(OCR)?是否可以为此添加 Google Lens API(Cloud Vision)支持?
我们已将其纳入路线图,以利用多模态 LLM 来创建图像描述,这还应提供一定程度的 OCR。但对于纯 OCR,也许可以试试那个插件?
我在旧版本的 Discourse 中使用过这个插件,它当时是有效的。但不幸的是,它在新版本的 Discourse 中不再有效了。
请参阅 https://meta.discourse.org/t/ai-image-captioning-feature-in-discourse-ai-plugin/296087,此功能现已准备就绪并在 meta 上启用。
我认为我们仍应保持此功能开放,字幕功能与 OCR 相关,但并非完全是 OCR。
例如,OCR 可以让您拍摄笔记照片,然后上传并精确打印。AI 字幕功能要复杂得多,但同样无法提供打印整页文本的保真度。
不确定我们何时有时间处理 OCR,但这确实感觉有些不同。
现在 Anthropic Claude 3 支持视觉功能,在 OCR 任务方面表现相当不错,例如:
哭泣的德语
![]()
![]()
说正经的,我很好奇它在这种图片上的表现如何:
Tesseract 的结果如下:
MINGW64 ~/Source/Repos/Sut. Driver. Firmware
git push Locking support detected on remote “origin”. Consider enabling it with: git config Ifs ‘1fs.locksverify true
LFS: Access forbidden. Check your access level.
error: failed to push some refs to
MINGW64 ~/Source/Repos/Sut. Driver. Firmware
git push Locking support detected on remote “origin”. Consider enabling it with: git config Ifs. /\fs.locksverify true
Uploading LFS objects: 100% (1/1), 584 KB | 0 B/s, done.
Enumerating objects: 9, done.
Counting objects: 100% (9/9), done.
Delta compression using up to 8 threads
Compressing objects: 100% (3/3), done.
Writing objects: 100% (5/5), 478 bytes | 478.00 KiB/s, done.
Total 5 (delta 1), reused 0 (delta 0), pack-reused 0 »
remote:
remote: To create a merge request for visit:
remote: 1
remote:
To
2c50e5b. . ba25f3e
L MINGN64 ~/Source/Repos /Sut. Driver. Firmware
(好吧,我对这个结果感到惊讶。Tesseract 在处理这类示例时经常会改变行顺序并出现字母错误。)
Sam,你能把这张图片发给 Claude 然后把结果发出来吗?
欢迎在此尝试,Claude 的创意人格在此具有视觉支持,刚刚启用它
https://meta.discourse.org/t/parsing-complex-json-data-in-tris20-code/301329
这要么是我的技术问题,要么是 Claude 有点麻烦 ![]()
是技术问题
我使用的是 Forum Helper 而不是 Creative personality。
Claude Creative 给了我们这个:
MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
git push Locking support detected on remote “origin”. Consider enabling it with: git config lfs.http://tfs.locksverify true
LFS: Access forbidden. Check your access level.
error: failed to push some refs to ‘http://tfs.lockeed/tfs/HnC/TEC/SUT/Driver%20Firmware/_git/Sut.Driver.Firmware’MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
git push Locking support detected on remote “origin”. Consider enabling it with: git config lfs.http://tfs.locked/tfs.locksverify true
Uploading LFS objects: 100% (1/1), 584 KB | 0 B/s, done.
Enumerating objects: 9, done.
Counting objects: 100% (9/9), done.
Delta compression using up to 8 threads
Compressing objects: 100% (3/3), done.
Writing objects: 100% (5/5), 478 bytes | 478.00 KiB/s, done.
Total 5 (delta 1), reused 0 (delta 0), pack-reused 0
remote: To create a merge request for kingfisher, visit:
remote: http://tfs.locked/tfs/HRC/TEC/SUT/_git/Sut.Driver.Firmware/pullrequest/new?sourceRef=kingfisher&targetRef=develop
remote:
To http://tfs.locked/tfs/HRC/TEC/SUT/_git/Sut.Driver.Firmware
2c50e5b…ba25f3e kingfisher - kingfisherMINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
$
有趣的结果。我觉得这两个例子中的两者大致相当,但存在不同的错误。Claude 在这里臆造了 URL,根据 git 问题进行了推测,认为我们正在进行 pull request。
Tesseract 不会臆造,在这种情况下似乎更正确。唯一突出的是第 4 行的 1fs 和第 10 行的 \\fs,而不是 lfs。
Claude 在整个过程中也犯了类似的错误,使用 tfs 而不是 lfs。这很令人惊讶,因为根据上下文推断 URL 表明它理解了上下文,但随后它没有使用这个领域中很重要的 lfs,而是创建了一个全新的东西:tfs。


