人们会发布截图,能否有一种方法可以从图片中提取文本,并将其添加到帖子的底部
当然。Google OCR。
但不是通过 Discourse。而且我猜这种功能短期内不太可能推出 ![]()
您可能需要创建一个插件,方法是自己编写或聘请自由职业者 Marketplace
请看这个插件
顺便说一句,客户(@csmu)从未付钱给我 ![]()
快速浏览了一下这个插件,我是不是可以理解为图片会被发送到谷歌服务器进行处理?为什么不采用 Ruby gem 在本地或 Discourse 实例服务器上进行处理的方法呢?我对这个话题很感兴趣,但是将图片提交到外部不是一个可行的选项。
更好的性能、易于维护、避免本地安装的版本依赖。
我明白这并不总是可接受的方法。欢迎 PR,尽管用户应该始终能够避免本地依赖地狱。
有趣。我猜这主要集中在手写方面,对吧?如果只是从图像中提取文本,例如错误截图,那么本地 gem 可能就足够准确了。我以前玩过一个用于此类目的的 Python 库,并取得了一些不错的结果。有时结果很糟糕,但这些结果永远不会被社区读取,只会由搜索引擎读取。如果用户注意到一些愚蠢的东西,他们总是可以修改隐藏的文本。
我不要合理的结果,我要优秀的结果。
没有 OCR 能够提供出色的结果。即使是合理的结果也很难实现——无论使用什么库,
请注意,光学字符识别(OCR)通常处理的是屏幕截图,而不是扫描件或照片。它仍然无法做到 100% 准确,但它是可以尝试识别的文本类型。
我注意到 Mastodon 的 Web UI 在用于输入图像描述以提高可访问性的对话框中提供了一个 OCR 功能。它可能是在服务器端运行的。在我点击“从图片检测文本”后,它的样子是这样的:
很有趣。看起来它的结果与 Tesseract 相似。我想知道 Mastodon 工具如何处理包含图形和文本的图像?
一个崇高的目标
虽然我也有追求优秀结果的愿望,但我对 80% 的改进就心满意足了 ![]()
在我设想的场景中,目标是从屏幕截图中提取诸如错误消息之类的内容。例如,如果用户在终端中有一个错误日志,他们往往只会截屏。即使结果不完美,如果它能正确提取大约 80% 的文本,那么搜索错误消息或另一相关文本的人找到该主题的机会就比只有无法搜索的图像要大得多。
