Falco
(Falco)
1
我们已在 Discourse AI 插件中引入了 AI 图片字幕 功能,可为帖子中的图片自动生成字幕。此功能旨在提高内容的可访问性并丰富社区中的视觉元素。
功能和用途
- 自动 AI 字幕:在编辑器中上传图片后,您可以使用 AI 自动生成字幕。
- 可编辑字幕:生成的字幕可以进行编辑,以更好地适应您内容的上下文和语气。
- 增强的可访问性:该功能支持为依赖屏幕阅读器的用户创建更易于访问的内容。
如何使用
- 在 Discourse 编辑器中上传图片。
- 点击图片附近的“使用 AI 添加字幕”按钮。
- 将出现生成的字幕,您可以对其进行修改。
- 接受字幕以将其包含在您的帖子中。
反馈
您的反馈对于完善此功能至关重要。此功能在 Meta 上已启用,因此请在此主题中分享您的体验、遇到的问题或建议。
AI 模型
此功能支持开源模型 LLaVa 1.6 或 OpenAI API。
28 个赞
frold
2
6 个赞
Jagster
(Jakke Lehtonen)
4
我不知道我们如何让移动用户记住使用它,因为他们必须跳出编辑器。
这个标题也用作替代文本吗?
4 个赞
Falco
(Falco)
拆分了此话题
6
pmusaraj
(Penar Musaraj)
7
它能看到格子衬衫,但它检测不到乔治·科斯坦萨。
开个玩笑,这对于#accessibility(无障碍访问)来说太棒了。在之前的A11Y(无障碍访问)报告中,图片缺少alt文本是提出的主要问题之一,而以前我们一直认为这些是用户上传的内容,所以无法处理。现在这为实现更好的无障碍访问指明了方向。
13 个赞
Tris20
(Tristan)
8
在错误消息的情况下,有没有办法鼓励它为错误的主要部分添加字幕,以便搜索引擎能够识别它?
其他一些结果
它正确地将第三个识别为 IBM EWM 工具,但不识别 2 是 Rhapsody,1 是 Vector Davinci。尽管如此,这些字幕还是相当合理的。
5 个赞
tpetrov
(Toni Petrov)
9
这是一个很棒的功能!
但是很难找到。用户需要将鼠标悬停在图片上才能看到按钮,然后点击它(大多数人不会知道这一点)。
即使我知道并且正在寻找该功能,我也必须查看视频才能知道我需要悬停。
在我看来,它应该“显而易见”,以便一开始就能使用。我甚至会默认创建字幕,而无需用户单击任何内容 
7 个赞
Falco
(Falco)
10
我们最终将使这些提示可自定义,这样就可以做到这一点。
作为一项新功能,我们的想法是以一种非常不显眼的方式推出它来收集反馈,然后使其更容易找到,甚至实现自动化。
10 个赞
6 个帖子被拆分到一个新主题:配置 AI 图像标题时出现问题
ecki
(Bernd)
14
这会将(互联网)图片链接发送到 AI 服务,还是上传图片内容,或者在 discourse 中本地运行一些“哈希”?这是服务器端还是 JavaScript(即向外部服务公开客户端 IP)。
3 个赞
Falco
(Falco)
15
它会将图片的链接发送到您选择的用于字幕服务的服务器。由于涉及凭据,因此在服务器端进行。
如果您想要该功能但又不想涉及第三方,您可以随时在自己的服务器上运行 LLaVa。
3 个赞
ecki
(Bernd)
16
同意,但是质量可能会因为硬件限制而受到影响。也许你可以根据你的经验分享一些关于模型大小和量化的建议,或者最低显存要求。(不确定他们是否有量化模型,他们的“模型库”似乎只有完整模型)。
2 个赞
Falco
(Falco)
17
我们运行的是完整模型,但最小的版本是 Mistral 7B。它在我们的单个 A100 服务器上占用了 21GB VRAM,并通过 ghcr.io/xfalcox/llava:latest 容器镜像运行。
遗憾的是,多模态模型的生态系统不如 text2text 模型成熟,因此我们还无法利用 vLLM 或 TGI 等推理服务器,只能依赖那些一次性的微服务。这种情况今年可能会有所改变,vLLM 的路线图上已经包含了多模态,但在此之前,我们至少可以利用这些服务试水。
5 个赞
我对此有一些小的用户体验反馈。在小图片上,“使用AI捕获”按钮不仅会遮挡图片本身,还会遮挡帖子中的其他文本,使得在编辑时难以查看帖子。
3 个赞
mattdm
(Matthew Miller)
21
我看到所有生成的字幕(包括在这里和我的网站上)都以“The image contains”或“An image of”或类似的短语开头。这似乎是不必要的和多余的。能否更新提示,告诉它不需要解释图像就是图像?
3 个赞
sam
(Sam Saffron)
22
这很难精确调整,因为不同的模型有不同的容差,但我们有一个计划是允许社区所有者控制提示,以便他们可以进行实验。
5 个赞
Isambard
(Isambard)
23
@mattdm 您可以通过在生成答案前加上“An image of”来简单地实现这一点。这样,大型语言模型会认为它已经生成了介绍,只会生成剩余部分。
2 个赞