Discourse AI 插件中的人工智能图像描述功能

我们已在 Discourse AI 插件中引入了 AI 图片字幕 功能,可为帖子中的图片自动生成字幕。此功能旨在提高内容的可访问性并丰富社区中的视觉元素。

功能和用途

  • 自动 AI 字幕:在编辑器中上传图片后,您可以使用 AI 自动生成字幕。
  • 可编辑字幕:生成的字幕可以进行编辑,以更好地适应您内容的上下文和语气。
  • 增强的可访问性:该功能支持为依赖屏幕阅读器的用户创建更易于访问的内容。

如何使用

  1. 在 Discourse 编辑器中上传图片。
  2. 点击图片附近的“使用 AI 添加字幕”按钮。
  3. 将出现生成的字幕,您可以对其进行修改。
  4. 接受字幕以将其包含在您的帖子中。

反馈

您的反馈对于完善此功能至关重要。此功能在 Meta 上已启用,因此请在此主题中分享您的体验、遇到的问题或建议。

AI 模型

此功能支持开源模型 LLaVa 1.6 或 OpenAI API。

28 个赞

我之前在这篇帖子里用过它。我印象非常深刻。它能读取图片并告诉我这篇帖子的内容。

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

6 个赞

在 OpenAI 论坛上注意到这个

5 个赞

我不知道我们如何让移动用户记住使用它,因为他们必须跳出编辑器。

这个标题也用作替代文本吗?

4 个赞

是的。

如果反响良好,我们计划在不久的将来添加即时提醒。

7 个赞

2 篇帖子已拆分为新主题:DiscourseAI 中的提示自定义支持

它能看到格子衬衫,但它检测不到乔治·科斯坦萨。:rofl:

开个玩笑,这对于#accessibility(无障碍访问)来说太棒了。在之前的A11Y(无障碍访问)报告中,图片缺少alt文本是提出的主要问题之一,而以前我们一直认为这些是用户上传的内容,所以无法处理。现在这为实现更好的无障碍访问指明了方向。

13 个赞

在错误消息的情况下,有没有办法鼓励它为错误的主要部分添加字幕,以便搜索引擎能够识别它?

其他一些结果

它正确地将第三个识别为 IBM EWM 工具,但不识别 2 是 Rhapsody,1 是 Vector Davinci。尽管如此,这些字幕还是相当合理的。

5 个赞

这是一个很棒的功能!

但是很难找到。用户需要将鼠标悬停在图片上才能看到按钮,然后点击它(大多数人不会知道这一点)。
即使我知道并且正在寻找该功能,我也必须查看视频才能知道我需要悬停。
在我看来,它应该“显而易见”,以便一开始就能使用。我甚至会默认创建字幕,而无需用户单击任何内容 :drevil:

7 个赞

我们最终将使这些提示可自定义,这样就可以做到这一点。

作为一项新功能,我们的想法是以一种非常不显眼的方式推出它来收集反馈,然后使其更容易找到,甚至实现自动化。

10 个赞

6 个帖子被拆分到一个新主题:配置 AI 图像标题时出现问题

这会将(互联网)图片链接发送到 AI 服务,还是上传图片内容,或者在 discourse 中本地运行一些“哈希”?这是服务器端还是 JavaScript(即向外部服务公开客户端 IP)。

3 个赞

它会将图片的链接发送到您选择的用于字幕服务的服务器。由于涉及凭据,因此在服务器端进行。

如果您想要该功能但又不想涉及第三方,您可以随时在自己的服务器上运行 LLaVa。

3 个赞

同意,但是质量可能会因为硬件限制而受到影响。也许你可以根据你的经验分享一些关于模型大小和量化的建议,或者最低显存要求。(不确定他们是否有量化模型,他们的“模型库”似乎只有完整模型)。

2 个赞

我们运行的是完整模型,但最小的版本是 Mistral 7B。它在我们的单个 A100 服务器上占用了 21GB VRAM,并通过 ghcr.io/xfalcox/llava:latest 容器镜像运行。

遗憾的是,多模态模型的生态系统不如 text2text 模型成熟,因此我们还无法利用 vLLM 或 TGI 等推理服务器,只能依赖那些一次性的微服务。这种情况今年可能会有所改变,vLLM 的路线图上已经包含了多模态,但在此之前,我们至少可以利用这些服务试水。

5 个赞

我对此有一些小的用户体验反馈。在小图片上,“使用AI捕获”按钮不仅会遮挡图片本身,还会遮挡帖子中的其他文本,使得在编辑时难以查看帖子。

3 个赞
4 个赞

我看到所有生成的字幕(包括在这里和我的网站上)都以“The image contains”或“An image of”或类似的短语开头。这似乎是不必要的和多余的。能否更新提示,告诉它不需要解释图像就是图像?

3 个赞

这很难精确调整,因为不同的模型有不同的容差,但我们有一个计划是允许社区所有者控制提示,以便他们可以进行实验。

5 个赞

@mattdm 您可以通过在生成答案前加上“An image of”来简单地实现这一点。这样,大型语言模型会认为它已经生成了介绍,只会生成剩余部分。

2 个赞