Discourse AI 插件中的人工智能图像描述功能

Falco · 2024 年2 月 20 日 17:53

我们已在 Discourse AI 插件中引入了 AI 图片字幕 功能，可为帖子中的图片自动生成字幕。此功能旨在提高内容的可访问性并丰富社区中的视觉元素。

您的反馈对于完善此功能至关重要。此功能在 Meta 上已启用，因此请在此主题中分享您的体验、遇到的问题或建议。

此功能支持开源模型 LLaVa 1.6 或 OpenAI API。

frold · 2024 年2 月 20 日 17:56

我之前在这篇帖子里用过它。我印象非常深刻。它能读取图片并告诉我这篇帖子的内容。

EricGT · 2024 年2 月 20 日 18:10

在 OpenAI 论坛上注意到这个

Jagster · 2024 年2 月 20 日 18:18

我不知道我们如何让移动用户记住使用它，因为他们必须跳出编辑器。

这个标题也用作替代文本吗？

Falco · 2024 年2 月 20 日 18:21

是的。

如果反响良好，我们计划在不久的将来添加即时提醒。

Falco · 2024 年2 月 21 日 17:00

pmusaraj · 2024 年2 月 20 日 22:15

它能看到格子衬衫，但它检测不到乔治·科斯坦萨。

开个玩笑，这对于#accessibility（无障碍访问）来说太棒了。在之前的A11Y（无障碍访问）报告中，图片缺少alt文本是提出的主要问题之一，而以前我们一直认为这些是用户上传的内容，所以无法处理。现在这为实现更好的无障碍访问指明了方向。

Tris20 · 2024 年2 月 21 日 08:23

在错误消息的情况下，有没有办法鼓励它为错误的主要部分添加字幕，以便搜索引擎能够识别它？

其他一些结果

它正确地将第三个识别为 IBM EWM 工具，但不识别 2 是 Rhapsody，1 是 Vector Davinci。尽管如此，这些字幕还是相当合理的。

tpetrov · 2024 年2 月 21 日 09:55

这是一个很棒的功能！

但是很难找到。用户需要将鼠标悬停在图片上才能看到按钮，然后点击它（大多数人不会知道这一点）。
即使我知道并且正在寻找该功能，我也必须查看视频才能知道我需要悬停。
在我看来，它应该“显而易见”，以便一开始就能使用。我甚至会默认创建字幕，而无需用户单击任何内容

Falco · 2024 年2 月 21 日 17:04

我们最终将使这些提示可自定义，这样就可以做到这一点。

作为一项新功能，我们的想法是以一种非常不显眼的方式推出它来收集反馈，然后使其更容易找到，甚至实现自动化。

JammyDodger · 2024 年3 月 12 日 09:36

6 个帖子被拆分到一个新主题：配置 AI 图像标题时出现问题

ecki · 2024 年3 月 15 日 12:41

这会将（互联网）图片链接发送到 AI 服务，还是上传图片内容，或者在 discourse 中本地运行一些“哈希”？这是服务器端还是 JavaScript（即向外部服务公开客户端 IP）。

Falco · 2024 年3 月 15 日 13:12

它会将图片的链接发送到您选择的用于字幕服务的服务器。由于涉及凭据，因此在服务器端进行。

如果您想要该功能但又不想涉及第三方，您可以随时在自己的服务器上运行 LLaVa。

ecki · 2024 年3 月 15 日 15:33

同意，但是质量可能会因为硬件限制而受到影响。也许你可以根据你的经验分享一些关于模型大小和量化的建议，或者最低显存要求。（不确定他们是否有量化模型，他们的“模型库”似乎只有完整模型）。

Falco · 2024 年3 月 15 日 15:46

我们运行的是完整模型，但最小的版本是 Mistral 7B。它在我们的单个 A100 服务器上占用了 21GB VRAM，并通过 ghcr.io/xfalcox/llava:latest 容器镜像运行。

遗憾的是，多模态模型的生态系统不如 text2text 模型成熟，因此我们还无法利用 vLLM 或 TGI 等推理服务器，只能依赖那些一次性的微服务。这种情况今年可能会有所改变，vLLM 的路线图上已经包含了多模态，但在此之前，我们至少可以利用这些服务试水。

seanblue · 2024 年3 月 21 日 22:34

我对此有一些小的用户体验反馈。在小图片上，“使用AI捕获”按钮不仅会遮挡图片本身，还会遮挡帖子中的其他文本，使得在编辑时难以查看帖子。

Moin · 2024 年3 月 21 日 22:55

mattdm · 2024 年4 月 12 日 13:59

我看到所有生成的字幕（包括在这里和我的网站上）都以“The image contains”或“An image of”或类似的短语开头。这似乎是不必要的和多余的。能否更新提示，告诉它不需要解释图像就是图像？

sam · 2024 年4 月 17 日 03:20

这很难精确调整，因为不同的模型有不同的容差，但我们有一个计划是允许社区所有者控制提示，以便他们可以进行实验。

Isambard · 2024 年6 月 3 日 17:11

@mattdm 您可以通过在生成答案前加上“An image of”来简单地实现这一点。这样，大型语言模型会认为它已经生成了介绍，只会生成剩余部分。

话题		回复	浏览量
Helper - captioning images Site Management how-to , ai , ai-captions	9	460	2025 年9 月 2 日
A forum forgets automatic AI caption Bug ai , ai-helper , fixed	5	290	2024 年8 月 10 日
Support image captions - in addition to alt text Feature	9	393	2026 年1 月 17 日
Issues configuring AI image captions Support ai , ai-helper	20	917	2024 年3 月 13 日
Non-AI method of captioning images Support	2	269	2024 年6 月 21 日