Функция подписей к изображениям на базе ИИ в плагине Discourse AI

Falco · 20.Февраль.2024 17:53:28

Мы добавили в плагин Discourse AI функцию AI Image Captioning, которая позволяет автоматически генерировать подписи к изображениям в сообщениях. Эта функция направлена на повышение доступности контента и улучшение визуальных элементов в вашем сообществе.

Возможности и применение

Автоматические подписи с ИИ: При загрузке изображения в редакторе вы можете автоматически сгенерировать подпись с помощью ИИ.
Редактируемые подписи: Сгенерированную подпись можно отредактировать, чтобы она лучше соответствовала контексту и тону вашего контента.
Улучшенная доступность: Функция помогает создавать более доступный контент для пользователей, использующих программы чтения с экрана.

Как использовать

Загрузите изображение в редакторе Discourse.
Нажмите кнопку «Caption with AI» рядом с изображением.
Появится сгенерированная подпись, которую вы сможете изменить.
Подтвердите подпись, чтобы включить её в своё сообщение.

Обратная связь

Ваша обратная связь крайне важна для доработки этой функции. Она уже включена на Meta, поэтому, пожалуйста, делитесь своим опытом, проблемами или предложениями в этой теме.

Модель ИИ

Эта функция поддерживает как модель с открытым исходным кодом LLaVa 1.6, так и API OpenAI.

frold · 20.Февраль.2024 17:56:46

Забавно, я использовал его ранее в этом посте. Я был очень впечатлён. Он мог прочитать изображение и рассказать, о чём оно, в этом посте

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

EricGT · 20.Февраль.2024 18:10:07

Обсуждалось на форуме OpenAI

Jagster · 20.Февраль.2024 18:18:36

Я не знаю, как заставить мобильных пользователей помнить об этом, поскольку им приходится переключаться с редактора.

Используется ли эта подпись также в качестве альтернативного текста?

Falco · 20.Февраль.2024 18:21:03

Да.

Мы планируем добавить напоминания JIT в ближайшее время, если реакция будет положительной.

Falco · 21.Февраль.2024 17:00:10

2 сообщения были перенесены в новую тему: Поддержка настройки подсказок в DiscourseAI

pmusaraj · 20.Февраль.2024 22:15:37

Оно видит клетчатую рубашку, но не может распознать Джорджа Костанзу.

Если шутки в сторону, это отлично, особенно для #доступности. В предыдущих отчётах по A11Y отсутствие альтернативного текста для изображений было одним из основных замечаний, и ранее мы списывали это на то, что изображения загружаются пользователями. Теперь это прокладывает путь к гораздо более высокой доступности.

Tris20 · 21.Февраль.2024 08:23:24

В случае сообщений об ошибках существует ли способ заставить систему выделить основную часть ошибки в подписи, чтобы поисковая система могла её обнаружить?

Некоторые другие результаты

Оно правильно идентифицирует третий инструмент как IBM EWM, но не распознаёт второй как Rhapsody, а первый — как Vector Davinci. Тем не менее эти подписи довольно разумны.

tpetrov · 21.Февраль.2024 09:55:09

Это потрясающая функция!

Но её очень сложно найти. Пользователю нужно навести курсор на изображение, чтобы увидеть кнопку, а затем нажать на неё (и большинство людей даже не знают об этом).
Даже зная об этом и целенаправленно разыскивая функцию, я вынужден был пересмотреть видео, чтобы понять, что нужно навести курсор.
По моему мнению, она должна быть максимально заметной и доступной с самого начала. Я бы даже сделал так, чтобы субтитры создавались по умолчанию, без необходимости нажатия каких-либо кнопок

Falco · 21.Февраль.2024 17:04:04

В будущем мы сделаем эти подсказки настраиваемыми, и тогда это станет возможным.

Как новая функция, мы планируем внедрить её максимально ненавязчиво, чтобы собрать обратную связь, а затем сделать её более заметной и даже автоматической.

JammyDodger · 12.Март.2024 09:36:00

6 сообщений были перенесены в новую тему: Проблемы с настройкой подписей к изображениям с помощью ИИ

ecki · 15.Март.2024 12:41:53

Будет ли отправлена ссылка на изображение (из Интернета) в сервис ИИ, загружен ли контент изображения или выполнен какой-либо «хэшинг» локально в Discourse? Это серверная часть или JavaScript (то есть раскрытие IP-адреса клиента внешнему сервису).

Falco · 15.Март.2024 13:12:17

Она отправляет ссылку на изображение в службу, выбранную для подписи. Это происходит на стороне сервера, так как используются учетные данные.

Если вы хотите использовать эту функцию, но не хотите привлекать третьих лиц, вы всегда можете запустить LLaVa на собственном сервере.

ecki · 15.Март.2024 15:33:28

Согласен, однако качество может пострадать из-за ограничений оборудования. Возможно, вы могли бы поделиться рекомендациями относительно размеров моделей, квантования или минимального объема видеопамяти на основе вашего опыта. (Не уверен, что у них вообще есть квантованные модели, их “zoo”, похоже, содержит только полные модели).

Falco · 15.Март.2024 15:46:57

Мы запускаем полную модель, но её наименьшую версию на базе Mistral 7B. Она потребляет 21 ГБ видеопамяти на наших серверах с одним GPU A100 и работает через образ контейнера ghcr.io/xfalcox/llava:latest.

К сожалению, экосистема для мультимодальных моделей пока не так развита, как для текстовых моделей (text2text), поэтому мы не можем пока использовать серверы инференса, такие как vLLM или TGI, и вынуждены полагаться на разовые микросервисы. Это может измениться в течение года: мультимодальность включена в дорожную карту vLLM, но до тех пор мы можем хотя бы протестировать возможности с помощью этих сервисов.

seanblue · 21.Март.2024 22:34:15

У меня есть небольшой фидбек по UX. На небольших изображениях кнопка «Создать с помощью ИИ» перекрывает не только само изображение, но и другой текст в посте, из-за чего сложно просматривать пост при редактировании.

Moin · 21.Март.2024 22:55:04

mattdm · 12.Апрель.2024 13:59:38

Я вижу, что все сгенерированные подписи (как здесь, так и на моём сайте) начинаются со слов «На изображении изображено», «Изображение содержит» или подобных. Это кажется излишним и избыточным. Можно ли обновить промпт, чтобы модель не объясняла, что это изображение?

sam · 17.Апрель.2024 03:20:55

Это действительно сложно настроить, так как разные модели имеют разную чувствительность, но один из наших планов — предоставить владельцам сообществ контроль над подсказками, чтобы они могли экспериментировать.

Isambard · 03.Июнь.2024 17:11:00

@mattdm Вы можете легко добиться этого, предварительно задав начало сгенерированного ответа фразой «Изображение». Таким образом, LLM будет считать, что введение уже сгенерировано, и создаст только оставшуюся часть.

Тема		Ответов	Просм.
Helper - captioning images Site Management how-to , ai , ai-captions	9	460	02.09.2025
A forum forgets automatic AI caption Bug ai , ai-helper , fixed	5	290	10.08.2024
Support image captions - in addition to alt text Feature	9	393	17.01.2026
Issues configuring AI image captions Support ai , ai-helper	20	917	13.03.2024
Non-AI method of captioning images Support	2	269	21.06.2024

Функция подписей к изображениям на базе ИИ в плагине Discourse AI

Возможности и применение

Как использовать

Обратная связь

Модель ИИ

Связанные темы