Функция подписей к изображениям на базе ИИ в плагине Discourse AI

Мы добавили в плагин Discourse AI функцию AI Image Captioning, которая позволяет автоматически генерировать подписи к изображениям в сообщениях. Эта функция направлена на повышение доступности контента и улучшение визуальных элементов в вашем сообществе.

Возможности и применение

  • Автоматические подписи с ИИ: При загрузке изображения в редакторе вы можете автоматически сгенерировать подпись с помощью ИИ.
  • Редактируемые подписи: Сгенерированную подпись можно отредактировать, чтобы она лучше соответствовала контексту и тону вашего контента.
  • Улучшенная доступность: Функция помогает создавать более доступный контент для пользователей, использующих программы чтения с экрана.

Как использовать

  1. Загрузите изображение в редакторе Discourse.
  2. Нажмите кнопку «Caption with AI» рядом с изображением.
  3. Появится сгенерированная подпись, которую вы сможете изменить.
  4. Подтвердите подпись, чтобы включить её в своё сообщение.

Обратная связь

Ваша обратная связь крайне важна для доработки этой функции. Она уже включена на Meta, поэтому, пожалуйста, делитесь своим опытом, проблемами или предложениями в этой теме.

Модель ИИ

Эта функция поддерживает как модель с открытым исходным кодом LLaVa 1.6, так и API OpenAI.

28 лайков

Забавно, я использовал его ранее в этом посте. Я был очень впечатлён. Он мог прочитать изображение и рассказать, о чём оно, в этом посте

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

6 лайков

Обсуждалось на форуме OpenAI

5 лайков

Я не знаю, как заставить мобильных пользователей помнить об этом, поскольку им приходится переключаться с редактора.

Используется ли эта подпись также в качестве альтернативного текста?

4 лайка

Да.

Мы планируем добавить напоминания JIT в ближайшее время, если реакция будет положительной.

7 лайков

2 сообщения были перенесены в новую тему: Поддержка настройки подсказок в DiscourseAI

Оно видит клетчатую рубашку, но не может распознать Джорджа Костанзу. :rofl:

Если шутки в сторону, это отлично, особенно для #доступности. В предыдущих отчётах по A11Y отсутствие альтернативного текста для изображений было одним из основных замечаний, и ранее мы списывали это на то, что изображения загружаются пользователями. Теперь это прокладывает путь к гораздо более высокой доступности.

13 лайков

В случае сообщений об ошибках существует ли способ заставить систему выделить основную часть ошибки в подписи, чтобы поисковая система могла её обнаружить?

Некоторые другие результаты

Оно правильно идентифицирует третий инструмент как IBM EWM, но не распознаёт второй как Rhapsody, а первый — как Vector Davinci. Тем не менее эти подписи довольно разумны.

5 лайков

Это потрясающая функция!

Но её очень сложно найти. Пользователю нужно навести курсор на изображение, чтобы увидеть кнопку, а затем нажать на неё (и большинство людей даже не знают об этом).
Даже зная об этом и целенаправленно разыскивая функцию, я вынужден был пересмотреть видео, чтобы понять, что нужно навести курсор.
По моему мнению, она должна быть максимально заметной и доступной с самого начала. Я бы даже сделал так, чтобы субтитры создавались по умолчанию, без необходимости нажатия каких-либо кнопок :drevil:

7 лайков

В будущем мы сделаем эти подсказки настраиваемыми, и тогда это станет возможным.

Как новая функция, мы планируем внедрить её максимально ненавязчиво, чтобы собрать обратную связь, а затем сделать её более заметной и даже автоматической.

10 лайков

6 сообщений были перенесены в новую тему: Проблемы с настройкой подписей к изображениям с помощью ИИ

Будет ли отправлена ссылка на изображение (из Интернета) в сервис ИИ, загружен ли контент изображения или выполнен какой-либо «хэшинг» локально в Discourse? Это серверная часть или JavaScript (то есть раскрытие IP-адреса клиента внешнему сервису).

3 лайка

Она отправляет ссылку на изображение в службу, выбранную для подписи. Это происходит на стороне сервера, так как используются учетные данные.

Если вы хотите использовать эту функцию, но не хотите привлекать третьих лиц, вы всегда можете запустить LLaVa на собственном сервере.

3 лайка

Согласен, однако качество может пострадать из-за ограничений оборудования. Возможно, вы могли бы поделиться рекомендациями относительно размеров моделей, квантования или минимального объема видеопамяти на основе вашего опыта. (Не уверен, что у них вообще есть квантованные модели, их “zoo”, похоже, содержит только полные модели).

2 лайка

Мы запускаем полную модель, но её наименьшую версию на базе Mistral 7B. Она потребляет 21 ГБ видеопамяти на наших серверах с одним GPU A100 и работает через образ контейнера ghcr.io/xfalcox/llava:latest.

К сожалению, экосистема для мультимодальных моделей пока не так развита, как для текстовых моделей (text2text), поэтому мы не можем пока использовать серверы инференса, такие как vLLM или TGI, и вынуждены полагаться на разовые микросервисы. Это может измениться в течение года: мультимодальность включена в дорожную карту vLLM, но до тех пор мы можем хотя бы протестировать возможности с помощью этих сервисов.

5 лайков

У меня есть небольшой фидбек по UX. На небольших изображениях кнопка «Создать с помощью ИИ» перекрывает не только само изображение, но и другой текст в посте, из-за чего сложно просматривать пост при редактировании.

3 лайка
4 лайка

Я вижу, что все сгенерированные подписи (как здесь, так и на моём сайте) начинаются со слов «На изображении изображено», «Изображение содержит» или подобных. Это кажется излишним и избыточным. Можно ли обновить промпт, чтобы модель не объясняла, что это изображение?

3 лайка

Это действительно сложно настроить, так как разные модели имеют разную чувствительность, но один из наших планов — предоставить владельцам сообществ контроль над подсказками, чтобы они могли экспериментировать.

5 лайков

@mattdm Вы можете легко добиться этого, предварительно задав начало сгенерированного ответа фразой «Изображение». Таким образом, LLM будет считать, что введение уже сгенерировано, и создаст только оставшуюся часть.

2 лайка