GPT-4 с поддержкой зрения теперь доступен

В настройках плагина ИИ я вижу этот список ботов ИИ, которые можно включить:


Интересно, является ли бот gpt-4-turbo ‘gpt-4-turbo-preview’ или ‘gpt-4-vision-preview’.
То есть, поддерживает ли он зрение?
Если это ‘gpt-4-turbo-preview’, будет ли также добавлена поддержка зрения? Мне кажется, это было бы полезно, так как, например, скриншот может помочь боту понять запрос пользователя.

Я не знаю ответа, и тем не менее Vision — это то же самое, что и 4: у него много проблем, и он может быть проблематичным. Но насколько мне известно, для Vision должен быть отдельный модель, а Discourse не использует собственный стиль именования.

К сведению: это поддерживается на Discourse Chatbot 🤖 (в режиме «Basic»)

1 лайк

Без RAG это выглядит немного бессильно; в остальном это приносит много удовольствия

2 лайка

Позвоните Сэму Олтману :phone:, ему нужно добавить функции в модель зрения.

3 лайка

В данный момент gpt-4-turbo == gpt-4-0125-preview, то есть без поддержки зрения.

@keegan изучает возможность интеграции работы с изображениями здесь:

В частности, добавление подписей к изображениям с помощью API для работы с изображениями (как открытых, так и закрытых моделей).

Мне очень нравится демонстрационная мощь подхода, когда вы начинаете личное сообщение с ботом, загружаете изображение и спрашиваете о нём, но нужно продумать поток, так как нам придётся переключаться между моделями.

Возможно, здесь может сработать концепция «автоматического инструмента»: если мы видим загрузку, автоматически перенаправляем запрос к инструменту, а затем возвращаемся к основной модели… подумаю над этим.

Технически интеграция этого функционала в нашей архитектуре не представляет особой сложности.

2 лайка

Спасибо, Сэм!

Согласно Vision - OpenAI API:

Функции Vision и Turbo должны быть в основном одинаковыми (хотя я не уверен, так как ещё не проводил тщательного тестирования).

1 лайк