Интересно, является ли бот gpt-4-turbo ‘gpt-4-turbo-preview’ или ‘gpt-4-vision-preview’.
То есть, поддерживает ли он зрение?
Если это ‘gpt-4-turbo-preview’, будет ли также добавлена поддержка зрения? Мне кажется, это было бы полезно, так как, например, скриншот может помочь боту понять запрос пользователя.
Я не знаю ответа, и тем не менее Vision — это то же самое, что и 4: у него много проблем, и он может быть проблематичным. Но насколько мне известно, для Vision должен быть отдельный модель, а Discourse не использует собственный стиль именования.
В данный момент gpt-4-turbo == gpt-4-0125-preview, то есть без поддержки зрения.
@keegan изучает возможность интеграции работы с изображениями здесь:
В частности, добавление подписей к изображениям с помощью API для работы с изображениями (как открытых, так и закрытых моделей).
Мне очень нравится демонстрационная мощь подхода, когда вы начинаете личное сообщение с ботом, загружаете изображение и спрашиваете о нём, но нужно продумать поток, так как нам придётся переключаться между моделями.
Возможно, здесь может сработать концепция «автоматического инструмента»: если мы видим загрузку, автоматически перенаправляем запрос к инструменту, а затем возвращаемся к основной модели… подумаю над этим.
Технически интеграция этого функционала в нашей архитектуре не представляет особой сложности.