Je me demande si le bot gpt-4-turbo est ‘gpt-4-turbo-preview’ ou ‘gpt-4-vision-preview’.
C’est-à-dire, a-t-il la vision ?
S’il s’agit de ‘gpt-4-turbo-preview’, la vision sera-t-elle également ajoutée ? Je pense que ce serait utile car, par exemple, une capture d’écran peut aider le bot à comprendre la requête d’un utilisateur.
Je ne connais pas la réponse, et pourtant Vision est identique à 4, il a beaucoup de problèmes et peut être problématique. Mais à ma connaissance, il devrait y avoir un modèle propre à Vision et Discourse n’utilise pas son propre style de nommage.
Pour le moment, gpt-4-turbo est équivalent à gpt-4-0125-preview, c’est-à-dire sans vision.
@keegan explore une intégration de la vision ici :
Notamment l’ajout de légendes aux images via des API de vision (modèles ouverts et fermés).
J’aime beaucoup la puissance de la « démo »… démarrer un message privé avec un bot, télécharger une image et poser des questions à son sujet, mais il faut réfléchir au flux car nous devrions passer d’un modèle à l’autre.
Peut-être qu’un concept d’« outil automatique » pourrait fonctionner ici, de sorte que si nous détectons un téléchargement, nous le redirigeons automatiquement vers l’outil, puis de retour vers le modèle principal… je vais y réfléchir.
Techniquement, la mise en œuvre n’est pas trop complexe dans notre architecture.