Mi chiedo se il bot gpt-4-turbo sia ‘gpt-4-turbo-preview’ o ‘gpt-4-vision-preview’
Cioè, ha la visione?
Se è ‘gpt-4-turbo-preview’ verrà aggiunta anche la visione? Penso che sarebbe utile poiché, ad esempio, uno screenshot può aiutare il bot a comprendere la query di un utente.
Non conosco la risposta, eppure Vision è uguale a 4, ha molti problemi e può essere problematico. Ma per quanto ne so, dovrebbe esserci un modello proprio per Vision e Discourse non usa uno stile di denominazione proprio.
Al momento gpt-4-turbo == gpt-4-0125-preview ovvero nessuna visione.
@keegan sta esplorando un’integrazione della visione qui:
In particolare, l’aggiunta di didascalie alle immagini tramite API di visione (sia modelli open che closed)
Mi piace molto il potere della “demo” di… avviare un PM con il bot, caricare un’immagine e chiedere informazioni, ma devo pensare al flusso perché dovremmo passare da un modello all’altro.
Forse un concetto di “strumento automatico” può funzionare qui, quindi se vediamo un caricamento lo indirizziamo automaticamente allo strumento e poi di nuovo al modello principale… ci penserò.
Tecnicamente, collegare questo non è troppo complesso all’interno della nostra architettura.