Eu me pergunto se o bot gpt-4-turbo é ‘gpt-4-turbo-preview’ ou ‘gpt-4-vision-preview’
Ou seja, ele tem visão?
Se for ‘gpt-4-turbo-preview’, a visão também será adicionada? Acho que seria útil, pois, por exemplo, uma captura de tela pode ajudar o bot a entender a consulta de um usuário.
Não sei a resposta, e ainda assim o Vision é o mesmo que o 4, tem muitos problemas e pode ser problemático. Mas, que eu saiba, deveria haver um modelo próprio para Vision e o Discourse não usa seu próprio estilo de nomenclatura.
No momento, gpt-4-turbo == gpt-4-0125-preview, ou seja, sem visão.
@keegan está explorando alguma integração de visão aqui:
Particularmente adicionando legendas a imagens através de APIs de visão (modelos abertos e fechados).
Eu realmente gosto do poder de “demonstração” de… iniciar uma mensagem privada com o bot, fazer upload de uma imagem e perguntar sobre ela, mas preciso pensar no fluxo, pois precisaríamos alternar entre modelos.
Talvez um conceito de “ferramenta automática” possa funcionar aqui, então se virmos um upload, roteamos automaticamente para a ferramenta e depois de volta para o modelo principal… vou pensar sobre isso.
Tecnicamente, conectar isso não é muito complexo dentro de nossa arquitetura.