GPT-4 com visão disponível

Nas configurações do plugin de IA, posso ver esta lista de bots de IA que posso ativar:


Eu me pergunto se o bot gpt-4-turbo é ‘gpt-4-turbo-preview’ ou ‘gpt-4-vision-preview’
Ou seja, ele tem visão?
Se for ‘gpt-4-turbo-preview’, a visão também será adicionada? Acho que seria útil, pois, por exemplo, uma captura de tela pode ajudar o bot a entender a consulta de um usuário.

Não sei a resposta, e ainda assim o Vision é o mesmo que o 4, tem muitos problemas e pode ser problemático. Mas, que eu saiba, deveria haver um modelo próprio para Vision e o Discourse não usa seu próprio estilo de nomenclatura.

FYI isso é suportado em Discourse Chatbot 🤖 (para o modo “Básico”)

1 curtida

(Sem RAG, o que o torna um pouco inofensivo; caso contrário, ele proporciona muita diversão)

2 curtidas

Por favor, ligue para Sam Altman :phone:, ele precisa adicionar funções ao modelo de visão.

3 curtidas

No momento, gpt-4-turbo == gpt-4-0125-preview, ou seja, sem visão.

@keegan está explorando alguma integração de visão aqui:

Particularmente adicionando legendas a imagens através de APIs de visão (modelos abertos e fechados).

Eu realmente gosto do poder de “demonstração” de… iniciar uma mensagem privada com o bot, fazer upload de uma imagem e perguntar sobre ela, mas preciso pensar no fluxo, pois precisaríamos alternar entre modelos.

Talvez um conceito de “ferramenta automática” possa funcionar aqui, então se virmos um upload, roteamos automaticamente para a ferramenta e depois de volta para o modelo principal… vou pensar sobre isso.

Tecnicamente, conectar isso não é muito complexo dentro de nossa arquitetura.

2 curtidas

Obrigado, Sam!

De acordo com Visão - API da OpenAI

Visão e turbo devem ser praticamente a mesma coisa (não tenho certeza, ainda não testei completamente).

1 curtida