GPT-4 con visión disponible

En la configuración del plugin de IA puedo ver esta lista de bots de IA que puedo habilitar:


Me pregunto si el bot gpt-4-turbo es ‘gpt-4-turbo-preview’ o ‘gpt-4-vision-preview’.
Es decir, ¿tiene visión?
Si es ‘gpt-4-turbo-preview’, ¿se añadirá también la visión? Creo que sería útil, ya que, por ejemplo, una captura de pantalla puede ayudar al bot a comprender la consulta de un usuario.

No sé la respuesta, y sin embargo Vision es lo mismo que 4, tiene muchos problemas y puede ser problemático. Pero hasta donde sé, debería haber un modelo propio para Vision y Discourse no usa su propio estilo de nomenclatura.

Para tu información, esto es compatible en Discourse Chatbot 🤖 (para el modo “Básico”)

1 me gusta

(Sin RAG, lo que lo hace un poco inofensivo; de lo contrario, es muy divertido)

2 Me gusta

Por favor, llama a Sam Altman :phone:, necesita añadir funciones al modelo de visión.

3 Me gusta

En este momento gpt-4-turbo == gpt-4-0125-preview, es decir, sin visión.

@keegan está explorando alguna integración de visión aquí:

En particular, añadir subtítulos a las imágenes a través de las API de visión (modelos abiertos y cerrados).

Me gusta mucho el poder de “demostración” de… iniciar un MP con el bot, subir una imagen y preguntar sobre ella, pero necesito pensar en el flujo porque tendríamos que cambiar de modelo.

Quizás un concepto de “herramienta automática” pueda funcionar aquí, de modo que si vemos una carga, la enrutamos automáticamente a la herramienta y luego de vuelta al modelo principal… lo pensaré.

Técnicamente, conectar esto no es demasiado complejo dentro de nuestra arquitectura.

2 Me gusta

¡Gracias, Sam!

Según Visión - API de OpenAI

Visión y Turbo deberían ser en su mayoría lo mismo (aunque no estoy seguro, aún no lo he probado a fondo).

1 me gusta