Me pregunto si el bot gpt-4-turbo es ‘gpt-4-turbo-preview’ o ‘gpt-4-vision-preview’.
Es decir, ¿tiene visión?
Si es ‘gpt-4-turbo-preview’, ¿se añadirá también la visión? Creo que sería útil, ya que, por ejemplo, una captura de pantalla puede ayudar al bot a comprender la consulta de un usuario.
No sé la respuesta, y sin embargo Vision es lo mismo que 4, tiene muchos problemas y puede ser problemático. Pero hasta donde sé, debería haber un modelo propio para Vision y Discourse no usa su propio estilo de nomenclatura.
En este momento gpt-4-turbo == gpt-4-0125-preview, es decir, sin visión.
@keegan está explorando alguna integración de visión aquí:
En particular, añadir subtítulos a las imágenes a través de las API de visión (modelos abiertos y cerrados).
Me gusta mucho el poder de “demostración” de… iniciar un MP con el bot, subir una imagen y preguntar sobre ella, pero necesito pensar en el flujo porque tendríamos que cambiar de modelo.
Quizás un concepto de “herramienta automática” pueda funcionar aquí, de modo que si vemos una carga, la enrutamos automáticamente a la herramienta y luego de vuelta al modelo principal… lo pensaré.
Técnicamente, conectar esto no es demasiado complejo dentro de nuestra arquitectura.