Ich frage mich, ob der gpt-4-turbo-Bot ‘gpt-4-turbo-preview’ oder ‘gpt-4-vision-preview’ ist.
D. h. hat er Vision?
Wenn es sich um ‘gpt-4-turbo-preview’ handelt, wird dann auch Vision hinzugefügt? Ich denke, das wäre nützlich, da z. B. ein Screenshot dem Bot helfen kann, eine Benutzeranfrage zu verstehen.
Ich kenne die Antwort nicht, und doch ist Vision dasselbe wie 4, es hat viele Probleme und kann problematisch sein. Aber meines Wissens sollte es ein eigenes Modell für Vision geben und Discourse verwendet keinen eigenen Namensstil.
Insbesondere das Hinzufügen von Bildunterschriften zu Bildern über Vision-APIs (sowohl offene als auch geschlossene Modelle)
Ich mag die „Demo“-Möglichkeit wirklich… eine PM mit einem Bot starten, ein Bild hochladen und danach fragen, aber ich muss den Ablauf durchdenken, da wir zwischen den Modellen wechseln müssten.
Vielleicht kann ein Konzept von „Auto-Tool“ hier funktionieren, sodass wir bei einem Upload automatisch zum Tool weiterleiten und dann zurück zum Hauptmodell… ich werde darüber nachdenken.
Technisch gesehen ist die Anbindung in unserer Architektur nicht allzu komplex.