Hallo, ich habe ein Thema gefunden: https://meta.discourse.org/t/managing-images-in-ai-context/380828. Ich würde gerne mehr über diesen Kontext erfahren.
Könnte jemand die aktuelle Logik zum Verstehen von Bildern erläutern?
-
Ich verwende Qwen3-VL-8b mit LM Studio über eine OpenAI-kompatible API. Der Hinweis unten besagt, dass Bilder von Anthropic-, Google- und OpenAI-Modellen unterstützt werden. Keine Chance für Qwen, oder?
-
Qwen3-VL-8b Neue verwirrende Meldung, wenn das Modell ein Bild/Dokument nicht erkennen kann.
In 3.6.0.beta2:

Sowohl im Fall vision enabled = true als auch vision enabled = false verarbeitet der KI-Bot die Anforderung zur Bilderkennung korrekt, ohne jegliche Ausnahme.
In v2025.12.0-latest: neue Option allowed attachments (erlaubte Anhänge)

Jetzt gibt es bei vision enabled = true einen Fehler im Dialog zurück:
{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
- Gemma3-27b. Einige Gedanken zur Erkennung von gemischtem Text+Bild-Inhalt. Die Antwort unterstützt derzeit nur Text. Wenn ich das Modell bitte, einen Text aus der OCR-Schicht einer PDF mit getrennten Bildern zu liefern, gibt es zurück

Unter dieser URL befindet sich nichts, das Modell hat einen Fake-Link erstellt.
Danke!