Qwen3-VL-8b Bilderkennungsprobleme und Gemma3-27b gemischte Text-Bild-Inhalte

Hallo, ich habe ein Thema gefunden: https://meta.discourse.org/t/managing-images-in-ai-context/380828. Ich würde gerne mehr über diesen Kontext erfahren.

Könnte jemand die aktuelle Logik zum Verstehen von Bildern erläutern?


  1. Ich verwende Qwen3-VL-8b mit LM Studio über eine OpenAI-kompatible API. Der Hinweis unten besagt, dass Bilder von Anthropic-, Google- und OpenAI-Modellen unterstützt werden. Keine Chance für Qwen, oder?

  2. Qwen3-VL-8b Neue verwirrende Meldung, wenn das Modell ein Bild/Dokument nicht erkennen kann.

In 3.6.0.beta2:

image

Sowohl im Fall vision enabled = true als auch vision enabled = false verarbeitet der KI-Bot die Anforderung zur Bilderkennung korrekt, ohne jegliche Ausnahme.

In v2025.12.0-latest: neue Option allowed attachments (erlaubte Anhänge)

image

Jetzt gibt es bei vision enabled = true einen Fehler im Dialog zurück:

{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
  1. Gemma3-27b. Einige Gedanken zur Erkennung von gemischtem Text+Bild-Inhalt. Die Antwort unterstützt derzeit nur Text. Wenn ich das Modell bitte, einen Text aus der OCR-Schicht einer PDF mit getrennten Bildern zu liefern, gibt es zurück

image

Unter dieser URL befindet sich nichts, das Modell hat einen Fake-Link erstellt.

Danke!

lmstudio unterstützt keine PDF-Unterstützung in der Vervollständigungs- oder Antwort-API.

Es unterstützt meiner Meinung nach nur Bilder/Text.

1 „Gefällt mir“