Qwen3-VL-8b Bilderkennungsprobleme und Gemma3-27b gemischte Text-Bild-Inhalte

Ivan_Rapekas · 11. Dezember 2025 um 10:55

Hallo, ich habe ein Thema gefunden: https://meta.discourse.org/t/managing-images-in-ai-context/380828. Ich würde gerne mehr über diesen Kontext erfahren.

Könnte jemand die aktuelle Logik zum Verstehen von Bildern erläutern?

Ich verwende Qwen3-VL-8b mit LM Studio über eine OpenAI-kompatible API. Der Hinweis unten besagt, dass Bilder von Anthropic-, Google- und OpenAI-Modellen unterstützt werden. Keine Chance für Qwen, oder?
Qwen3-VL-8b Neue verwirrende Meldung, wenn das Modell ein Bild/Dokument nicht erkennen kann.

In 3.6.0.beta2:

Sowohl im Fall vision enabled = true als auch vision enabled = false verarbeitet der KI-Bot die Anforderung zur Bilderkennung korrekt, ohne jegliche Ausnahme.

In v2025.12.0-latest: neue Option allowed attachments (erlaubte Anhänge)

Jetzt gibt es bei vision enabled = true einen Fehler im Dialog zurück:

{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}

Gemma3-27b. Einige Gedanken zur Erkennung von gemischtem Text+Bild-Inhalt. Die Antwort unterstützt derzeit nur Text. Wenn ich das Modell bitte, einen Text aus der OCR-Schicht einer PDF mit getrennten Bildern zu liefern, gibt es zurück

Unter dieser URL befindet sich nichts, das Modell hat einen Fake-Link erstellt.

Danke!

sam · 11. Dezember 2025 um 11:07

lmstudio unterstützt keine PDF-Unterstützung in der Vervollständigungs- oder Antwort-API.

Es unterstützt meiner Meinung nach nur Bilder/Text.

Ivan_Rapekas · 12. Dezember 2025 um 07:33

Vielen Dank für die Antwort! Ich werde es als gelöst markieren und hier einen Kommentar hinterlassen, dass es für LM Studio 0.3.x korrekt war. Das Studio-Team arbeitet derzeit an Version 0.4.0 mit neuer REST-API. Ich hoffe, sie fügen PDF-Unterstützung in ihre Antworten hinzu.

system · 11. Januar 2026 um 07:33

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.

Thema		Antworten	Aufrufe
Ai plugin ocr support Feature ai	11	868	2. April 2024
Gemini ai bot to draw picture in chat Support ai	4	147	13. April 2025
Exploring blocking file upload while interacting with AI bot Feature ai , ai-bot	0	46	11. Januar 2026
Managing Images in AI context Dev	0	73	28. August 2025
Introduce alt-text for images on chat Feature chat	0	349	22. Februar 2023

Qwen3-VL-8b Bilderkennungsprobleme und Gemma3-27b gemischte Text-Bild-Inhalte

Verwandte Themen