Qwen3-VL-8bの画像認識の問題とGemma3-27bの混在テキスト画像コンテンツ

Ivan_Rapekas · 2025 年 12 月 11 日午前 10:55

こんにちは、https://meta.discourse.org/t/managing-images-in-ai-context/380828 というトピックを見つけました。このコンテキストについてもっと知りたいです。

現在の画像認識のロジックについて誰か説明していただけますか？

私はLM StudioでOpenAI互換APIを使用するQwen3-VL-8bを使用しています。以下のヒントには、Anthropic、Google、OpenAIモデルで画像がサポートされていると記載されています。Qwenにはチャンスがないということでしょうか？
Qwen3-VL-8b 画像/ドキュメントをモデルが認識できない場合の新しい紛らわしいメッセージ。

3.6.0.beta2では:

vision enabled = true と vision enabled = false の両方のケースで、AIボットは例外なく画像認識のリクエストに正しく対応します。

v2025.12.0-latestでは: 新しいオプション allowed attachments

現在、vision enabled = true の場合、ダイアログでエラーが返されます。

{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}

Gemma3-27b。テキストと画像を混在させたコンテンツの認識に関するいくつかの考察。現在のところ、応答はテキストのみをサポートしています。PDFのOCRレイヤーから分離された画像付きのテキストを提供するようにモデルに尋ねると、次のように返されます。

このURLには何もありません。モデルが偽のリンクを作成しました。

ありがとうございます！

sam · 2025 年 12 月 11 日午前 11:07

lmstudio は、補完または応答 API で PDF をサポートしていません。

私が確認した限りでは、画像/テキストのみをサポートしているようです。

Ivan_Rapekas · 2025 年 12 月 12 日午前 7:33

返信ありがとうございます！解決済みとしてマークし、LM Studio 0.3.xでは正しかった旨をここにコメントします。Studioチームは現在、新しいRESTを備えたバージョン0.4.0に取り組んでいます。彼らが応答にPDFサポートを追加することを願っています。

トピック		返信	表示
Ai plugin ocr support Feature ai	11	907	2024 年 4 月 2 日
Gemini ai bot to draw picture in chat Support ai	4	161	2025 年 4 月 13 日
Exploring blocking file upload while interacting with AI bot Feature ai , ai-bot	0	60	2026 年 1 月 11 日
Introduce alt-text for images on chat Feature chat	0	359	2023 年 2 月 22 日
How to solve discourse ai : No endpoints found that support tool use. To learn more about provider routing, Support ai	2	458	2025 年 10 月 20 日