Qwen3-VL-8bの画像認識の問題とGemma3-27bの混在テキスト画像コンテンツ

こんにちは、https://meta.discourse.org/t/managing-images-in-ai-context/380828 というトピックを見つけました。このコンテキストについてもっと知りたいです。

現在の画像認識のロジックについて誰か説明していただけますか?


  1. 私はLM StudioでOpenAI互換APIを使用するQwen3-VL-8bを使用しています。以下のヒントには、Anthropic、Google、OpenAIモデルで画像がサポートされていると記載されています。Qwenにはチャンスがないということでしょうか?

  2. Qwen3-VL-8b 画像/ドキュメントをモデルが認識できない場合の新しい紛らわしいメッセージ。

3.6.0.beta2では:

image

vision enabled = truevision enabled = false の両方のケースで、AIボットは例外なく画像認識のリクエストに正しく対応します。

v2025.12.0-latestでは: 新しいオプション allowed attachments

image

現在、vision enabled = true の場合、ダイアログでエラーが返されます

{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
  1. Gemma3-27b。テキストと画像を混在させたコンテンツの認識に関するいくつかの考察。現在のところ、応答はテキストのみをサポートしています。PDFのOCRレイヤーから分離された画像付きのテキストを提供するようにモデルに尋ねると、次のように返されます。

image

このURLには何もありません。モデルが偽のリンクを作成しました。

ありがとうございます!

lmstudio は、補完または応答 API で PDF をサポートしていません。

私が確認した限りでは、画像/テキストのみをサポートしているようです。

「いいね!」 1