こんにちは、https://meta.discourse.org/t/managing-images-in-ai-context/380828 というトピックを見つけました。このコンテキストについてもっと知りたいです。
現在の画像認識のロジックについて誰か説明していただけますか?
-
私はLM StudioでOpenAI互換APIを使用するQwen3-VL-8bを使用しています。以下のヒントには、Anthropic、Google、OpenAIモデルで画像がサポートされていると記載されています。Qwenにはチャンスがないということでしょうか?
-
Qwen3-VL-8b 画像/ドキュメントをモデルが認識できない場合の新しい紛らわしいメッセージ。
3.6.0.beta2では:

vision enabled = true と vision enabled = false の両方のケースで、AIボットは例外なく画像認識のリクエストに正しく対応します。
v2025.12.0-latestでは: 新しいオプション allowed attachments

現在、vision enabled = true の場合、ダイアログでエラーが返されます。
{“error”:“Invalid ‘content’: ‘content’ objects must have a ‘type’ field that is either ‘text’ or ‘image_url’.”}
- Gemma3-27b。テキストと画像を混在させたコンテンツの認識に関するいくつかの考察。現在のところ、応答はテキストのみをサポートしています。PDFのOCRレイヤーから分離された画像付きのテキストを提供するようにモデルに尋ねると、次のように返されます。

このURLには何もありません。モデルが偽のリンクを作成しました。
ありがとうございます!