Falco
(Falco)
1
Discourse AI プラグインに AI 画像キャプション 機能が導入され、投稿内の画像の自動キャプション生成が可能になりました。この機能は、コンテンツのアクセシビリティを向上させ、コミュニティ内のビジュアル要素を豊かにすることを目的としています。
機能と使用方法
- 自動 AI キャプション: エディタで画像をアップロードすると、AI を使用してキャプションを自動生成できます。
- 編集可能なキャプション: 生成されたキャプションは、コンテンツの文脈やトーンに合わせて編集できます。
- アクセシビリティの向上: この機能は、スクリーンリーダーを使用するユーザーにとって、よりアクセシブルなコンテンツの作成をサポートします。
使用方法
- Discourse エディタで画像をアップロードします。
- 画像の近くにある「AI でキャプションを付ける」ボタンをクリックします。
- 生成されたキャプションが表示されるので、必要に応じて変更できます。
- キャプションを承認すると、投稿に含まれます。
フィードバック
この機能の改善には、皆様からのフィードバックが不可欠です。Meta で有効になっているので、このトピックでご経験、問題点、または提案を共有してください。
AI モデル
この機能は、オープンソースモデルの LLaVa 1.6 または OpenAI API のいずれかをサポートしています。
「いいね!」 28
frold
2
「いいね!」 6
Jagster
(Jakke Lehtonen)
4
モバイルユーザーがそれを使用することをどのように思い出させるか分かりません。エディターから離れる必要があるからです。
そのキャプションは代替テキストとしても使用されますか?
「いいね!」 4
Falco
(Falco)
5
はい。
好評であれば、近い将来、JITリマインダーを追加する予定です。
「いいね!」 7
Falco
(Falco)
このトピックを分割しました:
6
pmusaraj
(Penar Musaraj)
7
タータンチェックのシャツは認識できましたが、ジョージ・コスタンザは認識できませんでした。 
冗談はさておき、これは特に#accessibilityにとって素晴らしいことです。以前のA11Yレポートでは、画像に代替テキストがないことが提起された主な項目の一つでしたが、画像はユーザーがアップロードしたコンテンツであるため、これまですべてを棚上げにしていました。これは、はるかに優れたアクセシビリティへの道筋を描くものです。
「いいね!」 13
tpetrov
(Toni Petrov)
9
これは素晴らしい機能です!
しかし、見つけるのが非常に困難です。ユーザーはボタンを表示するために画像にカーソルを合わせ、その後クリックする必要があります(ほとんどの人はそのことを知りません)。
機能を探していたので知っていましたが、カーソルを合わせる必要があることを理解するためにビデオを確認する必要がありました。
私の意見では、最初に使用するには「目に飛び込んでくる」べきです。ユーザーが何もクリックする必要なく、デフォルトでキャプションを作成するようにすることさえできます 
「いいね!」 7
Falco
(Falco)
10
いずれはそれらのプロンプトをカスタマイズ可能にする予定ですので、そうすれば可能になります。
新機能として、非常に控えめな方法で導入し、フィードバックを収集してから、見つけやすく、さらには自動化することを目指しています。
「いいね!」 10
6件の投稿が新しいトピックに分割されました:AI画像キャプションの設定に関する問題
ecki
(Bernd)
14
それは(インターネット)画像のリンクをAIサービスに送信するのですか、それとも画像コンテンツをアップロードするのですか、それともディスコースでローカルに「ハッシュ化」を実行するのですか?サーバーサイドですか、それともJavaScript(つまり、クライアントIPを外部サービスに公開する)ですか。
「いいね!」 3
Falco
(Falco)
15
選択したキャプション作成サービスに画像のリンクを送信します。認証情報が関わるため、サーバーサイドで実行されます。
この機能を利用したいが、サードパーティを関与させたくない場合は、LLaVaを自身のサーバーで実行することもできます。
「いいね!」 3
ecki
(Bernd)
16
同意しますが、ハードウェアの制限により品質が低下する可能性があります。あなたの経験から、モデルサイズや量子化、または最小VRAMに関する推奨事項を共有していただけますか。(量子化されたモデルがあるかどうかはわかりません。彼らの「zoo」にはフルモデルしかないようです)。
「いいね!」 2
Falco
(Falco)
17
Mistral 7B の最小バージョンであるフルモデルを実行していますが、単一の A100 サーバーで 21GB の VRAM を消費し、ghcr.io/xfalcox/llava:latest コンテナーイメージを介して実行されています。
残念ながら、マルチモーダル モデルのエコシステムは text2text モデルほど成熟していないため、vLLM や TGI のような推論サーバーを活用できず、これらの使い捨てマイクロサービスに頼らざるを得ません。今年は状況が変わるかもしれませんが、vLLM のロードマップにはマルチモーダルが含まれていますが、それまではこれらのサービスで少なくとも様子見をすることができます。
「いいね!」 5
これについて、いくつか小さなUXのフィードバックがあります。小さな画像では、「AIでキャプチャ」ボタンが画像自体だけでなく、投稿内の他のテキストもブロックするため、編集時に投稿を確認するのが難しくなります。
「いいね!」 3
mattdm
(Matthew Miller)
21
生成されたすべてのキャプション(ここおよび私のサイトの両方)が「画像には~が含まれています」または「~の画像」などで始まるのですが、これは不要で冗長なようです。プロンプトを更新して、画像が画像であることを説明する必要がないように指示することは可能でしょうか?
「いいね!」 3
sam
(Sam Saffron)
22
調整が難しいのは、モデルによって許容度が異なるためですが、コミュニティオーナーがプロンプトを制御できるようにして、実験できるようにする計画があります。
「いいね!」 5
Isambard
(Isambard)
23
@mattdm 「An image of」を生成された回答の先頭に挿入するだけで、これを実現できます。これにより、LLMはすでに導入部分を生成したと考え、残りの部分のみを生成します。
「いいね!」 2