Discourse AI Plugin の AI画像キャプション機能

Falco · 2024 年 2 月 20 日午後 5:53

Discourse AI プラグインに AI 画像キャプション 機能が導入され、投稿内の画像の自動キャプション生成が可能になりました。この機能は、コンテンツのアクセシビリティを向上させ、コミュニティ内のビジュアル要素を豊かにすることを目的としています。

機能と使用方法

自動 AI キャプション: エディタで画像をアップロードすると、AI を使用してキャプションを自動生成できます。
編集可能なキャプション: 生成されたキャプションは、コンテンツの文脈やトーンに合わせて編集できます。
アクセシビリティの向上: この機能は、スクリーンリーダーを使用するユーザーにとって、よりアクセシブルなコンテンツの作成をサポートします。

使用方法

Discourse エディタで画像をアップロードします。
画像の近くにある「AI でキャプションを付ける」ボタンをクリックします。
生成されたキャプションが表示されるので、必要に応じて変更できます。
キャプションを承認すると、投稿に含まれます。

フィードバック

この機能の改善には、皆様からのフィードバックが不可欠です。Meta で有効になっているので、このトピックでご経験、問題点、または提案を共有してください。

AI モデル

この機能は、オープンソースモデルの LLaVa 1.6 または OpenAI API のいずれかをサポートしています。

frold · 2024 年 2 月 20 日午後 5:56

面白い、この投稿の早い段階で使ったよ。とても感心した。画像の内容を読み取って、この投稿について何が書かれているかを教えてくれたんだ。

https://meta.discourse.org/t/discourse-subscriptions/140818/609?u=frold

EricGT · 2024 年 2 月 20 日午後 6:10

OpenAIフォーラムでこれを見ました

Jagster · 2024 年 2 月 20 日午後 6:18

モバイルユーザーがそれを使用することをどのように思い出させるか分かりません。エディターから離れる必要があるからです。

そのキャプションは代替テキストとしても使用されますか？

Falco · 2024 年 2 月 20 日午後 6:21

はい。

好評であれば、近い将来、JITリマインダーを追加する予定です。

Falco · 2024 年 2 月 21 日午後 5:00

2件の投稿が新しいトピックに分割されました: DiscourseAIでのプロンプトカスタマイズのサポート

pmusaraj · 2024 年 2 月 20 日午後 10:15

タータンチェックのシャツは認識できましたが、ジョージ・コスタンザは認識できませんでした。

冗談はさておき、これは特に#accessibilityにとって素晴らしいことです。以前のA11Yレポートでは、画像に代替テキストがないことが提起された主な項目の一つでしたが、画像はユーザーがアップロードしたコンテンツであるため、これまですべてを棚上げにしていました。これは、はるかに優れたアクセシビリティへの道筋を描くものです。

Tris20 · 2024 年 2 月 21 日午前 8:23

エラーメッセージの場合、検索エンジンが拾えるようにエラーの主要部分をキャプション付けすることを奨励する方法はありますか？

その他の結果

3番目をIBM EWMツールとして正しく識別していますが、2がRhapsodyであり、1がVector Davinciであることを認識していません。それにもかかわらず、これらのキャプションはかなり妥当です。

tpetrov · 2024 年 2 月 21 日午前 9:55

これは素晴らしい機能です！

しかし、見つけるのが非常に困難です。ユーザーはボタンを表示するために画像にカーソルを合わせ、その後クリックする必要があります（ほとんどの人はそのことを知りません）。

機能を探していたので知っていましたが、カーソルを合わせる必要があることを理解するためにビデオを確認する必要がありました。

私の意見では、最初に使用するには「目に飛び込んでくる」べきです。ユーザーが何もクリックする必要なく、デフォルトでキャプションを作成するようにすることさえできます

Falco · 2024 年 2 月 21 日午後 5:04

いずれはそれらのプロンプトをカスタマイズ可能にする予定ですので、そうすれば可能になります。

新機能として、非常に控えめな方法で導入し、フィードバックを収集してから、見つけやすく、さらには自動化することを目指しています。

JammyDodger · 2024 年 3 月 12 日午前 9:36

6件の投稿が新しいトピックに分割されました：AI画像キャプションの設定に関する問題

ecki · 2024 年 3 月 15 日午後 12:41

それは（インターネット）画像のリンクをAIサービスに送信するのですか、それとも画像コンテンツをアップロードするのですか、それともディスコースでローカルに「ハッシュ化」を実行するのですか？サーバーサイドですか、それともJavaScript（つまり、クライアントIPを外部サービスに公開する）ですか。

Falco · 2024 年 3 月 15 日午後 1:12

選択したキャプション作成サービスに画像のリンクを送信します。認証情報が関わるため、サーバーサイドで実行されます。

この機能を利用したいが、サードパーティを関与させたくない場合は、LLaVaを自身のサーバーで実行することもできます。

ecki · 2024 年 3 月 15 日午後 3:33

同意しますが、ハードウェアの制限により品質が低下する可能性があります。あなたの経験から、モデルサイズや量子化、または最小VRAMに関する推奨事項を共有していただけますか。（量子化されたモデルがあるかどうかはわかりません。彼らの「zoo」にはフルモデルしかないようです）。

Falco · 2024 年 3 月 15 日午後 3:46

Mistral 7B の最小バージョンであるフルモデルを実行していますが、単一の A100 サーバーで 21GB の VRAM を消費し、ghcr.io/xfalcox/llava:latest コンテナーイメージを介して実行されています。

残念ながら、マルチモーダルモデルのエコシステムは text2text モデルほど成熟していないため、vLLM や TGI のような推論サーバーを活用できず、これらの使い捨てマイクロサービスに頼らざるを得ません。今年は状況が変わるかもしれませんが、vLLM のロードマップにはマルチモーダルが含まれていますが、それまではこれらのサービスで少なくとも様子見をすることができます。

seanblue · 2024 年 3 月 21 日午後 10:34

これについて、いくつか小さなUXのフィードバックがあります。小さな画像では、「AIでキャプチャ」ボタンが画像自体だけでなく、投稿内の他のテキストもブロックするため、編集時に投稿を確認するのが難しくなります。

Moin · 2024 年 3 月 21 日午後 10:55

mattdm · 2024 年 4 月 12 日午後 1:59

生成されたすべてのキャプション（ここおよび私のサイトの両方）が「画像には～が含まれています」または「～の画像」などで始まるのですが、これは不要で冗長なようです。プロンプトを更新して、画像が画像であることを説明する必要がないように指示することは可能でしょうか？

sam · 2024 年 4 月 17 日午前 3:20

調整が難しいのは、モデルによって許容度が異なるためですが、コミュニティオーナーがプロンプトを制御できるようにして、実験できるようにする計画があります。

Isambard · 2024 年 6 月 3 日午後 5:11

@mattdm 「An image of」を生成された回答の先頭に挿入するだけで、これを実現できます。これにより、LLMはすでに導入部分を生成したと考え、残りの部分のみを生成します。

トピック		返信	表示
Helper - Auto caption Site Management how-to , ai , ai-captions	9	256	2025 年 9 月 2 日
A forum forgets automatic AI caption Bug ai , ai-helper , fixed	6	225	2024 年 8 月 12 日
Issues configuring AI image captions Support ai , ai-helper	21	693	2024 年 4 月 12 日
Non-AI method of captioning images Support	3	166	2024 年 6 月 21 日
Lets see your best AI Image Caption! General ai , ai-helper , ai-captions	38	2223	2024 年 6 月 29 日

Discourse AI Plugin の AI画像キャプション機能

機能と使用方法

使用方法

フィードバック

AI モデル

関連トピック