AIプラグイン OCR対応

Discourse AI プラグインに、画像内のテキストを投稿に追加する(OCR)サポートを追加できますか?Google レンズ API(Cloud Vision)のサポートを追加できますか?

例:GitHub - communiteq/discourse-ocr-uploads

「いいね!」 4

マルチモーダルLLMを活用して画像の説明を生成し、OCR機能も提供する予定です。しかし、純粋なOCRについては、そのプラグインを試してみてはいかがでしょうか?

「いいね!」 4

Discourse の古いバージョンではこのプラグインを使用していましたが、残念ながら Discourse の新しいバージョンでは動作しなくなりました。

「いいね!」 1

AI Image Captioning Feature in Discourse AI Plugin を参照してください。これは現在、ここで有効になっています。

「いいね!」 3

この機能ありがとうございます。試してみます @Falco @pmusaraj

「いいね!」 2

キャプション機能はOCRに隣接していますが、OCRそのものではないため、これはまだ開いたままにしておくべきだと思います。

例えばOCRでは、メモの写真を撮ってアップロードし、そのまま印刷することができます。AIキャプションはより洗練されていますが、ページ全体のテキストを印刷するほどの忠実度は得られません。

OCRに取り組む時間がいつになるかは分かりませんが、これは少し違うように感じます。

「いいね!」 6

Anthropic Claude 3 がビジョンサポートに対応し、OCRジョブを適切に処理できるようになりました。例えば、以下のリンクを参照してください。

「いいね!」 2

ドイツ語で泣く

:de: :beer: :leftwards_hand::sob: :rightwards_hand: :pretzel: :hotdog:


真面目な話、このような画像でどのように機能するか興味があります。

Tesseract は次のような結果を出力します。

MINGW64 ~/Source/Repos/Sut. Driver. Firmware
git push リモートでロックサポートが検出されました。「origin」。次のように有効にすることを検討してください。 git config Ifs ‘1fs.locksverify true
LFS: アクセスが拒否されました。アクセスレベルを確認してください。
エラー: 一部の参照をプッシュできませんでした
MINGW64 ~/Source/Repos/Sut. Driver. Firmware
git push リモートでロックサポートが検出されました。「origin」。次のように有効にすることを検討してください。 git config Ifs. /\fs.locksverify true
LFS オブジェクトのアップロード中: 100% (1/1)、584 KB | 0 B/s、完了。
オブジェクトの列挙中: 9、完了。
オブジェクトのカウント中: 100% (9/9)、完了。
最大 8 スレッドを使用したデルタ圧縮
オブジェクトの圧縮中: 100% (3/3)、完了。
オブジェクトの書き込み中: 100% (5/5)、478 バイト | 478.00 KiB/s、完了。
合計 5 (デルタ 1)、再利用 0 (デルタ 0)、パック再利用 0 »
remote:
remote: マージリクエストを作成するには、以下にアクセスしてください:
remote: 1
remote:
To
2c50e5b. . ba25f3e
L MINGN64 ~/Source/Repos /Sut. Driver. Firmware

(わかりました、この結果は非常にまともで驚いています。Tesseract はこれらの種類の例で、しばしば行の順序を変更したり、文字を誤認識したりします。)

Sam、その画像を Claude に投げて結果を投稿することは可能でしょうか?

どうぞこちらでお試しください。Claudeのクリエイティブペルソナにはビジョンサポートが搭載されており、有効化されたばかりです。

https://meta.discourse.org/t/parsing-complex-json-data-in-tris20-code/301329

これは私のスキルの問題か、それともClaudeが少し苦労しているかのどちらかです :sweat_smile:

スキル不足でした :sweat_smile: フォーラムヘルパーではなく、クリエイティブパーソナリティを使用していました。

Claude Creative は次のような結果を出力します。

MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
git push Locking support detected on remote “origin”. Consider enabling it with: git config lfs.http://tfs.locksverify true
LFS: Access forbidden. Check your access level.
error: failed to push some refs to ‘http://tfs.lockeed/tfs/HnC/TEC/SUT/Driver%20Firmware/_git/Sut.Driver.Firmware’

MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
git push Locking support detected on remote “origin”. Consider enabling it with: git config lfs.http://tfs.locked/tfs.locksverify true
Uploading LFS objects: 100% (1/1), 584 KB | 0 B/s, done.
Enumerating objects: 9, done.
Counting objects: 100% (9/9), done.
Delta compression using up to 8 threads
Compressing objects: 100% (3/3), done.
Writing objects: 100% (5/5), 478 bytes | 478.00 KiB/s, done.
Total 5 (delta 1), reused 0 (delta 0), pack-reused 0
remote: To create a merge request for kingfisher, visit:
remote: http://tfs.locked/tfs/HRC/TEC/SUT/_git/Sut.Driver.Firmware/pullrequest/new?sourceRef=kingfisher&targetRef=develop
remote:
To http://tfs.locked/tfs/HRC/TEC/SUT/_git/Sut.Driver.Firmware
2c50e5b…ba25f3e kingfisher - kingfisher

MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
$

興味深い結果です。両者はこの例では同等で、異なる誤りがあるように感じます。Claude は URL を幻覚し、git の問題に基づいてプルリクエストを行っていると推測して文脈上の推測をしています。

Tesseract は幻覚せず、この場合、より正確であるように見えます。際立っているのは、行 10 の \\fs と行 4 の 1fs だけで、lfs の代わりに使われています。

Claude も同様のエラーを繰り返し、lfs の代わりに tfs を使用しています。文脈に基づいて URL を外挿することでコンテキストを理解しているように見えますが、この問題領域で目立つ lfs の代わりに、完全に新しいものを作成しました:tfs

「いいね!」 1

ここで本当に驚いたのは、対話できるOCRエンジンがあることです。

カワセミの幻覚が好きではないなら…問題ありません…そのことはしないように頼むだけです。

この技術でできることは本当に驚異的です:

(OPの画像が壊れている場合は申し訳ありません、修正中です。画像は)

「いいね!」 1