スクリーンショットが投稿されることがありますが、画像からテキストを抽出し、投稿の末尾に追加する方法はありますか
はい。Google OCRです。
ただし、Discourseではありません。また、そのような機能は当面利用可能にならないと思います ![]()
プラグインを作成する必要があると思います。自分で作成するか、フリーランサーに依頼するかです Marketplace
このプラグインをご覧ください
ちなみにクライアント(@csmu)は一度も支払ってくれませんでした🤬
@michaeld さん、こんにちは。
このプラグインをざっと見たのですが、画像は処理のためにGoogleのサーバーに送信されるということで合っていますか?ローカルまたはDiscourseインスタンスのサーバーで処理するRuby gemを使用するのではなく、このアプローチを採用した理由は何でしょうか?このトピックには興味があるのですが、外部に画像を送信することはできません。
パフォーマンスの向上、メンテナンスの容易さ、ローカルインストールのバージョン依存の回避。
これは常に許容できるアプローチではないことを理解しています。PRは歓迎しますが、ユーザーは常にローカルの依存関係地獄を回避できるはずです。
面白いですね。これは主に手書きに焦点を当てていたのだと思いますが、そうですよね?もし単純に画像からテキストを抽出するだけであれば、例えばエラーのスクリーンショットのようなものであれば、ローカルのgemでも十分正確かもしれません。以前、私はこれに似た目的でPythonライブラリを試したことがあり、そこそこ良い結果が得られました。時にはひどい結果になることもありましたが、その結果がコミュニティに読まれることはなく、検索エンジンにしか読まれません。もしユーザーが何かおかしなことに気づいた場合は、隠されたテキストを編集することもできたでしょう。
合理的な結果ではなく、素晴らしい結果が欲しいのです。
優れた結果を提供できるOCRはありません。ライブラリが何であれ、まともな結果でさえ達成するのは難しい場合があります。
OCRは多くの場合、スキャンや写真ではなくスクリーンショットで機能することを念頭に置いてください。それでも100%にはなりませんが、認識を試みるのに適した種類のテキストです。
MastodonのWeb UIでは、アクセシビリティのために画像の代替テキストを入力するダイアログにOCR機能が提供されていることに気づきました。サーバーサイドで実行されている可能性があります。「画像からテキストを検出」をクリックした後の様子は次のとおりです。
興味深いですね。Tesseract と似たような結果のようです。Mastodon ツールは、グラフィックとテキストを含む画像をどのように処理するのでしょうか?
高貴な目標ですね
優れた結果を望む気持ちは私も同じですが、80%の改善でも満足できます ![]()
私が考えている文脈では、エラーメッセージなどをスクリーンショットから抽出することが目的です。例えば、ユーザーがターミナルにエラーログを表示している場合、それをそのままスクリーンショットすることがよくあります。結果が完璧でなくても、テキストの約80%が正しく抽出されれば、検索対象の画像だけの場合よりも、エラーメッセージや関連するテキストを検索する人がトピックを見つけられる可能性がはるかに高くなります。
