دعم Ai plugin ocr

هل يمكن إضافة دعم إلى إضافة Discourse ai لإضافة النص الموجود في الصور إلى المنشور (ocr)؟ هل يمكن إضافة دعم لواجهة برمجة تطبيقات Google Lens (Cloud Vision) لهذا الغرض؟

مثال: GitHub - communiteq/discourse-ocr-uploads

4 إعجابات

من المخطط لدينا الاستفادة من نموذج لغوي كبير متعدد الوسائط لإنشاء أوصاف للصور، والتي يجب أن توفر أيضًا مستوى معينًا من التعرف الضوئي على الحروف (OCR). ولكن بالنسبة لـ OCR البحت، ربما تجرب هذا المكون الإضافي؟

4 إعجابات

لقد استخدمت هذه الإضافة في إصدارات أقدم من Discourse وكانت تعمل. ولكن للأسف لم تعد تعمل في الإصدار الجديد من Discourse

إعجاب واحد (1)

انظر https://meta.discourse.org/t/ai-image-captioning-feature-in-discourse-ai-plugin/296087، هذا جاهز الآن ومُمكّن هنا في meta.

3 إعجابات

شكراً لهذه الميزة، سأجربها @Falco @pmusaraj

إعجابَين (2)

أعتقد أنه لا يزال يتعين علينا إبقاء هذا مفتوحًا، فإن ميزة التعليق التوضيحي مجاورة لـ OCR ولكنها ليست OCR بالضبط.

على سبيل المثال، يتيح لك OCR التقاط صورة لملاحظاتك ثم تحميلها وطباعتها بالضبط. التعليق التوضيحي بالذكاء الاصطناعي أكثر تطوراً بكثير ولكنه لا يمنحك دقة طباعة صفحة كاملة من النص.

لست متأكدًا من متى سيكون لدينا وقت للعمل على OCR، ولكنه يبدو مختلفًا بعض الشيء.

6 إعجابات

الآن بعد أن أصبح Anthropic Claude 3 يدعم الرؤية، فإنه يقوم بعمل لائق في مهام التعرف الضوئي على الحروف (OCR)، على سبيل المثال

إعجابَين (2)

أبكي بالألمانية

:de: :beer: :leftwards_hand::sob: :rightwards_hand: :pretzel: :hotdog:


بشكل جاد، لدي فضول حول كيفية أدائه على صورة كهذه:

Tesseract يحصل على ما يلي:

MINGW64 ~/Source/Repos/Sut. Driver. Firmware
git push Locking support detected on remote “origin”. Consider enabling it with: git config Ifs ‘1fs.locksverify true
LFS: Access forbidden. Check your access level.
error: failed to push some refs to
MINGW64 ~/Source/Repos/Sut. Driver. Firmware
git push Locking support detected on remote “origin”. Consider enabling it with: git config Ifs. /\fs.locksverify true
Uploading LFS objects: 100% (1/1), 584 KB | 0 B/s, done.
Enumerating objects: 9, done.
Counting objects: 100% (9/9), done.
Delta compression using up to 8 threads
Compressing objects: 100% (3/3), done.
Writing objects: 100% (5/5), 478 bytes | 478.00 KiB/s, done.
Total 5 (delta 1), reused 0 (delta 0), pack-reused 0 »
remote:
remote: To create a merge request for visit:
remote: 1
remote:
To
2c50e5b. . ba25f3e
L MINGN64 ~/Source/Repos /Sut. Driver. Firmware

(حسناً، أنا متفاجئ من مدى معقولية هذه النتيجة. غالباً ما يغير Tesseract ترتيب الأسطر ويحدث أخطاء في الأحرف مع هذه الأنواع من الأمثلة.)

سام، هل سيكون من الممكن لك أن تضع هذه الصورة في Claude وتنشر النتيجة؟

لا تتردد في المحاولة هنا، يتمتع كلود بشخصية إبداعية تدعم الرؤية، وقد تم تمكينها للتو

https://meta.discourse.org/t/parsing-complex-json-data-in-tris20-code/301329

إما أن تكون هذه مشكلة مهارة من جانبي، أو أن كلود يواجه بعض الصعوبات :sweat_smile:

مشكلة مهارة :sweat_smile: كنت أستخدم مساعد المنتدى بدلاً من شخصية الإبداع.

يقدم لنا Claude Creative ما يلي:

MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
git push تم اكتشاف دعم القفل على المستودع البعيد "origin". فكر في تمكينه باستخدام: git config lfs.http://tfs.locksverify true
LFS: الوصول ممنوع. تحقق من مستوى وصولك.
خطأ: فشل في دفع بعض المراجع إلى ‘http://tfs.lockeed/tfs/HnC/TEC/SUT/Driver%20Firmware/_git/Sut.Driver.Firmware

MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
git push تم اكتشاف دعم القفل على المستودع البعيد "origin". فكر في تمكينه باستخدام: git config lfs.http://tfs.locked/tfs.locksverify true
تحميل كائنات LFS: 100% (1/1)، 584 كيلوبايت | 0 بايت/ثانية، تم.
تعداد الكائنات: 9، تم.
حساب الكائنات: 100% (9/9)، تم.
ضغط الدلتا باستخدام ما يصل إلى 8 خيوط
ضغط الكائنات: 100% (3/3)، تم.
كتابة الكائنات: 100% (5/5)، 478 بايت | 478.00 كيلوبايت/ثانية، تم.
الإجمالي 5 (دلتا 1)، معاد استخدام 0 (دلتا 0)، معاد استخدام الحزمة 0
عن بعد: لإنشاء طلب دمج لـ kingfisher، قم بزيارة:
عن بعد: http://tfs.locked/tfs/HRC/TEC/SUT/_git/Sut.Driver.Firmware/pullrequest/new?sourceRef=kingfisher&targetRef=develop
عن بعد:
إلى http://tfs.locked/tfs/HRC/TEC/SUT/_git/Sut.Driver.Firmware
2c50e5b…ba25f3e kingfisher - kingfisher

MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
$

نتيجة مثيرة للاهتمام. أشعر أن الاثنين متساويان تقريبًا مع بعضهما البعض في هذا المثال ولكن بأخطاء مختلفة. لقد هلوس Claude عنوان URL هنا، مما جعله تخمينًا سياقيًا بأننا نقوم بطلب سحب بناءً على مشكلة git.

Tesseract لا يهلس، وفي هذه الحالة يبدو أنه أكثر صحة. الشيء الوحيد الذي يبرز هو 1fs في السطر 4، و \\fs في السطر 10 بدلاً من lfs.

يرتكب Claude أيضًا خطأً مشابهًا في كل مكان، باستخدام tfs بدلاً من lfs. إنه أمر مفاجئ لأنه أظهر فهمه للسياق من خلال استقراء عنوان URL بناءً على السياق، ولكن بدلاً من lfs الذي يبرز في مجال المشكلة هذا، فقد أنشأ شيئًا جديدًا تمامًا: tfs

إعجاب واحد (1)

ما وجدته مذهلاً للغاية هنا هو أن لديك محرك OCR يمكنك التفاعل معه.

لا يعجبك توهم طائر الرفراف… حسناً… فقط اطلب منه عدم القيام بذلك الشيء.

إنه أمر مذهل حقًا ما يمكنك القيام به بهذه التقنية:

(نعتذر عن الصورة المكسورة في المنشور الأصلي، نحن نعمل على إصلاحها، الصورة هي)

إعجاب واحد (1)