Convertir image en texte

Les gens publient des captures d’écran, serait-il possible d’extraire du texte d’une image et de l’ajouter en bas de la publication.

1 « J'aime »

Bien sûr. Google OCR.

Mais pas par Discourse. Et je suppose qu’une telle fonctionnalité n’arrivera pas de sitôt de toute façon :wink:

1 « J'aime »

Vous devriez probablement créer un plugin, soit en le développant vous-même, soit en faisant appel à un freelance Marketplace

1 « J'aime »

Voir ce plugin

Le client (@csmu) ne m’a jamais payé d’ailleurs :face_with_symbols_on_mouth:

6 « J'aime »

Salut @michaeld

En parcourant rapidement ce plugin, ai-je raison de penser que les images sont envoyées aux serveurs de Google pour traitement ? Quelle était la raison de cette approche plutôt que d’utiliser une gemme Ruby pour traiter localement ou sur le serveur de l’instance Discourse ? Ce sujet m’intéresse, mais la soumission d’images à l’extérieur n’est pas une option.

Meilleures performances, facilité de maintenance, évitement des dépendances de version sur l’installation locale.

Je comprends que ce n’est pas toujours une approche acceptable. Une PR est la bienvenue bien que l’utilisateur doive toujours pouvoir éviter un enfer de dépendances locales.

1 « J'aime »

Intéressant. Je suppose que cela était principalement axé sur l’écriture manuscrite, n’est-ce pas ? S’il s’agissait simplement d’extraire du texte d’une image, par exemple une capture d’écran d’erreur, alors je suppose qu’une gem locale pourrait être suffisamment précise. J’ai joué avec une bibliothèque Python pour quelque chose comme ça il y a quelque temps et j’ai obtenu des résultats raisonnables. Parfois, c’était du charabia, mais les résultats ne seraient jamais lus par la communauté, seulement par le moteur de recherche. Si l’utilisateur remarquait quelque chose de stupide, il pourrait toujours modifier le texte caché.

Je ne veux pas de résultats raisonnables, je veux d’excellents résultats.

2 « J'aime »

Il n’existe pas de reconnaissance optique de caractères (ROC) qui puisse offrir d’excellents résultats. Même des résultats raisonnables peuvent être difficiles à obtenir — quelle que soit la bibliothèque utilisée,

1 « J'aime »

Gardez à l’esprit que l’OCR fonctionne souvent sur des captures d’écran, et non sur des scans ou des photos. Il ne sera toujours pas parfait à 100 %, mais c’est un bon type de texte à essayer de reconnaître.

Je note que l’interface Web de Mastodon offre une fonction OCR dans la boîte de dialogue où vous pouvez saisir une description d’image pour des raisons d’accessibilité. Il se peut qu’elle s’exécute côté serveur. Voici à quoi cela ressemble, après avoir cliqué sur « Détecter le texte de l’image » :

1 « J'aime »

Intéressant. Il semble qu’il donne des résultats similaires à Tesseract. Je me demande comment l’outil Mastodon gère les images avec des graphiques ainsi que du texte ?

Un noble objectif :heart: Bien que je partage le désir d’excellents résultats, je me contenterai d’une amélioration de 80 % :wink:

Dans le contexte que j’ai en tête, l’objectif est d’extraire des éléments tels que des messages d’erreur à partir de captures d’écran. Par exemple, si un utilisateur a un journal d’erreurs dans son terminal, la tendance est de simplement le capturer. Même si le résultat n’est pas parfait, s’il extrait environ 80 % du texte correctement, alors quelqu’un recherchant le message d’erreur, ou un autre élément de texte connexe, a une bien plus grande chance de trouver le sujet, que s’il s’agissait simplement de l’image non consultable.