Конвертировать изображение в текст

vainaixr · 20.Сентябрь.2022 05:56:44

Люди публикуют скриншоты: можно ли извлечь текст из изображения и добавить его в конец публикации?

Jagster · 20.Сентябрь.2022 05:59:43

Конечно. Google OCR.

Но не со стороны Discourse. И, я думаю, такая функциональность всё равно появится не скоро

merefield · 20.Сентябрь.2022 06:27:10

Скорее всего, вам придется создать плагин — либо разработав его самостоятельно, либо наняв фрилансера Marketplace

michaeld · 20.Сентябрь.2022 06:36:24

Посмотрите этот плагин

Клиент (@csmu) так и не оплатил мне, между прочим

Tris20 · 01.Февраль.2023 10:37:46

Привет, @michaeld

Бегло просмотрел этот плагин — правильно ли я понимаю, что изображения отправляются на серверы Google для обработки? В чём было обоснование такого подхода вместо использования ruby-библиотеки для локальной обработки или на сервере экземпляра Discourse? Тема мне интересна, но отправка изображений вовне для нас не вариант.

michaeld · 01.Февраль.2023 10:58:41

Более высокая производительность, простота поддержки и избегание зависимостей от версий при локальной установке.

Я понимаю, что такой подход не всегда приемлем. Приветствуются PR, однако пользователь всегда должен иметь возможность избежать «ада зависимостей» при локальной установке.

Tris20 · 01.Февраль.2023 12:16:41

Интересно. Я полагаю, что это было в основном сосредоточено на рукописном вводе, верно? Если же речь идет просто об извлечении текста из изображения, например, скриншота с ошибкой, то, думаю, локальная модель может быть достаточно точной. Я пробовал одну Python-библиотеку для подобных задач некоторое время назад и получил приемлемые результаты. Иногда выдача была некачественной, но эти результаты никогда не читались сообществом, а только поисковой системой. Если пользователь заметит какую-то ерунду, он всегда может отредактировать скрытый текст.

michaeld · 01.Февраль.2023 12:43:16

Мне не нужны приемлемые результаты, мне нужны отличные результаты.

Jagster · 01.Февраль.2023 12:52:02

Не существует OCR, способного обеспечить превосходные результаты. Даже приемлемые результаты трудно достичь — независимо от используемой библиотеки.

Ed_S · 01.Февраль.2023 22:54:15

Имейте в виду, что OCR часто работает с снимками экрана, а не с отсканированными документами или фотографиями. Это всё ещё не будет на 100% точно, но это хороший тип текста для распознавания.

Я заметил, что веб-интерфейс Mastodon предлагает функцию OCR в диалоге, где вы можете ввести описание изображения для целей доступности. Возможно, она выполняется на стороне сервера. Вот как это выглядит после нажатия на кнопку «Обнаружить текст на изображении»:

Tris20 · 09.Февраль.2023 15:27:19

Интересно. Похоже, результаты схожи с Tesseract. Интересно, как инструмент Mastodon справляется с изображениями, содержащими как графику, так и текст?

Благородная цель Хотя я разделяю стремление к отличным результатам, я буду доволен улучшением на 80%

В том контексте, который я имею в виду, цель заключается в извлечении таких элементов, как сообщения об ошибках из скриншотов. Например, если у пользователя есть журнал ошибок в терминале, он, как правило, просто делает скриншот. Даже если результат не идеален, но извлекается около 80% текста правильно, у кого-то, кто ищет сообщение об ошибке или другую связанную часть текста, гораздо выше шанс найти тему, чем если бы это было просто неискательное изображение.

Тема		Ответов	Просм.
Transcribing handwritten text in images plugin Marketplace	6	923	28.09.2021
Ai plugin ocr support Feature ai	11	964	02.04.2024
Adding a picture questions feature Feature ai	3	837	12.01.2024
Autorecognize text in image for Alt-Text Feature	3	669	22.02.2024
Introduce alt-text for images on chat Feature chat	0	365	22.02.2023

Конвертировать изображение в текст

Связанные темы