Люди публикуют скриншоты: можно ли извлечь текст из изображения и добавить его в конец публикации?
Конечно. Google OCR.
Но не со стороны Discourse. И, я думаю, такая функциональность всё равно появится не скоро ![]()
Скорее всего, вам придется создать плагин — либо разработав его самостоятельно, либо наняв фрилансера Marketplace
Посмотрите этот плагин
Клиент (@csmu) так и не оплатил мне, между прочим ![]()
Привет, @michaeld
Бегло просмотрел этот плагин — правильно ли я понимаю, что изображения отправляются на серверы Google для обработки? В чём было обоснование такого подхода вместо использования ruby-библиотеки для локальной обработки или на сервере экземпляра Discourse? Тема мне интересна, но отправка изображений вовне для нас не вариант.
Более высокая производительность, простота поддержки и избегание зависимостей от версий при локальной установке.
Я понимаю, что такой подход не всегда приемлем. Приветствуются PR, однако пользователь всегда должен иметь возможность избежать «ада зависимостей» при локальной установке.
Интересно. Я полагаю, что это было в основном сосредоточено на рукописном вводе, верно? Если же речь идет просто об извлечении текста из изображения, например, скриншота с ошибкой, то, думаю, локальная модель может быть достаточно точной. Я пробовал одну Python-библиотеку для подобных задач некоторое время назад и получил приемлемые результаты. Иногда выдача была некачественной, но эти результаты никогда не читались сообществом, а только поисковой системой. Если пользователь заметит какую-то ерунду, он всегда может отредактировать скрытый текст.
Мне не нужны приемлемые результаты, мне нужны отличные результаты.
Не существует OCR, способного обеспечить превосходные результаты. Даже приемлемые результаты трудно достичь — независимо от используемой библиотеки.
Имейте в виду, что OCR часто работает с снимками экрана, а не с отсканированными документами или фотографиями. Это всё ещё не будет на 100% точно, но это хороший тип текста для распознавания.
Я заметил, что веб-интерфейс Mastodon предлагает функцию OCR в диалоге, где вы можете ввести описание изображения для целей доступности. Возможно, она выполняется на стороне сервера. Вот как это выглядит после нажатия на кнопку «Обнаружить текст на изображении»:
Интересно. Похоже, результаты схожи с Tesseract. Интересно, как инструмент Mastodon справляется с изображениями, содержащими как графику, так и текст?
Благородная цель
Хотя я разделяю стремление к отличным результатам, я буду доволен улучшением на 80% ![]()
В том контексте, который я имею в виду, цель заключается в извлечении таких элементов, как сообщения об ошибках из скриншотов. Например, если у пользователя есть журнал ошибок в терминале, он, как правило, просто делает скриншот. Даже если результат не идеален, но извлекается около 80% текста правильно, у кого-то, кто ищет сообщение об ошибке или другую связанную часть текста, гораздо выше шанс найти тему, чем если бы это было просто неискательное изображение.
