La gente publica capturas de pantalla, ¿podría haber una forma de extraer texto de una imagen y añadirlo al final de la publicación?
Claro. Google OCR.
Pero no por Discourse. Y supongo que tal funcionalidad no llegará pronto de todos modos ![]()
Sospecho que tendrías que crear un plugin, ya sea creándolo tú mismo o contratando a un freelancer Marketplace
Ver este plugin
El cliente (@csmu) nunca me pagó, por cierto ![]()
Hola @michaeld
Al hojear rápidamente este plugin, ¿tengo razón al pensar que las imágenes se envían a los servidores de Google para su procesamiento? ¿Cuál fue el razonamiento para este enfoque en lugar de usar una gema de Ruby para procesar localmente o en el servidor de la instancia de Discourse? Estoy interesado en este tema, pero enviar imágenes fuera de casa no es una opción.
Mejor rendimiento, facilidad de mantenimiento, evitar dependencias de versiones en la instalación local.
Entiendo que este no es siempre un enfoque aceptable. Se aceptan PRs, aunque el usuario siempre debería poder evitar un infierno de dependencias locales.
Interesante. Supongo que esto se centró principalmente en la escritura a mano, ¿verdad? Si se tratara simplemente de extraer texto de una imagen, por ejemplo, una captura de pantalla de error, entonces supongo que una gema local sería lo suficientemente precisa. Jugué con una biblioteca de Python para algo como esto hace un tiempo y obtuve resultados razonables. A veces era basura, pero los resultados nunca serían leídos por la comunidad, solo por el motor de búsqueda. Si el usuario notaba algo tonto, siempre podía modificar el texto oculto.
No quiero resultados razonables, quiero resultados excelentes.
No hay ningún OCR que pueda ofrecer resultados excelentes. Incluso los razonables pueden ser difíciles de lograr, sin importar la biblioteca que se esté utilizando.
Ten en cuenta que el OCR a menudo funciona en capturas de pantalla, no en escaneos o fotos. Aún así, no será el 100%, pero es un buen tipo de texto para intentar reconocer.
Observo que la interfaz web de Mastodon ofrece una función de OCR en el diálogo donde puedes introducir una descripción de la imagen por motivos de accesibilidad. Es posible que se ejecute en el servidor. Así es como se ve, después de hacer clic en “Detectar texto de la imagen”:
Interesante. Parece que tiene resultados similares a Tesseract. Me pregunto cómo maneja la herramienta Mastodon las imágenes con gráficos y texto.
Un noble objetivo
Si bien comparto el deseo de obtener resultados excelentes, me conformaré con una mejora del 80% ![]()
En el contexto que tengo en mente, el objetivo es extraer cosas como mensajes de error de capturas de pantalla. Por ejemplo, si un usuario tiene un registro de errores en su terminal, la tendencia es simplemente hacer una captura de pantalla. Incluso si el resultado no es perfecto, si extrae aproximadamente el 80% del texto correctamente, entonces alguien que busque el mensaje de error, u otro fragmento de texto relacionado, tiene una probabilidad mucho mayor de encontrar el Tema, que si solo fuera la imagen in-buscable.
