Ai plugin ocr soporte

ozkn · 5 Septiembre, 2023 21:01

¿Se puede añadir soporte al plugin de IA de Discourse para añadir el texto de las imágenes a la publicación (OCR)? ¿Se puede añadir soporte para la API de Google Lens (Cloud Vision) para esto?

Ejemplo: GitHub - communiteq/discourse-ocr-uploads

Falco · 5 Septiembre, 2023 21:16

Está en nuestra hoja de ruta aprovechar un LLM multimodal para crear descripciones de imágenes, lo que también debería proporcionar cierto nivel de OCR. Pero para OCR puro, ¿quizás probar ese complemento?

ozkn · 6 Septiembre, 2023 09:14

Usé este plugin en versiones anteriores de Discourse y funcionó. Pero desafortunadamente ya no funciona en la nueva versión de Discourse.

pmusaraj · 21 Febrero, 2024 13:37

Ver AI Image Captioning Feature in Discourse AI Plugin, esto ya está listo y habilitado aquí en meta.

ozkn · 21 Febrero, 2024 19:20

Gracias por esta función, la probaré @Falco @pmusaraj

sam · 21 Febrero, 2024 22:42

Creo que aún deberíamos mantener esto abierto, la función de subtitulado es adyacente a OCR pero no es exactamente OCR.

OCR, por ejemplo, te permitiría tomar una foto de tus notas y luego subirlas e imprimirlas exactamente. El subtitulado de IA es mucho más sofisticado, pero tampoco te da esa fidelidad de imprimir una página completa de texto.

No estoy seguro de cuándo tendremos tiempo para trabajar en OCR, pero se siente un poco diferente.

sam · 28 Marzo, 2024 10:08

Ahora que Anthropic Claude 3 tiene soporte de visión, hace un buen trabajo con trabajos de OCR, por ejemplo

Tris20 · 28 Marzo, 2024 10:46

Lloro en alemán

Hablando en serio, tengo curiosidad sobre cómo se desempeñaría con una imagen como esta:

Tesseract obtiene lo siguiente:

MINGW64 ~/Source/Repos/Sut. Driver. Firmware
git push Se detectó compatibilidad con bloqueo en el remoto "origin". Considere habilitarla con: git config Ifs ‘1fs.locksverify true
LFS: Acceso prohibido. Compruebe su nivel de acceso.
error: no se pudieron enviar algunas referencias a
MINGW64 ~/Source/Repos/Sut. Driver. Firmware
git push Se detectó compatibilidad con bloqueo en el remoto "origin". Considere habilitarla con: git config Ifs. /\fs.locksverify true
Subiendo objetos LFS: 100% (1/1), 584 KB | 0 B/s, hecho.
Enumerando objetos: 9, hecho.
Contando objetos: 100% (9/9), hecho.
Compresión delta usando hasta 8 hilos
Comprimiendo objetos: 100% (3/3), hecho.
Escribiendo objetos: 100% (5/5), 478 bytes | 478.00 KiB/s, hecho.
Total 5 (delta 1), reutilizado 0 (delta 0), pack reutilizado 0 »
remote:
remote: Para crear una solicitud de fusión, visite:
remote: 1
remote:
To
2c50e5b. . ba25f3e
L MINGN64 ~/Source/Repos /Sut. Driver. Firmware

(Ok, me sorprende lo razonable que es este resultado. Tesseract a menudo cambia el orden de las líneas y falla con las letras en este tipo de ejemplos.)

Sam, ¿sería posible que pusieras esa imagen en Claude y publicaras el resultado?

sam · 28 Marzo, 2024 12:02

Siéntete libre de intentarlo aquí, la persona creativa de Claude aquí tiene soporte de visión, simplemente lo habilitamos.

Tris20 · 28 Marzo, 2024 12:15

[quote=“Ayudante del Foro Bot, post:6, topic:301329, username:ForumHelperBot”]La imagen tiene un fondo que muestra un camino sinuoso a través de un paisaje natural y montañoso. El texto parece promocionar tutoriales guiados o un camino de aprendizaje específicamente para ayudar a los usuarios a tener éxito en la plataforma Discourse.
[/quote]

https://meta.discourse.org/t/parsing-complex-json-data-in-tris20-code/301329

O es un problema de habilidad por mi parte, o Claude está teniendo algunos problemas

Tris20 · 28 Marzo, 2024 12:23

Problema de habilidad Estaba usando el Ayudante del Foro en lugar de la personalidad Creativa.

Claude Creative nos da esto:

MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
git push Se detectó soporte de bloqueo en el remoto "origin". Considere habilitarlo con: git config lfs.http://tfs.locksverify true
LFS: Acceso prohibido. Verifique su nivel de acceso.
error: no se pudieron enviar algunas referencias a ‘http://tfs.lockeed/tfs/HnC/TEC/SUT/Driver%20Firmware/_git/Sut.Driver.Firmware’

MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
git push Se detectó soporte de bloqueo en el remoto "origin". Considere habilitarlo con: git config lfs.http://tfs.locked/tfs.locksverify true
Cargando objetos LFS: 100% (1/1), 584 KB | 0 B/s, hecho.
Enumerando objetos: 9, hecho.
Contando objetos: 100% (9/9), hecho.
Compresión delta usando hasta 8 hilos
Comprimiendo objetos: 100% (3/3), hecho.
Escribiendo objetos: 100% (5/5), 478 bytes | 478.00 KiB/s, hecho.
Total 5 (delta 1), reutilizados 0 (delta 0), pack-reutilizados 0
remote: Para crear una solicitud de combinación para kingfisher, visite:
remote: http://tfs.locked/tfs/HRC/TEC/SUT/_git/Sut.Driver.Firmware/pullrequest/new?sourceRef=kingfisher&targetRef=develop
remote:
To http://tfs.locked/tfs/HRC/TEC/SUT/_git/Sut.Driver.Firmware
2c50e5b…ba25f3e kingfisher - kingfisher

MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
$

Resultado interesante. Siento que los dos están más o menos a la par en este ejemplo, pero con fallas diferentes. Claude ha alucinado la URL aquí, haciendo una suposición contextual de que estamos haciendo una solicitud de extracción basada en el problema de git.

Tesseract no alucina y, en este caso, parece ser más correcto. Lo único que destaca es “1fs” en la línea 4 y “\fs” en la línea 10 en lugar de “lfs”.

Claude también comete un error similar en todo momento, usando “tfs” en lugar de “lfs”. Es sorprendente porque la extrapolación de la URL basada en el contexto muestra que entendió el contexto, pero luego, en lugar de lfs, que es prominente en este dominio de problemas, creó algo completamente nuevo: tfs.

Un colorido pájaro martín pescador está posado en una rama contra un sereno fondo de follaje verde y agua tranquila. (Subtitulado por IA)1024×1024 316 KB

sam · 2 Abril, 2024 04:32

Lo que me pareció absolutamente asombroso aquí es que tienes un motor OCR con el que puedes interactuar.

No te gusta la alucinación del martín pescador… bien… simplemente pídele que no haga esa cosa.

Realmente alucinante lo que puedes hacer con esta tecnología:

AI Conversation with Claude-3-opus

Git Push Errors: Locking and Access Issues

sam: Tell me exactly what this says please [image]

claude_3_opus_bot: The image shows terminal output from running some Git commands to push changes to a remote repository. It starts with trying to push to a remote called “origin”, but locking support is detected on the remote and it says to consider enabling it with “$ git config lfs.locksverify true”. However, there is an error that says “failed to push some refs”. Then it tries pushing again, this time with LFS…

sam: just transcribe it please…

claude_3_opus_bot: MINGW64 ~/Source/Repos/Sut.Driver.Firmware (main) (feature/sam) $ git push Locking support detected on remote “origin”. Consider enabling it with: $ git config lfs.locksverify true LFS: Access forbidden. Check your access level. error: failed to push some refs to ‘https://alm.actia.fr/dap-components/Sut.Driver.Firmware.git’ MINGW64 ~/Source/Repos/Sut.Driver.Firmware (main) (feature/sam) $ g…

sam: That contained some hallucinations, instead of guessing any of the words simply redact areas you are not confident of […] Put it all in a markdown ``` block.

...

Read full transcript

(disculpas por la imagen rota en el OP, la estamos arreglando, la imagen es)

Tema		Respuestas	Vistas
Helper - captioning images Site Management how-to , ai , ai-captions	9	483	2 Septiembre 2025
Convert image to text Feature	10	1633	9 Febrero 2023
Lets see your best AI Image Caption! General ai , ai-helper , ai-captions	37	2656	29 Junio 2024
Adding a picture questions feature Feature ai	3	838	12 Enero 2024
Qwen3-VL-8b Image Recognition Issues and Gemma3-27b Mixed Text Image Content Support ai	2	469	12 Diciembre 2025

Ai plugin ocr soporte

Temas relacionados