¿Se puede añadir soporte al plugin de IA de Discourse para añadir el texto de las imágenes a la publicación (OCR)? ¿Se puede añadir soporte para la API de Google Lens (Cloud Vision) para esto?
Está en nuestra hoja de ruta aprovechar un LLM multimodal para crear descripciones de imágenes, lo que también debería proporcionar cierto nivel de OCR. Pero para OCR puro, ¿quizás probar ese complemento?
Usé este plugin en versiones anteriores de Discourse y funcionó. Pero desafortunadamente ya no funciona en la nueva versión de Discourse.
Ver AI Image Captioning Feature in Discourse AI Plugin, esto ya está listo y habilitado aquí en meta.
Creo que aún deberíamos mantener esto abierto, la función de subtitulado es adyacente a OCR pero no es exactamente OCR.
OCR, por ejemplo, te permitiría tomar una foto de tus notas y luego subirlas e imprimirlas exactamente. El subtitulado de IA es mucho más sofisticado, pero tampoco te da esa fidelidad de imprimir una página completa de texto.
No estoy seguro de cuándo tendremos tiempo para trabajar en OCR, pero se siente un poco diferente.
Ahora que Anthropic Claude 3 tiene soporte de visión, hace un buen trabajo con trabajos de OCR, por ejemplo
Lloro en alemán
![]()
![]()
Hablando en serio, tengo curiosidad sobre cómo se desempeñaría con una imagen como esta:
Tesseract obtiene lo siguiente:
MINGW64 ~/Source/Repos/Sut. Driver. Firmware
git push Se detectó compatibilidad con bloqueo en el remoto "origin". Considere habilitarla con: git config Ifs ‘1fs.locksverify true
LFS: Acceso prohibido. Compruebe su nivel de acceso.
error: no se pudieron enviar algunas referencias a
MINGW64 ~/Source/Repos/Sut. Driver. Firmware
git push Se detectó compatibilidad con bloqueo en el remoto "origin". Considere habilitarla con: git config Ifs. /\fs.locksverify true
Subiendo objetos LFS: 100% (1/1), 584 KB | 0 B/s, hecho.
Enumerando objetos: 9, hecho.
Contando objetos: 100% (9/9), hecho.
Compresión delta usando hasta 8 hilos
Comprimiendo objetos: 100% (3/3), hecho.
Escribiendo objetos: 100% (5/5), 478 bytes | 478.00 KiB/s, hecho.
Total 5 (delta 1), reutilizado 0 (delta 0), pack reutilizado 0 »
remote:
remote: Para crear una solicitud de fusión, visite:
remote: 1
remote:
To
2c50e5b. . ba25f3e
L MINGN64 ~/Source/Repos /Sut. Driver. Firmware
(Ok, me sorprende lo razonable que es este resultado. Tesseract a menudo cambia el orden de las líneas y falla con las letras en este tipo de ejemplos.)
Sam, ¿sería posible que pusieras esa imagen en Claude y publicaras el resultado?
Siéntete libre de intentarlo aquí, la persona creativa de Claude aquí tiene soporte de visión, simplemente lo habilitamos.
[quote=“Ayudante del Foro Bot, post:6, topic:301329, username:ForumHelperBot”]La imagen tiene un fondo que muestra un camino sinuoso a través de un paisaje natural y montañoso. El texto parece promocionar tutoriales guiados o un camino de aprendizaje específicamente para ayudar a los usuarios a tener éxito en la plataforma Discourse.
[/quote]
https://meta.discourse.org/t/parsing-complex-json-data-in-tris20-code/301329
O es un problema de habilidad por mi parte, o Claude está teniendo algunos problemas ![]()
Problema de habilidad
Estaba usando el Ayudante del Foro en lugar de la personalidad Creativa.
Claude Creative nos da esto:
MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
git push Se detectó soporte de bloqueo en el remoto "origin". Considere habilitarlo con: git config lfs.http://tfs.locksverify true
LFS: Acceso prohibido. Verifique su nivel de acceso.
error: no se pudieron enviar algunas referencias a ‘http://tfs.lockeed/tfs/HnC/TEC/SUT/Driver%20Firmware/_git/Sut.Driver.Firmware’MINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
git push Se detectó soporte de bloqueo en el remoto "origin". Considere habilitarlo con: git config lfs.http://tfs.locked/tfs.locksverify true
Cargando objetos LFS: 100% (1/1), 584 KB | 0 B/s, hecho.
Enumerando objetos: 9, hecho.
Contando objetos: 100% (9/9), hecho.
Compresión delta usando hasta 8 hilos
Comprimiendo objetos: 100% (3/3), hecho.
Escribiendo objetos: 100% (5/5), 478 bytes | 478.00 KiB/s, hecho.
Total 5 (delta 1), reutilizados 0 (delta 0), pack-reutilizados 0
remote: Para crear una solicitud de combinación para kingfisher, visite:
remote: http://tfs.locked/tfs/HRC/TEC/SUT/_git/Sut.Driver.Firmware/pullrequest/new?sourceRef=kingfisher&targetRef=develop
remote:
To http://tfs.locked/tfs/HRC/TEC/SUT/_git/Sut.Driver.Firmware
2c50e5b…ba25f3e kingfisher - kingfisherMINGW64 ~/Source/Repos/Sut.Driver.Firmware (kingfisher)
$Resultado interesante. Siento que los dos están más o menos a la par en este ejemplo, pero con fallas diferentes. Claude ha alucinado la URL aquí, haciendo una suposición contextual de que estamos haciendo una solicitud de extracción basada en el problema de git.
Tesseract no alucina y, en este caso, parece ser más correcto. Lo único que destaca es “1fs” en la línea 4 y “\fs” en la línea 10 en lugar de “lfs”.
Claude también comete un error similar en todo momento, usando “tfs” en lugar de “lfs”. Es sorprendente porque la extrapolación de la URL basada en el contexto muestra que entendió el contexto, pero luego, en lugar de lfs, que es prominente en este dominio de problemas, creó algo completamente nuevo: tfs.
Lo que me pareció absolutamente asombroso aquí es que tienes un motor OCR con el que puedes interactuar.
No te gusta la alucinación del martín pescador… bien… simplemente pídele que no haga esa cosa.
Realmente alucinante lo que puedes hacer con esta tecnología:
(disculpas por la imagen rota en el OP, la estamos arreglando, la imagen es)


