Le persone pubblicano screenshot, ci potrebbe essere un modo per estrarre il testo da un’immagine e aggiungerlo in fondo al post
Certo. Google OCR.
Ma non da Discourse. E immagino che una funzionalità del genere non arriverà comunque molto presto ![]()
Probabilmente dovresti creare un plug-in o creandolo tu stesso o ingaggiando un freelancer Marketplace
Vedi questo plugin
Il cliente (@csmu) non mi ha mai pagato, tra l’altro ![]()
Ciao @michaeld
Scorrendo rapidamente questo plugin, ho capito bene che le immagini vengono inviate ai server di Google per l’elaborazione? Qual è stato il ragionamento per questo approccio piuttosto che utilizzare una gemma Ruby per elaborare localmente o sul server dell’istanza di Discourse? Sono interessato a questo argomento, ma l’invio di immagini esterne non è un’opzione.
Prestazioni migliori, facilità di manutenzione, evitando dipendenze di versione sull’installazione locale.
Capisco che questo non sia sempre un approccio accettabile. Una PR è benvenuta, anche se l’utente dovrebbe sempre essere in grado di evitare un inferno di dipendenze locali.
Interessante. Immagino che questo si sia concentrato principalmente sulla scrittura a mano, giusto? Se si trattasse semplicemente di estrarre testo da un’immagine, ad esempio uno screenshot di errore, allora suppongo che una gemma locale potrebbe essere abbastanza accurata. Ho giocato con una libreria Python per qualcosa di simile un po’ di tempo fa e ho ottenuto risultati ragionevoli. A volte era spazzatura, ma i risultati non sarebbero mai stati letti dalla community, solo dal motore di ricerca. Se l’utente notasse qualcosa di sciocco, potrebbe sempre modificare il testo nascosto.
Non voglio risultati ragionevoli, voglio risultati eccellenti.
Non esiste un OCR che possa offrire risultati eccellenti. Anche risultati ragionevoli possono essere difficili da ottenere, indipendentemente dalla libreria utilizzata.
Tieni presente che l’OCR spesso funziona su schermate, non su scansioni o foto. Non sarà comunque al 100%, ma è un buon tipo di testo da provare a riconoscere.
Noto che l’interfaccia Web di Mastodon offre una funzione OCR nella finestra di dialogo in cui è possibile inserire una descrizione dell’immagine per motivi di accessibilità. Potrebbe essere che venga eseguita lato server. Ecco come appare, dopo aver fatto clic su “Rileva testo dall’immagine”:
Interessante. Sembra che abbia risultati simili a Tesseract. Mi chiedo come lo strumento Mastodon gestisca immagini con grafica e testo?
Un nobile obiettivo
Mentre condivido il desiderio di risultati eccellenti, sarò felice con un miglioramento dell’80% ![]()
Nel contesto che ho in mente, l’obiettivo è estrarre cose come messaggi di errore dagli screenshot. Ad esempio, se un utente ha un registro degli errori nel suo terminale, la tendenza è semplicemente di fare uno screenshot. Anche se il risultato non è perfetto, se estrae circa l’80% del testo correttamente, allora qualcuno che cerca il messaggio di errore, o un altro pezzo di testo correlato, ha una probabilità molto più alta di trovare l’Argomento, rispetto a se fosse solo l’immagine non ricercabile.
