Leute posten Screenshots, könnte es eine Möglichkeit geben, Text aus einem Bild zu extrahieren und ihn am Ende des Beitrags hinzuzufügen?
Sicher. Google OCR.
Aber nicht von Discourse. Und ich würde vermuten, dass eine solche Funktionalität sowieso nicht so bald kommt ![]()
Sie müssten wahrscheinlich ein Plugin erstellen, entweder indem Sie es selbst schreiben oder einen Freelancer beauftragen Marketplace
Siehe dieses Plugin
Client (@csmu) hat mich übrigens nie bezahlt ![]()
Hallo @michaeld
Wenn ich dieses Plugin kurz überfliege, habe ich dann Recht, dass die Bilder zur Verarbeitung an Google-Server gesendet werden? Was war der Grund für diesen Ansatz, anstatt ein Ruby-Gem zur lokalen Verarbeitung oder auf dem Server der Discourse-Instanz zu verwenden? Ich interessiere mich für dieses Thema, aber das Einreichen von Bildern außer Haus ist keine Option.
Bessere Leistung, einfache Wartung, Vermeidung von Versionsabhängigkeiten bei lokaler Installation.
Ich verstehe, dass dies nicht immer ein akzeptabler Ansatz ist. Ein PR ist willkommen, obwohl der Benutzer immer eine lokale Abhängigkeitshölle vermeiden können sollte.
Interessant. Ich nehme an, das konzentrierte sich hauptsächlich auf Handschrift, oder? Wenn es nur darum ging, Text aus einem Bild zu extrahieren, zum Beispiel einem Fehler-Screenshot, dann wäre ein lokales Gem wahrscheinlich genau genug. Ich habe vor einiger Zeit mit einer Python-Bibliothek für so etwas herumgespielt und vernünftige Ergebnisse erzielt. Manchmal war es Müll, aber die Ergebnisse würden nie von der Community gelesen, nur von der Suchmaschine. Wenn der Benutzer etwas Dummes bemerkte, konnte er den versteckten Text immer noch ändern.
Ich möchte keine vernünftigen Ergebnisse, ich möchte exzellente Ergebnisse.
Es gibt keine OCR, die hervorragende Ergebnisse liefern kann. Selbst vernünftige Ergebnisse sind schwer zu erreichen – egal welche Bibliothek verwendet wird.
Beachten Sie, dass OCR oft mit Bildschirmfotos arbeitet, nicht mit Scans oder Fotos. Es wird immer noch nicht 100%ig funktionieren, aber es ist eine gute Art von Text, der versucht zu erkennen.
Ich stelle fest, dass die Web-Benutzeroberfläche von Mastodon eine OCR-Funktion in dem Dialogfeld anbietet, in dem Sie eine Bildbeschreibung für Barrierefreiheitszwecke eingeben können. Möglicherweise wird sie serverseitig ausgeführt. Hier ist, wie es aussieht, nachdem ich auf „Text aus Bild erkennen“ geklickt habe:
Interessant. Sieht so aus, als hätte es ähnliche Ergebnisse wie Tesseract. Ich frage mich, wie das Mastodon-Tool mit Bildern umgeht, die Grafiken und Text enthalten?
Ein edles Ziel
Während ich den Wunsch nach exzellenten Ergebnissen teile, wäre ich mit einer 80%igen Verbesserung zufrieden ![]()
In dem von mir angedachten Kontext geht es darum, Dinge wie Fehlermeldungen aus Screenshots zu extrahieren. Wenn ein Benutzer beispielsweise ein Fehlerprotokoll in seinem Terminal hat, neigt er dazu, einfach einen Screenshot davon zu machen. Selbst wenn das Ergebnis nicht perfekt ist, wenn es etwa 80 % des Textes korrekt extrahiert, dann hat jemand, der nach der Fehlermeldung oder einem anderen verwandten Text sucht, eine weitaus höhere Chance, das Thema zu finden, als wenn es sich nur um das nicht durchsuchbare Bild handelt.
