Hallo,
hat jemand Erfahrungen mit Tesseract? Ich habe mal versucht mit dem Befehl
tesseract ~/Namensverzeichnis.png Text -l frk
Frakturschrift (siehe Anhang) zu erkennen aber es wird leider nichts erkannt, nicht mal die Hauptüberschrift alleine. Mache ich irgendwas falsch?
Bist du dir sicher, dass es sich um Fraktur und nicht um Sütterlin oder was anderes handelt?
Natürlich bin ich mir nicht sicher, ich bin da kein Experte. Ich versuche nur im Rahmen meiner Ahnenforschung diverse handschriftliche Dokumente zu übersetzen und habe jetzt halt mal mit tesseract gespielt. Die Hoffnung stirbt zuletzt. :)
Es ist tatsächlich (alt) deutsche Schreibschrift bzw. Sütterlin.
Fraktur ist eine Druckschrift.
Meiner bescheidenen Meinung nach, wirst du mit Tesseract kein Glück haben.
Es bieten sich alternativ zwei Lösungsmöglichkeiten:
- Transkribus. Infos gibts im Heise-Artikel (https://www.heise.de/newsticker/meldung/Transkribus-entziffert-Uromas-Handschrift-4056211.html) (Kommentare liefern zum Teil weiteren Input).
Die Anwendung für Linux gibts hier beim Projekt (https://readcoop.eu/transkribus/howto/how-to-download-install-and-run-transkribus/). Ich habs nicht selbst getestet. Problem wird bei dir sein, dass du von einer Handschrift erst einmal so 15.000 bis 20.000 Wörter zum trainieren brauchst. - Hardwarelösung: Suche eine Oma, die das noch lesen kann. Dürfte schnellere und bessere Ergebnisse liefern.
edlin
Die Hardwarelösung ist keine schlechte Idee, allerdings sind diese Omas mittlerweile sehr rar. Ich muss da wohl mal eine Annonce schalten, vielleicht meldet sich ja jemand. ::)
Das wird auch mit einer Oma ziemlich schwierig, da das nach einer wilden Mischung aus lateinischer Schrift und Kurrent aussieht, die dann noch ziemlich kunstvoll verziert ist.
Ich traue der Oma (oder jemandem, der beruflich mit alten Schriften zu tun hat) immerhin eine Erkennungsrate im zweistelligen Bereich zu. Zumal viele Quellen (Kirchenregister, Stammbücher etc.), vorsichtig ausgedrückt, ziemlich mitgenommen sind. Tintenkleckse, Stockflecken, Beschädigungen - ist alles für OCR tödlich.
Und wenn überhaupt nichts geht, einfach mal ChatGBT fragen ... duck und weg.
edlin
Nachtrag: Oft gibt es auch Leute im Stadtarchiv etc., die regelmäßig mit alten Dokumenten zu tun haben - fragen kostet nix.
Das ist ja noch eines von den guten Dokumenten. Wenn man die Registerbücher der Matrikelämter anschaut, dann kann ich als Laie teilweise überhaupt nichts entziffern, je nach Handschrift des Autors.
Leider kenne ich niemanden, des so etwas noch lesen kann. Im Stadtarchiv müsste man mal anfragen.
Guck mal beim Bund für deutsche Schrift und Sprache (https://www.bfds.de) rein. Einerseits findest Du da Lehrmaterial für Sütterlin und Kurrent neben Leseübungen etc, andererseits findest Du darüber evtl. jemanden der dir helfen kann.
@Geier0815:
Danke für den Tip, das ist ja wirklich interessant. Die Leseübungen könnten mich wirklich weiter bringen, auch wenn es mühsam ist.
Das Blöde an den Dokumenten ist, dass - je nach Jahr - die Buchstaben teilweise völlig unterschiedlich geschrieben sind. Das macht es nicht gerade einfacher. :(