Print Page - Spracherkennung mit tesseract

Title: Spracherkennung mit tesseract
Post by: harley-peter on 2023/02/12, 16:11:33

Hallo,
hat jemand Erfahrungen mit Tesseract? Ich habe mal versucht mit dem Befehl

tesseract ~/Namensverzeichnis.png Text -l frk
Frakturschrift (siehe Anhang) zu erkennen aber es wird leider nichts erkannt, nicht mal die Hauptüberschrift alleine. Mache ich irgendwas falsch?

Title: Re: Spracherkennung mit tesseract
Post by: edlin on 2023/02/12, 17:54:43

Bist du dir sicher, dass es sich um Fraktur und nicht um Sütterlin oder was anderes handelt?

Title: Re: Spracherkennung mit tesseract
Post by: harley-peter on 2023/02/12, 21:40:58

Natürlich bin ich mir nicht sicher, ich bin da kein Experte. Ich versuche nur im Rahmen meiner Ahnenforschung diverse handschriftliche Dokumente zu übersetzen und habe jetzt halt mal mit tesseract gespielt. Die Hoffnung stirbt zuletzt. :)

Title: Re: Spracherkennung mit tesseract
Post by: fams on 2023/02/13, 10:07:55

Es ist tatsächlich (alt) deutsche Schreibschrift bzw. Sütterlin.
Fraktur ist eine Druckschrift.

Title: Re: Spracherkennung mit tesseract
Post by: edlin on 2023/02/13, 11:18:37

Meiner bescheidenen Meinung nach, wirst du mit Tesseract kein Glück haben.
Es bieten sich alternativ zwei Lösungsmöglichkeiten:

Transkribus. Infos gibts im Heise-Artikel (https://www.heise.de/newsticker/meldung/Transkribus-entziffert-Uromas-Handschrift-4056211.html) (Kommentare liefern zum Teil weiteren Input).
Die Anwendung für Linux gibts hier beim Projekt (https://readcoop.eu/transkribus/howto/how-to-download-install-and-run-transkribus/). Ich habs nicht selbst getestet. Problem wird bei dir sein, dass du von einer Handschrift erst einmal so 15.000 bis 20.000 Wörter zum trainieren brauchst.
Hardwarelösung: Suche eine Oma, die das noch lesen kann. Dürfte schnellere und bessere Ergebnisse liefern.

edlin

Title: Re: Spracherkennung mit tesseract
Post by: harley-peter on 2023/02/13, 12:30:34

Die Hardwarelösung ist keine schlechte Idee, allerdings sind diese Omas mittlerweile sehr rar. Ich muss da wohl mal eine Annonce schalten, vielleicht meldet sich ja jemand. ::)

Title: Re: Spracherkennung mit tesseract
Post by: Geier0815 on 2023/02/13, 13:22:56

Das wird auch mit einer Oma ziemlich schwierig, da das nach einer wilden Mischung aus lateinischer Schrift und Kurrent aussieht, die dann noch ziemlich kunstvoll verziert ist.

Title: Re: Spracherkennung mit tesseract
Post by: edlin on 2023/02/13, 15:01:28

Ich traue der Oma (oder jemandem, der beruflich mit alten Schriften zu tun hat) immerhin eine Erkennungsrate im zweistelligen Bereich zu. Zumal viele Quellen (Kirchenregister, Stammbücher etc.), vorsichtig ausgedrückt, ziemlich mitgenommen sind. Tintenkleckse, Stockflecken, Beschädigungen - ist alles für OCR tödlich.

Und wenn überhaupt nichts geht, einfach mal ChatGBT fragen ... duck und weg.

edlin

Nachtrag: Oft gibt es auch Leute im Stadtarchiv etc., die regelmäßig mit alten Dokumenten zu tun haben - fragen kostet nix.

Title: Re: Spracherkennung mit tesseract
Post by: harley-peter on 2023/02/13, 17:50:04

Das ist ja noch eines von den guten Dokumenten. Wenn man die Registerbücher der Matrikelämter anschaut, dann kann ich als Laie teilweise überhaupt nichts entziffern, je nach Handschrift des Autors.

Leider kenne ich niemanden, des so etwas noch lesen kann. Im Stadtarchiv müsste man mal anfragen.

Title: Re: Spracherkennung mit tesseract
Post by: Geier0815 on 2023/02/14, 11:15:03

Guck mal beim Bund für deutsche Schrift und Sprache (https://www.bfds.de) rein. Einerseits findest Du da Lehrmaterial für Sütterlin und Kurrent neben Leseübungen etc, andererseits findest Du darüber evtl. jemanden der dir helfen kann.

Title: Re: Spracherkennung mit tesseract
Post by: harley-peter on 2023/02/14, 12:28:49

@Geier0815:
Danke für den Tip, das ist ja wirklich interessant. Die Leseübungen könnten mich wirklich weiter bringen, auch wenn es mühsam ist.
Das Blöde an den Dokumenten ist, dass - je nach Jahr - die Buchstaben teilweise völlig unterschiedlich geschrieben sind. Das macht es nicht gerade einfacher. :(

Siduction Forum

Siduction Forum => Software - Support => Topic started by: harley-peter on 2023/02/12, 16:11:33