Siduction Forum > Software - Support

[DE] ocrmypdf Textlayer passt nicht

<< < (2/2)

orinoco:

--- Quote from: devil on 2023/04/29, 06:19:00 ---Hi,
das Einzige, was ich dir sagen kann, ist, dass ich in Okular korrekt markieren kann. Ich habe 5 PDFs getestet, alle normal. Müssen die von deinem Drucker erzeugt worden sein? Dann könntest du mir eines schicken zum Test.

--- End quote ---
Hallo Devil,

ich habe nur den Multifunktionsdrucker zum Scannen. Der wirft neben PDF- auch TIFF-Dateien aus. Damit habe ich auch getestet, um auszuschliessen, dass es am produzieren PDF liegt. Es ist das selbe Ergebnis. Der Textlayer passt nicht zum Scan.

Wie soll ich Dir die Testdateien zur Verfügung stellen? Ich bin sehr gespannt, wie Deine Ergebnisse aussehen werden.

Mein Aufruf lautet übrigens

--- Code: ---ocrmypdf -v -l deu --deskew --clean --optimize 1 --rotate-pages input.pdf output.pdf
--- End code ---

Bei Texten, die Zeichen mit fester Breite verwenden, passt der Textlayer auch nicht.

orinoco:

--- Quote from: edlin on 2023/04/30, 12:17:13 ---Sieht nicht nach einer Lösung des Problems aus; ich war jedenfalls noch nicht erfolgreich.

edlin

--- End quote ---

Hallo edlin,

vielen Dank für Deine Tests.

orinoco:
Verzeiht, dass ich diesen alten Faden wieder belebe, aber das Thema war für mich nie befriedigend erledigt und ich habe immer wieder recherchiert und probiert. Auf der Projektseite von ocrfmypdf bin ich auf diesen Issue gestoßen: https://github.com/ocrmypdf/OCRmyPDF/issues/450

Ich ergänze jetzt den Parameter --pdf-renderer hocr und erhalte das gewünschte Ergebnis, dass Markierungen im PDF auf Wort- bzw. Zeichengrenzen nun auch wirklich nur die markierten Buchstaben und nicht 1-2 weitere Zeichen blind mit auswählen.

Mein Aufruf ist jetzt


--- Code: ---ocrmypdf -v -l deu --deskew --clean --optimize 1 --rotate-pages --pdf-renderer hocr input.pdf output.pdf
--- End code ---

Falls jemand für sich selbst testen und seine Erfahrungen teilen möchte, habe ich mein Testdokument[1] angehängt. Einfach ausdrucken, wieder einscannen, durch ocrmypdf leiten und betrachten und markieren (bei mir: Okular und Firefox)

Jetzt passen die Markierung auf Zeichengrenzen. Es fehlen nun aber die ersten beiden Zeilen eines Buchstaben. Der kopierte Text ist aber korrekt und vollständig.

Beim Testen ist mir aber auch aufgefallen, dass Okular und Firefox den Text mit fester Zeichenbreite unterschiedlich handhaben. Aus Firefox kopiert ergibt den Text wie angezeigt; aus Okular kopiert ergibt pro Wort eine Zeile. Hier ist mir nicht klar, welcher Betrachter PDF wirklich korrekt umsetzt. Was wäre eurer Erfahrung nach die Referenz unter Linux?

[1] Ich konnte kein ODT hochladen - Daher ein PDF-Export aus Libreoffice Writer - Nicht verwirren lassen und ausdrucken und einscannen nicht vergessen

Navigation

[0] Message Index

[*] Previous page

Go to full version
Powered by Advanced Topic Prefix Pro
Powered by SMFPacks WYSIWYG Editor