Siduction Forum > Software - Support

[DE] ocrmypdf Textlayer passt nicht

(1/2) > >>

orinoco:
Hallo,

ich teste gerade ocrmypdf. Dabei ist mir aufgefallen, dass der Text-Layer nicht zu 100% zum Bild passt.

Das zeigt sich auf zwei Arten:

1. Wenn ich ein Wort suche, fehlt beim Treffer optisch mindestens der letzte Buchstabe in der Markierung. Wenn ich in die Zwischenablage kopiere, landet dort das komplette Wort.

2. Wenn ich Text buchstabenweise mit der Maus markiere, ist nach wenigen Buchstaben mehr markiert, als optisch ausgewählt ist. In der Zwischenablage landen die markierten Buchstaben + x.

Es fehlen irgendwie die richtigen Bildpositionen zu den ausgewählten Buchstaben.

Habt ihr das auch beobachtet und kann man das fixen?

VG
orinoco

orinoco:
Hallo,

ich möchte das Thema nochmal aufwärmen, weil es mich heute wieder ärgert.

Prinzipiell möchte ich PDFs, die mein MuFu-Drucker erstellt, durchsuchbar machen. Das klappt mit ocrmypdf auch recht gut. Ist die Vorlage okay, ist das Ergebnis zufriedenstellend.

Wenn ich aber z.B. mit Okular in dem PDF Text markieren will, um ihn zu kopieren, passt die Auswahl nicht zum Originaltext. Es fehlt rechts immer was bzw. wenn ich bis zum vermeintlich letzten Buchstaben markiere, hab ich zu viel Text. Oder ich suche ein Wort, das im PDF enthalten ist, und erhalte optisch zu wenig markiert. Der Textlayer passt einfach nicht zur gescannten Vorlage.

Ich habe mal ein Screenshot angehangen, das mein Problem hoffentlich verständlich zeigt:

Es ist eine Rechnung, die ich nach der Konvertierung mit ocrmypdf in Okular geladen und nach dem Wort Rechnung durchsucht habe. Ihr seht, dass der letzte Buchstabe nicht markiert wird, obwohl ich nach dem vollständigen Wort gesucht habe. Das ist jetzt nur die Optik. Drücke ich Strg+c habe ich das Wort Rechnung in der Zwischenablage.

Wenn ich aber mit der Maus das Wort Rechnung markieren will, passiert dasselbe. Es fehlt optisch das g. Will ich das auch noch erwischen und ziehe die Maus weiter nach rechts, markiere ich die nächste Zeile mit. Ich darf also nicht alles markieren und muss beim Einfügen hoffen, dass ich doch alles verwischt habe, was ich markieren wollte. Das stört besonders arg, wenn ich einen Textblock auf einem Textabschnitt kopieren will.

Ist das nur bei mir so? Ich habe die Doku schon rauf und runter gelesen. Ich finde nix, um das Ergebnis zu verbessern.

P.S. Ich habe das PDF auch im Firefox und Chromium geladen und erhalte bei den Aktionen exakt dasselbe Ergebnis.

Edit: Screenshot angehängt

devil:
Hi, 
das Einzige, was ich dir sagen kann, ist, dass ich in Okular korrekt markieren kann. Ich habe 5 PDFs getestet, alle normal. Müssen die von deinem Drucker erzeugt worden sein? Dann könntest du mir eines schicken zum Test. 

edlin:
Ich habe mal eine 1A Vorlage ohne Text (also nur Text als Grafik) mit

--- Code: ---ocrmypdf -l deu rein.pdf raus.pdf
--- End code ---
umgewandelt.
raus.pdf in Okular geöffnet und stelle den gleichen Effekt fest. Suche ich ein Wort, so wird scheinbar ein Buchstabe am Ende ausgelassen (nicht markiert). Wirft man den markierten Text in die Zwischenablage, so ist das komplette Wort übertragen worden.
Teilweise habe ich bei großen Schriftgrößen den Effekt, dass die Markierung nach unten versetzt ist.

Kann dir also momentan nur zustimmen und nicht helfen.

edlin

edlin:
Die Neugier ließ mich nicht los und hab noch etwas getestet und gelesen. Leider ist der Versatz der OCR-Ebene zur Bildebene wohl aktuell ein generelles Problem, insbesondere wenn auf hocr2pdf bzw. Tesseract ab 3.0 zurückgegriffen wird.
Siehe z.B. hier: https://wiki.ubuntuusers.de/OCRmyPDF/#Alternativen

Sieht nicht nach einer Lösung des Problems aus; ich war jedenfalls noch nicht erfolgreich.

edlin

Navigation

[0] Message Index

[#] Next page

Go to full version
Powered by Advanced Topic Prefix Pro
Powered by SMFPacks WYSIWYG Editor