Welcome, Guest. Please login or register.
Did you miss your activation email?

Author Topic: [DE] ocrmypdf Textlayer passt nicht  (Read 2377 times)

Offline orinoco

  • User
  • Posts: 233
  • Bullshit artist
[DE] ocrmypdf Textlayer passt nicht
« on: 2021/09/07, 20:11:56 »
Hallo,

ich teste gerade ocrmypdf. Dabei ist mir aufgefallen, dass der Text-Layer nicht zu 100% zum Bild passt.

Das zeigt sich auf zwei Arten:

1. Wenn ich ein Wort suche, fehlt beim Treffer optisch mindestens der letzte Buchstabe in der Markierung. Wenn ich in die Zwischenablage kopiere, landet dort das komplette Wort.

2. Wenn ich Text buchstabenweise mit der Maus markiere, ist nach wenigen Buchstaben mehr markiert, als optisch ausgewählt ist. In der Zwischenablage landen die markierten Buchstaben + x.

Es fehlen irgendwie die richtigen Bildpositionen zu den ausgewählten Buchstaben.

Habt ihr das auch beobachtet und kann man das fixen?

VG
orinoco

Offline orinoco

  • User
  • Posts: 233
  • Bullshit artist
Re: ocrmypdf Textlayer passt nicht
« Reply #1 on: 2023/04/28, 16:43:36 »
Hallo,

ich möchte das Thema nochmal aufwärmen, weil es mich heute wieder ärgert.

Prinzipiell möchte ich PDFs, die mein MuFu-Drucker erstellt, durchsuchbar machen. Das klappt mit ocrmypdf auch recht gut. Ist die Vorlage okay, ist das Ergebnis zufriedenstellend.

Wenn ich aber z.B. mit Okular in dem PDF Text markieren will, um ihn zu kopieren, passt die Auswahl nicht zum Originaltext. Es fehlt rechts immer was bzw. wenn ich bis zum vermeintlich letzten Buchstaben markiere, hab ich zu viel Text. Oder ich suche ein Wort, das im PDF enthalten ist, und erhalte optisch zu wenig markiert. Der Textlayer passt einfach nicht zur gescannten Vorlage.

Ich habe mal ein Screenshot angehangen, das mein Problem hoffentlich verständlich zeigt:

Es ist eine Rechnung, die ich nach der Konvertierung mit ocrmypdf in Okular geladen und nach dem Wort Rechnung durchsucht habe. Ihr seht, dass der letzte Buchstabe nicht markiert wird, obwohl ich nach dem vollständigen Wort gesucht habe. Das ist jetzt nur die Optik. Drücke ich Strg+c habe ich das Wort Rechnung in der Zwischenablage.

Wenn ich aber mit der Maus das Wort Rechnung markieren will, passiert dasselbe. Es fehlt optisch das g. Will ich das auch noch erwischen und ziehe die Maus weiter nach rechts, markiere ich die nächste Zeile mit. Ich darf also nicht alles markieren und muss beim Einfügen hoffen, dass ich doch alles verwischt habe, was ich markieren wollte. Das stört besonders arg, wenn ich einen Textblock auf einem Textabschnitt kopieren will.

Ist das nur bei mir so? Ich habe die Doku schon rauf und runter gelesen. Ich finde nix, um das Ergebnis zu verbessern.

P.S. Ich habe das PDF auch im Firefox und Chromium geladen und erhalte bei den Aktionen exakt dasselbe Ergebnis.

Edit: Screenshot angehängt
« Last Edit: 2023/04/28, 16:53:13 by orinoco »

Offline devil

  • Administrator
  • User
  • *****
  • Posts: 4.838
Re: ocrmypdf Textlayer passt nicht
« Reply #2 on: 2023/04/29, 06:19:00 »
Hi, 
das Einzige, was ich dir sagen kann, ist, dass ich in Okular korrekt markieren kann. Ich habe 5 PDFs getestet, alle normal. Müssen die von deinem Drucker erzeugt worden sein? Dann könntest du mir eines schicken zum Test. 

Offline edlin

  • User
  • Posts: 535
Re: ocrmypdf Textlayer passt nicht
« Reply #3 on: 2023/04/29, 09:28:20 »
Ich habe mal eine 1A Vorlage ohne Text (also nur Text als Grafik) mit
Code: [Select]
ocrmypdf -l deu rein.pdf raus.pdfumgewandelt.
raus.pdf in Okular geöffnet und stelle den gleichen Effekt fest. Suche ich ein Wort, so wird scheinbar ein Buchstabe am Ende ausgelassen (nicht markiert). Wirft man den markierten Text in die Zwischenablage, so ist das komplette Wort übertragen worden.
Teilweise habe ich bei großen Schriftgrößen den Effekt, dass die Markierung nach unten versetzt ist.

Kann dir also momentan nur zustimmen und nicht helfen.

edlin
« Last Edit: 2023/04/29, 09:56:26 by edlin »
Der Kluge lernt aus allem und von jedem,
der Normale aus seinen Erfahrungen
und der Dumme weiß alles besser.

Sokrates

Offline edlin

  • User
  • Posts: 535
Re: ocrmypdf Textlayer passt nicht
« Reply #4 on: 2023/04/30, 12:17:13 »
Die Neugier ließ mich nicht los und hab noch etwas getestet und gelesen. Leider ist der Versatz der OCR-Ebene zur Bildebene wohl aktuell ein generelles Problem, insbesondere wenn auf hocr2pdf bzw. Tesseract ab 3.0 zurückgegriffen wird.
Siehe z.B. hier: https://wiki.ubuntuusers.de/OCRmyPDF/#Alternativen

Sieht nicht nach einer Lösung des Problems aus; ich war jedenfalls noch nicht erfolgreich.

edlin
Der Kluge lernt aus allem und von jedem,
der Normale aus seinen Erfahrungen
und der Dumme weiß alles besser.

Sokrates

Offline orinoco

  • User
  • Posts: 233
  • Bullshit artist
Re: ocrmypdf Textlayer passt nicht
« Reply #5 on: 2023/05/01, 00:13:07 »
Hi,
das Einzige, was ich dir sagen kann, ist, dass ich in Okular korrekt markieren kann. Ich habe 5 PDFs getestet, alle normal. Müssen die von deinem Drucker erzeugt worden sein? Dann könntest du mir eines schicken zum Test.
Hallo Devil,

ich habe nur den Multifunktionsdrucker zum Scannen. Der wirft neben PDF- auch TIFF-Dateien aus. Damit habe ich auch getestet, um auszuschliessen, dass es am produzieren PDF liegt. Es ist das selbe Ergebnis. Der Textlayer passt nicht zum Scan.

Wie soll ich Dir die Testdateien zur Verfügung stellen? Ich bin sehr gespannt, wie Deine Ergebnisse aussehen werden.

Mein Aufruf lautet übrigens
Code: [Select]
ocrmypdf -v -l deu --deskew --clean --optimize 1 --rotate-pages input.pdf output.pdf
Bei Texten, die Zeichen mit fester Breite verwenden, passt der Textlayer auch nicht.

Offline orinoco

  • User
  • Posts: 233
  • Bullshit artist
Re: ocrmypdf Textlayer passt nicht
« Reply #6 on: 2023/05/01, 00:14:23 »
Sieht nicht nach einer Lösung des Problems aus; ich war jedenfalls noch nicht erfolgreich.

edlin

Hallo edlin,

vielen Dank für Deine Tests.

Offline orinoco

  • User
  • Posts: 233
  • Bullshit artist
Re: ocrmypdf Textlayer passt nicht
« Reply #7 on: 2024/01/18, 17:20:38 »
Verzeiht, dass ich diesen alten Faden wieder belebe, aber das Thema war für mich nie befriedigend erledigt und ich habe immer wieder recherchiert und probiert. Auf der Projektseite von ocrfmypdf bin ich auf diesen Issue gestoßen: https://github.com/ocrmypdf/OCRmyPDF/issues/450

Ich ergänze jetzt den Parameter --pdf-renderer hocr und erhalte das gewünschte Ergebnis, dass Markierungen im PDF auf Wort- bzw. Zeichengrenzen nun auch wirklich nur die markierten Buchstaben und nicht 1-2 weitere Zeichen blind mit auswählen.

Mein Aufruf ist jetzt

Code: [Select]
ocrmypdf -v -l deu --deskew --clean --optimize 1 --rotate-pages --pdf-renderer hocr input.pdf output.pdf
Falls jemand für sich selbst testen und seine Erfahrungen teilen möchte, habe ich mein Testdokument[1] angehängt. Einfach ausdrucken, wieder einscannen, durch ocrmypdf leiten und betrachten und markieren (bei mir: Okular und Firefox)

Jetzt passen die Markierung auf Zeichengrenzen. Es fehlen nun aber die ersten beiden Zeilen eines Buchstaben. Der kopierte Text ist aber korrekt und vollständig.

Beim Testen ist mir aber auch aufgefallen, dass Okular und Firefox den Text mit fester Zeichenbreite unterschiedlich handhaben. Aus Firefox kopiert ergibt den Text wie angezeigt; aus Okular kopiert ergibt pro Wort eine Zeile. Hier ist mir nicht klar, welcher Betrachter PDF wirklich korrekt umsetzt. Was wäre eurer Erfahrung nach die Referenz unter Linux?

[1] Ich konnte kein ODT hochladen - Daher ein PDF-Export aus Libreoffice Writer - Nicht verwirren lassen und ausdrucken und einscannen nicht vergessen