Die meisten Dokumente sind durchsuchbar, nur ein Teil ist gescannt.
Eine Suche nach Begriffen würde mir aber generell nichts bringen, da ich nicht nach bestimmten Begriffen suchen kann, sondern eine semantische Suche bräuchte (durchsuche alle meine Kontoauszüge nach Buchungen, die etwas mit dem Haus zu tun haben).
Wie Jure nutze ich gscan2pdf mit Tesseract.
Damit wird ein Layer mit der Bildinformation erstellt und ein Layer mit den erkannten Texten in Form von Textfeldern. Die Texte können vorm generieren der pdf Datei bei Bedarf korrigiert werden.
Diese Layer werden in der pdf Datei so zusammengefügt, dass man zwar nur die Grafik sieht, die Texte aber durchsuchen, markieren und kopieren kann.
H-Cl