Siduction Forum

Siduction Forum => Software - Support => Topic started by: jure on 2020/12/26, 16:43:23

Title: Text in pdf`s suchen
Post by: jure on 2020/12/26, 16:43:23
Hallo

gibt es unter KDE eine Möglichkeit nach Text (einem Wort) in pdf`s in einem Ordner zu suchen.
Mit Dolphin (Option > Inhalt:) oder Krusader (Option > Text:) bzw. kfind (Enthaltener Text:) funzt das hier nicht.

Auf der Konsole mit pdfgrep geht`s
Kann pdfgrep selbst auch nach exakten Übereinstimmungen suchen, also nur Ergebnisse bringen die genau dem Suchbegriff entsprechen ?
Title: Re: Text in pdf`s suchen
Post by: unklarer on 2020/12/27, 10:41:25
Ich benutze hier unter kde/plasma qpdfview   ;)
Das kann das.
Title: Re: Text in pdf`s suchen
Post by: jure on 2020/12/27, 14:08:45
hmm - das kann zwar in einem geöffneten pdf suchen (was ja kein Problem ist), ich will aber in einem Ordner, mit Unterordnern, pdf`s nach einem Begriff durchsuchen und die pdf`s als Liste/Ergebnis ausgegeben haben, in der der Begriff auftaucht.
Title: Re: Text in pdf`s suchen
Post by: der_bud on 2020/12/27, 14:24:30
Ich erinnere mich auch mal an kfind bzw Dolphins Suche verzweifelt zu haben, weil ich dachte die könnten das. Geht leider nicht in PDFs.
Wenn Du das öfter und in grossen Beständen brauchst, hilft vielleicht die Beschäftigung mit Recoll (https://www.pro-linux.de/artikel/2/1675/volltextsuche-mit-recoll.html). Habe ich vor Jahren mal probiert, die Erstkonfiguration war ziemlich frickelig (Sprachen und Hinzufügen von Office-Dateitypen), man kann damit aber ein ziemlich mächtiges Suchtool bekommen.
Was ich jetzt nutze ist DocFetcher (http://docfetcher.sourceforge.net/de/). Läuft mit OpenJDK oder Java, ist portabel (Win/Mac), unter Linux nur entpacken und die jar starten. Es können verschiedene Suchinidizes angelegt werden (also welche Ordner/Unterordner/Partitionen man durchsuchen will. Danach klappt Ultraschnell die Volltextsuche nach Inhalt, samt kleiner Vorschau mit umgebendem Text und öffnen im verknüpften Programm. Neben PDF, Text, Ebooks werden auch alle möglichen Officeformate unterstützt.
Title: Re: Text in pdf`s suchen
Post by: unklarer on 2020/12/27, 15:20:42
hmm - das kann zwar in einem geöffneten pdf suchen (was ja kein Problem ist), ich will aber in einem Ordner, mit Unterordnern, pdf`s nach einem Begriff durchsuchen und die pdf`s als Liste/Ergebnis ausgegeben haben, in der der Begriff auftaucht.

 ???  verflixt, da habe ich dich missverstanden.

Gerade wollte ich dir noch den Trick mit Strg-c verraten, was ein '+'  Fadenkreuz hervorbringt. um einen Rahmen um den gewünschten Text zu ziehen und, wenn du anhälst, erscheint ein Dialog, welcher fragt, ob du Text oder ein Bild einfügen möchtest...  geil.   ;D
Title: Re: Text in pdf`s suchen
Post by: jure on 2020/12/27, 18:07:01
danke Euch für die Antworten

@der_bud
DocFetcher habe ich mir mal gezogen und muss sagen, das funktioniert wirklich gut.
Insbesondere die Vorschau auf die "Funkstücke" ist sehr praktisch, wie auch die Möglichkeit die Suchanfrage vielfältig  zu kombinieren.
Title: Re: Text in pdf`s suchen
Post by: devil on 2020/12/27, 18:50:42
Sehr schöne Anwendung. Das werd ich demnächst mal auf linuxnews.de vorstellen.
Title: Re: Text in pdf`s suchen
Post by: bluelupo on 2020/12/29, 11:30:51
Auf der Kommandozeile kann das "pdfgrep".
Title: Re: Text in pdf`s suchen
Post by: jure on 2020/12/29, 23:24:48
;-)
Quote from: jure
Auf der Konsole mit pdfgrep geht`s
Kann pdfgrep selbst auch nach exakten Übereinstimmungen suchen, also nur Ergebnisse bringen die genau dem Suchbegriff entsprechen ?

wenn man pdfgrep mit grep kombiniert, kann man aus den Ergebnissen die mit dem dem exaten Begriff heraus filtern.
Es werden also die Fundstellen angezeigt die nur den Begriff als Wort enthalten und nicht auch als Wortbestandteil.
Also beim Suchbegriff"Brot" zB wird nur "Brot" gefunden und nicht "Brotmessser"

Code: [Select]
pdfgrep -r Brot /home/juergen/xxx/*/ | grep -w "Brot"
das durchsucht (und findet in) 550 pdf`s mit je ca 50 Seiten in < 1 min