Welcome, Guest. Please login or register.
Did you miss your activation email?

Author Topic:  Text in pdf`s suchen  (Read 1884 times)

Offline jure

  • User
  • Posts: 635
Text in pdf`s suchen
« on: 2020/12/26, 16:43:23 »
Hallo

gibt es unter KDE eine Möglichkeit nach Text (einem Wort) in pdf`s in einem Ordner zu suchen.
Mit Dolphin (Option > Inhalt:) oder Krusader (Option > Text:) bzw. kfind (Enthaltener Text:) funzt das hier nicht.

Auf der Konsole mit pdfgrep geht`s
Kann pdfgrep selbst auch nach exakten Übereinstimmungen suchen, also nur Ergebnisse bringen die genau dem Suchbegriff entsprechen ?
Gruss Juergen

Offline unklarer

  • User
  • Posts: 816
Re: Text in pdf`s suchen
« Reply #1 on: 2020/12/27, 10:41:25 »
Ich benutze hier unter kde/plasma qpdfview   ;)
Das kann das.

Offline jure

  • User
  • Posts: 635
Re: Text in pdf`s suchen
« Reply #2 on: 2020/12/27, 14:08:45 »
hmm - das kann zwar in einem geöffneten pdf suchen (was ja kein Problem ist), ich will aber in einem Ordner, mit Unterordnern, pdf`s nach einem Begriff durchsuchen und die pdf`s als Liste/Ergebnis ausgegeben haben, in der der Begriff auftaucht.
Gruss Juergen

Offline der_bud

  • User
  • Posts: 1.072
  • member
Re: Text in pdf`s suchen
« Reply #3 on: 2020/12/27, 14:24:30 »
Ich erinnere mich auch mal an kfind bzw Dolphins Suche verzweifelt zu haben, weil ich dachte die könnten das. Geht leider nicht in PDFs.
Wenn Du das öfter und in grossen Beständen brauchst, hilft vielleicht die Beschäftigung mit Recoll. Habe ich vor Jahren mal probiert, die Erstkonfiguration war ziemlich frickelig (Sprachen und Hinzufügen von Office-Dateitypen), man kann damit aber ein ziemlich mächtiges Suchtool bekommen.
Was ich jetzt nutze ist DocFetcher. Läuft mit OpenJDK oder Java, ist portabel (Win/Mac), unter Linux nur entpacken und die jar starten. Es können verschiedene Suchinidizes angelegt werden (also welche Ordner/Unterordner/Partitionen man durchsuchen will. Danach klappt Ultraschnell die Volltextsuche nach Inhalt, samt kleiner Vorschau mit umgebendem Text und öffnen im verknüpften Programm. Neben PDF, Text, Ebooks werden auch alle möglichen Officeformate unterstützt.
Du lachst? Wieso lachst du? Das ist doch oft so, Leute lachen erst und dann sind sie tot.

Offline unklarer

  • User
  • Posts: 816
Re: Text in pdf`s suchen
« Reply #4 on: 2020/12/27, 15:20:42 »
hmm - das kann zwar in einem geöffneten pdf suchen (was ja kein Problem ist), ich will aber in einem Ordner, mit Unterordnern, pdf`s nach einem Begriff durchsuchen und die pdf`s als Liste/Ergebnis ausgegeben haben, in der der Begriff auftaucht.

 ???  verflixt, da habe ich dich missverstanden.

Gerade wollte ich dir noch den Trick mit Strg-c verraten, was ein '+'  Fadenkreuz hervorbringt. um einen Rahmen um den gewünschten Text zu ziehen und, wenn du anhälst, erscheint ein Dialog, welcher fragt, ob du Text oder ein Bild einfügen möchtest...  geil.   ;D

Offline jure

  • User
  • Posts: 635
Re: Text in pdf`s suchen
« Reply #5 on: 2020/12/27, 18:07:01 »
danke Euch für die Antworten

@der_bud
DocFetcher habe ich mir mal gezogen und muss sagen, das funktioniert wirklich gut.
Insbesondere die Vorschau auf die "Funkstücke" ist sehr praktisch, wie auch die Möglichkeit die Suchanfrage vielfältig  zu kombinieren.
Gruss Juergen

Offline devil

  • Administrator
  • User
  • *****
  • Posts: 4.838
Re: Text in pdf`s suchen
« Reply #6 on: 2020/12/27, 18:50:42 »
Sehr schöne Anwendung. Das werd ich demnächst mal auf linuxnews.de vorstellen.

Offline bluelupo

  • User
  • Posts: 2.068
    • BluelupoMe
Re: Text in pdf`s suchen
« Reply #7 on: 2020/12/29, 11:30:51 »
Auf der Kommandozeile kann das "pdfgrep".

Offline jure

  • User
  • Posts: 635
Re: Text in pdf`s suchen
« Reply #8 on: 2020/12/29, 23:24:48 »
;-)
Quote from: jure
Auf der Konsole mit pdfgrep geht`s
Kann pdfgrep selbst auch nach exakten Übereinstimmungen suchen, also nur Ergebnisse bringen die genau dem Suchbegriff entsprechen ?

wenn man pdfgrep mit grep kombiniert, kann man aus den Ergebnissen die mit dem dem exaten Begriff heraus filtern.
Es werden also die Fundstellen angezeigt die nur den Begriff als Wort enthalten und nicht auch als Wortbestandteil.
Also beim Suchbegriff"Brot" zB wird nur "Brot" gefunden und nicht "Brotmessser"

Code: [Select]
pdfgrep -r Brot /home/juergen/xxx/*/ | grep -w "Brot"
das durchsucht (und findet in) 550 pdf`s mit je ca 50 Seiten in < 1 min
Gruss Juergen