Stichwortsuche über mehrere pdf-Dateien/Verzeichnisse hinweg?

lead341

Lt. Commander
Registriert
Apr. 2005
Beiträge
1.897
Hallo,

im Rahmen meiner Doktorarbeit komme ich immer wieder in die Situation, dass mir konkrete Begriffe einfallen, ohne dass es mir jedoch gelingt, diesen auf einen der gut 1000 pdfs (paper, Bücher etc.) zurückzuführen. Ich habe die einzelnen paper nach Autor und Thematik geordnet und mich würde nun interessieren, ob es eine Möglichkeit gibt, sämtliche Verzeichnisse (der Verzeichnisname bezieht sich stets auf den Autor, darunter finden sich dessen Werke) sozusagen in einem Durchgang zu durchsuchen, ohne mühsam jedes Verzeichnis öffnen und durchsuchen zu müssen.

Für Tips wäre ich dankbar.

Viele Grüße,

Andreas Hahn
 
Prinzipiell geht das.

Voraussetzung ist für alle Möglichkeiten, dass die PDF grundsätzlich durchsuchbar sind, d.h. die Texte als solche erkannt wurden. Bei Adobe Acrobat nennt man dieses OCR-Feature "Paper Capture". Testen kann man das bei einem PDF, indem man es entweder erfolgreich nach einem Wort durchsucht oder das Auswahl-Werkzeug aktiviert und den Text erfolgreich markiert. In diesen Fällen ist der Text durchsuchbar.

So, das weitere Vorgehen hängt davon ab, ob Du nur das Adobe-Programm zum Lesen (Adobe Reader) oder auch das zum Erstellen von PDF hast (Adobe Acrobat).

Was hast Du?
 
Warten wir doch erstmal seine Antwort ab. In Adobe Acrobat ist eine bequeme Suchfunktion bereits eingebaut. ;)
 
@Tankred: deine Methode ist zwar nutzbar, aber das würde für lead bedeuten, dass er alle PDF´s geöffnet haben muss. Und bei etwa 1000 verschiedener PDF´s kommt wohl jeder Rechner ins stocken.

@lead: lade dir den Total Commander runter und installiere den.
Link: http://www.ghisler.com/ddownload.htm
der Total Commander ist mehr als eine Explorer Ersatz. Wenn du schon länger dich mit PC´s beschäftigst, dann kennst du sicherlich noch den Norton Commander. Der Total Commander ist eine Weiterentwicklung und somit um einiges mächtiger.
Nach der Installation gehst du in das gewünschte Verzeichnis, wo deine PDF´s gespeichert sind. Dann aktivierst du die Suche (Tastenkombination ALT+F7) und dort den Bereich 'Text suchen' aktivieren. Wenn nun ein PDF so angelegt ist, dass es durchsucht werden kann, dann wirst du mit diesem Tool glücklich.

Gruß
 
Danke für die Antworten.

Also wenn mir jetzt jemand erklärt, dass ich das mit Acrobat Professional tatsächlich machen könnte, dann würde sich ja die (bisher größtenteils sinnlose) Anschaffung mal richtig rentieren.
Ich habe ein älteres Professional (die 6) und habe damit auch schon pdfs erstellt.

Gruss Andreas
 
SirTwist schrieb:
@Tankred: deine Methode ist zwar nutzbar, aber das würde für lead bedeuten, dass er alle PDF´s geöffnet haben muss. Und bei etwa 1000 verschiedener PDF´s kommt wohl jeder Rechner ins stocken.

Aber nicht doch, lies einfach weiter unten, wie's geht... ;)

lead341 schrieb:
Also wenn mir jetzt jemand erklärt, dass ich das mit Acrobat Professional tatsächlich machen könnte, dann würde sich ja die (bisher größtenteils sinnlose) Anschaffung mal richtig rentieren.
Ich habe ein älteres Professional (die 6) und habe damit auch schon pdfs erstellt.

Okay, ich habe mir dann mal kurz die 6er installiert, damit ich Dir die richtigen Pfade zeigen kann:

1. Klicke auf "Erweitert" und danach auf "Catalog..."
2. Klicke nun auf "Neuer Index..."
3. Gib oben nun einen beliebigen Namen für Deinen Index an
4. Wähle die Ordner, in denen die PDF liegen. Am besten wäre es, wenn alle PDF in einem Ordner in mehreren Unterordnern oder so liegen
5. Klicke nun auf "Generieren"

Nun hast Du einen Index mit dem unter 3. gewählten Namen erstellt. Es handelt sich um einen Volltextindex, mit dem Du in Windeseile alle PDF durchsuchen kannst, die in den unter 4. angegebenen Ordnern liegen. Zum Durchsuchen des Index drückst Du in Adobe Acrobat "Strg+F", dann unten auf "Erweiterte Suchoptionen verwenden" und kannst dann unter "Suchen in:" den gewünschten Suchindex auswählen.

Viel Erfolg!
 
Danke für die sehr detaillierte Beschreibung.
Sobald ich zuhause bin, werde ich mich ans Werk machen und das ganze mal ausprobieren. Wenn das klappt, kann ich meine "Doktorarbeitszeit" gut und gern um eine Stunde pro Tag reduzieren ;-)

Gruss Andreas
 
Hallo,

Copernic Desktop Search (CDS) ist meiner Meinung die beste Lösung.

Mit diesem Freeware-Produkt werden nicht nur PDF-Dateien, sondern zig-verschiedene andere Dateien und Datenformate der Office-Pakete von Microsoft, Corel, OpenOffice ... - Bild-, Video- und Musikdateien - Lesezeichen von Browsern - Mails, Kontakte, Notizen, Kalender von Outlook, Thunderbird, Opera - ....

blitzschnell gefunden und innerhalb der integrierten Vorschau angezeigt.


CDS ist (auch) in deutscher Sprache verfügbar, lässt sich individuell konfigurieren, ist einfach zu bedienen ...

Link hierzu: http://www.copernic.com/en/products/desktop-search/

mfg

Ria
 
Ich nutze Copernic selbst, würde es aber nicht für jemanden empfehlen, der nur bestimmte Dokumente an einem bestimmten Ort durchsuchen will. Oder kennst Du eine Möglichkeit, die Suche in Copernic auf bestimmte Ordner einzuschränken?
 
Hallo,

mit ein paar Mausklicks kann man die Suche auf z.B. "D:\Hupfendollkasper" beschränken.

Zusätzlich kann man die Suche auf pdf-Dateien beschränken oder eine Suchlauf unter "My Searches" definieren.

mfg

Ria
 
Adobe Reader -> Menü Bearbeiten -> Erweiterte Suche (alternativ: Strg + Shift + F)

Was soll durchsucht werden -> Alle PDF-Dokumente in -> Verzeichnis auswählen ("Ordner wählen")

Wer braucht da noch Copernic, TotalCommander, Acrobat oder ähnliches?
 
Hallo,

solange sich die Suche auf einmalig einfache und vertikale Suchbereiche beschränkt, reichen die internen Möglichkeiten vieler Programme aus.

Ich nutze den PDF-XChange Viewer und damit klappt die v.g. Suche, ohne Indizierung in angemessener Geschwindigkeit und mit einer übersichtlichen Darstellung der Ergebnisse - keine Frage!

Copernic habe installiert, weil ich es häufig mit unterschiedlichen Dateiformaten, mehreren abgegrenzten Verzeichnissen und Partitionen zu tun habe.

Dabei und bei vielen anderen Such-Anforderungen, wie bei Such-Operatoren, Suchergebnisse weiter verwenden .... bin ich mit der Freeware ganz zufrieden.

mfg

Ria
 
Ria schrieb:
mit ein paar Mausklicks kann man die Suche auf z.B. "D:\Hupfendollkasper" beschränken.

Zusätzlich kann man die Suche auf pdf-Dateien beschränken oder eine Suchlauf unter "My Searches" definieren.

Auf was beziehst Du Dich, auf Copernic? Also in meiner Copernic-Version kann man nur auswählen, ob auf dem PC oder im Internet gesucht werden soll. Eine Einschränkung auf ein bestimmtes Verzeichnis ist nicht möglich (oder ich habe die Funktion noch nicht gefunden).

Boron schrieb:
Adobe Reader -> Menü Bearbeiten -> Erweiterte Suche (alternativ: Strg + Shift + F)

Was soll durchsucht werden -> Alle PDF-Dokumente in -> Verzeichnis auswählen ("Ordner wählen")

Wer braucht da noch Copernic, TotalCommander, Acrobat oder ähnliches?

Wenn Du mehrere hundert oder tausend PDF-Dateien hast, dann ist eine sequentielle Suche ziemlich zeitintensiv. Der Unterschied zwischen Deiner Methode und jedenfalls Copernic und Acrobat ist der Index. Die Suche geht damit nicht nur deutlich sondern enorm schneller und damit komfortabler.
 
Tankred schrieb:
... in meiner Copernic-Version kann man nur auswählen, ob auf dem PC oder im Internet gesucht werden soll. Eine Einschränkung auf ein bestimmtes Verzeichnis ist nicht möglich (oder ich habe die Funktion noch nicht gefunden)

Hallo,

bei Copernic Desktop Search werden einige Suchbereiche unter -> Optionen -> Dateien vorgegeben.

Diese Vorgaben: Desktop, Eigene Dateien, Eigene Musik, Eigene Bilder und Eigene Videos kann man zwar nicht aus den Grundeinstellungen entfernen, aber man kann in den weiteren Einstellungen festlegen, dass die Verzeichnisse samt den Unterverzeichnissen ignoriert werden.

Je nach Anforderungen kann man auch aus einem Bereich "Eigene Dateien" ein x-beliebiges Verzeichnis ausschließen (s. Bild), indem man den Pfad anlegt und dabei festlegt, dass dieses Verzeichnis übersprungen wird.

CDS.jpg

Ist dies soweit definiert, kannst Du jedes x-beliebiges Verzeichnis und/oder Laufwerk in die Suche einbeziehen.


mfg


Ria
 
Zuletzt bearbeitet:
Okay, dann werden diese Bereiche aber erst gar nicht indiziert und dann kann man ja gleich die Index-Funktion in Adobe Acrobat nehmen. Denn der mögliche Mehrwert von Copernic geht ja durch diese Einschränkung verloren.
 
Bei mir ist ein weiteres Problem aufgetreten: die Suchefunktion in Adobe Professional bzw. Reader funktioniert so im großen und ganzen gut. Mir ist jedoch aufgefallen, dass sich manche pdf´s überhaupt nicht durchsuchen lassen. Ich hatte mir ein paper herausgesucht und testweise einen Begriff gezielt gesucht ("Compromise state") - er konnte den Begriff nicht finden, obwohl er ganz klar im Text war. Auch die Wörter "compromise" und "state" waren für die Suche unauffindbar. Woran könnte dies nun wieder liegen?

Gruss Andreas
 
Versuch mal die Textstelle zu kopieren und z.B. in Notepad einzufügen. Vllt. kann er die PDF nicht richtig lesen.
 
lead341 schrieb:
Woran könnte dies nun wieder liegen?

Das habe ich oben erklärt:

Tankred schrieb:
Voraussetzung ist für alle Möglichkeiten, dass die PDF grundsätzlich durchsuchbar sind, d.h. die Texte als solche erkannt wurden. Bei Adobe Acrobat nennt man dieses OCR-Feature "Paper Capture". Testen kann man das bei einem PDF, indem man es entweder erfolgreich nach einem Wort durchsucht oder das Auswahl-Werkzeug aktiviert und den Text erfolgreich markiert. In diesen Fällen ist der Text durchsuchbar.

D.h. Du musst über die Texte, die sich nicht durchsuchen lassen, "Paper Capture" laufen lassen.
 
Zurück
Oben