Gesucht: Programm zum Indizieren von PDF-Dokumenten

EXstar

Newbie
Registriert
Sep. 2017
Beiträge
5
Ich suche ein Programm zum Indizieren von ca. 2000 PDF Dokumenten – ähnlich Search Engine Builder Pro. Dieses Programm wird leider nicht mehr weiterentwickelt und kann auch in der letzten Version die Menge der zu indizierten Schlagwörter nicht mehr verarbeiten.

Das Programm soll die in den PDF-Eigenschaften hinterlegten Beschreibungen auslesen und indizieren können. Eine Indizierung der Inhalte wäre schön, aber nicht unbedingt notwendig. Als Ausgabe soll ein Web-fähige Suchmaske möglich sein. Search Engine Builder löste das über ein Javascript, in dem zu allen Suchbegriffen ein entsprechender Link zum PDF abgespeichert war.

Ich weiß, dass sich das eleganter über PHP und eine Datenbank lösen läßt, diese Möglichkeit scheidet aber wegen des Wartungsaufwand es und der nun jährlichen PHP-Versions-Updates aus.
 
EXstar schrieb:
Das Programm soll die in den PDF-Eigenschaften hinterlegten Beschreibungen auslesen und indizieren können.
Was Fertiges habe ich auf die schnelle nicht gefunden. In dem Bereich muss man sich anscheinend selbst eine Lösung zusammenzimmern, s: https://qr.ae/pGJ1wP

EXstar schrieb:
eleganter über PHP
Elegant und PHP finde ich schwierig in einem Satz zu verwenden, aber bei PHP scheiden sich die Geister 😁

Zudem wäre eine komplette Eigenentwicklung mit Kanonen auf Spatzen zu schießen. In dem Bereich haben sich seit Jahren diverse Search-Engines wie Elasticsearch etabliert und bewährt.

Eine gangbare Möglichkeit wäre wohl Apache Solr aufzusetzen und sich einen PDF Index aufzubauen: https://gist.github.com/nichtich/429904

Alternativ kannst du überlegen ein Dokumentenmanagement System einzusetzen, die haben dann eine Suchfunktion über Meta-Felder und die meisten bieten auch OCR und Volltextsuche an.
 
Ich habe für den Arbeitgeber vor einigen Monaten mal nach Ähnlichem recherchiert.

Die beiden Kandidaten am Ende waren dann Copernic Desktop Search und Open Semantic Desktop Search.

Ersteres ist eine kommerzielle Anwendung, die als Client auf Deinem PC läuft und von dort aus indiziert. Letzteres ist als Server ausgelegt und über den Webbrowser zugänglich, ich habe es zunächst als VM laufen lassen.

Der Vorteil von Copernic ist die einfache Installation und Einrichtung. Du kannst indizierte Dokumente nach Stichworten durchsuchen und nach weiteren Kriterien eingrenzen. Suchtreffer werden in einer Dokumentenvorschau direkt angezeigt und farblich hinterlegt. Insgesamt ist das Programm aber etwas nervig und ich hatte den Eindruck, dass es nicht alles findet, was in den Dokumenten zu finden wäre.

Der Vorteil der Open Semantic Desktop Search ist zunächst einmal, dass es Open Source ist und nichts kostet. Außerdem gibt es eine Menge potentiell interessanter Informationen, zum Beispiel werden gefundene Stichworte automatisch in Kategorien wie "Orte", "Personen" etc. sortiert.

Übrigens lohnt es sich, OCR als separaten Schritt vor dem Indizieren durchzuführen. Ich habe dafür Adobe Acrobat Pro verwendet, hat ein paar Nächte gedauert, aber dann war gut.
 
Zurück
Oben