Inhalt Eingescannte pdf Dateien Textsuchfunktion?

raul

Ensign
Registriert
Juni 2011
Beiträge
144
Ich habe sehr viele eingescannte Text Dokumente als *.pdf und als *.jpg gespeichert.

Jetzt suche ich z.B. ein Dokument in diesen Inhalt das Wort "Vetrag" vorkommt.

1. Gibt es überhaupt eine Lösung dieses Problem?
2. Wie soll ich in der Zukunft die Dokumente einscannen damit ich diesen Problem vermeiden / Lösen kann?

Vielen Dank
 
die lösung dazu heißt OCR und geht auch nachträglich. brauchst aber ein foramt, dass auch die daten für OCR speicehrn kann, z.b. PDF. acrobat kann texterkennung, ist aber halt keine freeware und rechte teuer. gibt natürlich noch andere programme dafür, evtl. weiß da jemand anderes was gutes.
 
Da gibts nur eine einzige Möglichkeit, hab selbst mal stundenlang danach gesucht.

Adobe Acrobat. Du brauchst OCR, Optische Zeichenerkennung, dann klappt das direkt aus dem Win 7 Startmenü heraus.

Kannst etwa Adobe Acrobat 9 Standard nehmen, mit ca. 90€ günstig und es geht gut (Batchverarbeitung möglich).
 
Ich habe auch mit gescannten PDF´s zu tun, aber meines wissens sind das dann gescannte "Bilder" und da funktioniert keine Suchfunktion.

wenn dann brauchst eine besondere Scannsoftware, die das Dokument scannt und denn Textinhalt an eine andere Software wie Word oder ähnliches weitergibt. Stichwort OCR
 
Das nutzt ihm aber bei den eingescannten Dateien nix mehr, weil sie als Bilder und nicht als Text gespeichert wurden, daran kann der FineReader auch nichts mehr ändern.
 
Daher Adobe Acrobat. Das ist wenigstens was "gescheites". Rechtsklick auf 100 JPGs, in Adobe PDF umwandeln, danach per Stapelverarbeitung OCR drüberlaufen lassen.

Wir hatten in der Firma genau dasgleiche Problem, damit supergut gelöst.
Für OCR-Indizierung aber nen schnellen Rechner mit möglichst schneller CPU nehmen :)
 
werkam schrieb:
Das nutzt ihm aber bei den eingescannten Dateien nix mehr, weil sie als Bilder und nicht als Text gespeichert wurden, daran kann der FineReader auch nichts mehr ändern.
Wenn er es schon als Text hätte, bräuchte er doch keine OCR Software :freak:
Und dafür soll halt FineReader benutzt werden, um gerade die eingescannten Dokumente durchsuchbar zu machen. Wie gut das funktioniert ist erstmal dahingestellt, aber zumindest ist es als Trial Version verfügbar und er kann es zuerst austesten, bevor es gekauft wird. Wie schon erwähnt gibt's auch andere Programme.
 
werkam schrieb:
Das nutzt ihm aber bei den eingescannten Dateien nix mehr, weil sie als Bilder und nicht als Text gespeichert wurden, daran kann der FineReader auch nichts mehr ändern.

Doch! Man installiere sich noch den kostenlose PDFCreator, drucke die ganzen JPGs als PDF und lese diese PDFs in ein PDF-Programm, welches OCR beherrscht, ein.
 
Ich Danke Euch.

makiyt schrieb:
Daher Adobe Acrobat. Das ist wenigstens was "gescheites". Rechtsklick auf 100 JPGs, in Adobe PDF umwandeln, danach per Stapelverarbeitung OCR drüberlaufen lassen.

Wir hatten in der Firma genau dasgleiche Problem, damit supergut gelöst.
Für OCR-Indizierung aber nen schnellen Rechner mit möglichst schneller CPU nehmen :)

Ich denke das ist bisher die beste Lösung.

Ja aber das Problem ist mit dem Rechtsklick auf 100 JPG's weil dann muss man immer wieder einzeln sagen > speichern unten> name vergeben> ordner auswählen.... Oder gibt es hier einen Trick wie man z.B. alle 100 JPG auf ein schlag konvertieren kann, mit automatische Namensvergabe wie z.B gleiche Name mit zusatz "copy"?

Oder muss man die immer einzeln speichern?
 
Zuletzt bearbeitet:
Also da ich einen Buchscan gemacht habe per PDF und die Wörter des Buchscans selbst mit Foxit Reader Suchen kann denk ich es geht einfacher als die meisten hier so behaupten .

http://www.foxitsoftware.com/Secure_PDF_Reader/feature.php

englishe featureliste

Text Viewer & Text Converter

View the whole text content of a PDF file.
Convert a whole PDF document into a simple text file.
 
Zuletzt bearbeitet:
Zurück
Oben