PDF Scans, OCR und die Suche mit Windows 10

Nscale

Lt. Junior Grade
Registriert
Dez. 2014
Beiträge
287
Hallo Forum,

ich mache mir schon seit einer Weile Gedanken darüber, die Unmengen an Papier endlich loszuwerden, die sich anstapeln. Rechnungen etc, die per E-Mail kommen lassen sich bei mir mit Windows 10 prima durchsuchen und wandern daher auch direkt ins Datengrab. Jetzt möchte ich meinen Analogen Bestand auch digitalisieren und bin auf folgendes Problem gestoßen.

Ich verwende einen Epson ET 4750 und die mitgelieferte OCR Software, um durchsuchbare PDF zu erstellen. Dies funktioniert auch sehr gut, die Texte lassen sich in der PDF markieren bzw. suchen.
Leider aber scheint Windows 10 diese Daten nicht abgreifen zu können oder wollen. Eine Neuinstallation der Druckersoftware hat leider nichts gebracht. Ich habe im Internet bisher hierzu nichts gefunden und auch in den Einstellungen keine Stellschraube gefunden.
Hat da jemand eine Idee, wie ich diese PDF durchsuchbar bekomme mit dem Windows Search Dienst? Oder liegt es an der OCR Software seitens Epson?

Danke im Voraus.
 
Windows kann allein keine Inhalte von PDFs durchsuchen, dazu benötigst Du Zusatztools. Je nach Umfang deines analogen Bestands könnte ein kleines DMS besser geeignet sein als eines der vielen Zusatztools. Kannst ja mal bspw. Everdoc anschauen oder das kostenlose Bitfarm Archiv. Letzteres ist deutlich mächtiger und flexibler, benötigt aber auch Zeit für die Einarbeitung. Dafür ist die Volltextsuche jedoch extrem mächtig.
 
Guten Morgen,

als Zusatztool ist der Acrobat Reader installiert. Bei am PC erstellten PDF funktioniert die Suche wie erwähnt super und zuverlässig. Daher ist der Link von ChiliSchaf ohne weiteren Kommentar auch nicht sonderlich hilfreich, den der Guide bezieht sich rein auf PDF, nicht auf durchsuchbare Scans.
 
Als was sind denn Deine "durchsuchbaren Scans" noch abgelegt?
Da ganz oben im Post #1 schreibst Du doch

Nscale schrieb:
und die mitgelieferte OCR Software, um durchsuchbare PDF zu erstellen. Dies funktioniert auch sehr gut, die Texte lassen sich in der PDF markieren bzw. suchen.

Das da im vom @ChiliSchaf gelieferten Link bezieht sich auf (durchsuchbare) PDF.
Ohne dem macht das keinen Sinn. Davon geh auch der Autor aus.

BFF
 
  • Gefällt mir
Reaktionen: ChiliSchaf
@BFF die Scans sind als .PDF abgelegt. Es macht aber einen großen Unterschied, ob die PDF digital am PC erstellt wurde, oder über den Scan ein nachträglich hinzugefügtes Textoverlay mittels OCR Software bzw. Adobe Reader selbst gelegt wird. Im Programm selbst kann ich ohne Probleme nach Inhalten suchen, die Inhalte werden aber von Windows nicht erkannt bzw. nicht an Windows weitergegeben.
Der von ChiliSchaf geteilte Link bezieht sich rein auf PDF, wie Du sie z.B. als digitale Rechnung zugesandt bekommst. Daher habe ich mit solchen PDF auch keine Probleme sie über die Windows Suche selbst zu finden, in diese Dokumente kann Windows reinschnuppern. Der Link bezieht sich aber nicht auf durchsuchbare Scans, denen der Klartext durch OCR untergeschoben wird. Der Adobe Support hat mir leider auch keine vernünftige Antwort auf diese Frage geben können. Ich solle doch den Reader auf machen und über diesen suchen, was mehr als unpraktikabel ist.
 
Dann muss bei Dir so Einiges anders laufen wie ueblich.
Wenn ich hier irgendwas einscanne und spaeter eine OCR(*) darueber schicke und das PDF an einen Ort speichere wo die Indizierung reinschaut finde ich immer was wenn ich z.B. nach dem Text im PDF suche.

(*) Fuer die OCR ist voellig egal was ich nehme.

Kannst Du mir bitte mal ein unverfaengliches PDF basteln, Deine OCR darueber schicken und hier verlinken?
Ich schau dann mal was meine Kiste damit macht.

BFF
 
@BFF ich habe mir heute Nacht noch die Mühe gemacht, es mit einem anderen Scannerzu testen. Es scheint so, als sei die OCR Software von Epson daran Schuld. Mit der von HP funktioniert es nun, wenn auch nur mäßig da sie erheblich schlechter die Texte erkennt. Mir ist auch aufgefallen, dass in der aktuellen Scan Smart Software von Epson die OCR Sprache durchgehend auf Englisch gestellt ist und sich nicht mehr verstellen lässt. Auch nach einer Neuinstallation nicht. Ich werde morgen deren Support einmal um Hilfe anschreiben.
 
Zurück
Oben