Gescannte Dokumente (PDF) mit Windows Sucche finden

Dynasty

Ensign
Registriert
Dez. 2013
Beiträge
249
Hallo Zusammen:)

Ich habe mehr als 1000 gescannte Dokumente, nun im PDF selber kann ich ja die Texterkennung einschalten und im selben Dokument nach Wörter suchen.

Wie aber kann ich beim Ordner schon nach bestimmten Nummer oder Wörter suchen die in den PDF Dokumenten enthalten sind.

Beispiel ich suche im Ordner RE10920 und dan spuckts mir die PDF aus, die das Wort im Dokument enthält.


Vielen herzlichen Dank
Gruss
 
Dazu müsste Windows den Inhalt der PDF-Dateien per OCR auslesen und indizieren. Meines Wissens nach wird das mit Bordmitteln nichts. Du könntest dafür Software verwenden, die genau dies tut und die Dokumente innerhalb der Software suchen (Evernote z.B., gibt es mit kostenlosem Plan, wenn auch mit Einschränkungen)
 
  • Gefällt mir
Reaktionen: rosenholz
Da die Dokumente ja schon Text enthalten (also OCR angewendet wurde) ist tatsächlich die erweiterte Suche des Adobe Readers eine Option. Alternativ klann man aber auch Windows beibringen, die pdf-Dokumente bzw. ihre Texte in den eigenen Suchindex einzutragen.
 
Ist zwar nur ein Workaround, aber könnte dir auch helfen:
Die Suche in Outlook (ich hatte hier bis vor kurzem 2016, jetzt Office LTSC Professional plus 2021) findet Stichworte in PDFs, die als Attachment versandt wurden (vorausgesetzt, man hat die Indizierungsoptionen aktiviert).
Das erfolgt sehr zuverlässig und blitzschnell (ich habe eben zum Ausprobieren 23'000 Dokumente durchsucht).
Möchte ich die Funktion für eigen erstellte PDFs nutzen, würde ich die Mails in einen dafür geschaffenen Ordner ablegen (kann man mit einer Regel automatisieren).

Aber ja, der Initialaufwand ist beträchtlich :), 200 Mails, wenn du immer 5 PDFs anhängst
 
zazie schrieb:
Aber ja, der Initialaufwand ist beträchtlich :), 200 Mails, wenn du immer 5 PDFs anhängst
Und vor allem nicht notwendig, da Windows ja auch selbst pdfs indizieren kann.
 
  • Gefällt mir
Reaktionen: KitKat::new()
thealex schrieb:
Dazu müsste Windows den Inhalt der PDF-Dateien per OCR auslesen und indizieren. Meines Wissens nach wird das mit Bordmitteln nichts. Du könntest dafür Software verwenden, die genau dies tut und die Dokumente innerhalb der Software suchen (Evernote z.B., gibt es mit kostenlosem Plan, wenn auch mit Einschränkungen)

Vielen Dank für die Nachricht.

Werde ich mir anschauen.

Kryss schrieb:
https://www.online-tech-tips.com/co...h-for-text-inside-multiple-pdf-files-at-once/

..."If you have a lot of PDF files lying around and you’re looking for something specific in them, your best option is to use the advanced search feature of Acrobat Reader. It lets you look for your specific search terms in all the PDF files available in a single location on your computer.
..."

vg Chris

perfect, thanks for u reply i will take a look and do the steps.
halwe schrieb:
Da die Dokumente ja schon Text enthalten (also OCR angewendet wurde) ist tatsächlich die erweiterte Suche des Adobe Readers eine Option. Alternativ klann man aber auch Windows beibringen, die pdf-Dokumente bzw. ihre Texte in den eigenen Suchindex einzutragen.
Vielen Dank für die Nachricht.
Also bei allen wurde der OCR nicht angewendet ich müsste alle PDFs durchgehen.
Erst dann würde auch die Suchindex funktionieren.

zazie schrieb:
Ist zwar nur ein Workaround, aber könnte dir auch helfen:
Die Suche in Outlook (ich hatte hier bis vor kurzem 2016, jetzt Office LTSC Professional plus 2021) findet Stichworte in PDFs, die als Attachment versandt wurden (vorausgesetzt, man hat die Indizierungsoptionen aktiviert).
Das erfolgt sehr zuverlässig und blitzschnell (ich habe eben zum Ausprobieren 23'000 Dokumente durchsucht).
Möchte ich die Funktion für eigen erstellte PDFs nutzen, würde ich die Mails in einen dafür geschaffenen Ordner ablegen (kann man mit einer Regel automatisieren).

Aber ja, der Initialaufwand ist beträchtlich :), 200 Mails, wenn du immer 5 PDFs anhängst
Vielen Dank für die Nachricht
Das hatt mich auch gewundert wo ich im Outlook gesucht habe, funktionierte es einwandfrei.
Ja, der Workaround wäre leider mit viel Zeit und Aufwand verbunden.
 
halwe schrieb:
Alternativ klann man aber auch Windows beibringen, die pdf-Dokumente bzw. ihre Texte in den eigenen Suchindex einzutragen.
Dynasty schrieb:
Wie aber kann ich beim Ordner schon nach bestimmten Nummer oder Wörter suchen die in den PDF Dokumenten enthalten sind.
Und genau das ist der Weg.

https://www.windowspro.de/wolfgang-sommergut/pdf-dokumente-windows-desktop-search-durchsuchen

Man muss "einfach" die PDF in den Indexdienst mit aufnehmen, dann am besten einmal ne Nacht lang den Rechner anlassen damit er die Dokumente indexieren kann und das wars schon. der Acrobat wird dafür nicht gebraucht.

Das klappt aber nur wenn Text im PDF hinterlegt ist, gibts keinen Textlayer wird die Suche auch nix finden.
 
sikarr schrieb:
Und genau das ist der Weg.

Man muss "einfach" die PDF in den Indexdienst mit aufnehmen, dann am besten einmal ne Nacht lang den Rechner anlassen damit er die Dokumente indexieren kann und das wars schon. der Acrobat wird dafür nicht gebraucht.

Das klappt aber nur wenn Text im PDF hinterlegt ist, gibts keinen Textlayer wird die Suche auch nix finden.

Vielen Dank für die Nachricht

Die PDFs sind meistens Rechnungen die als "Bild" gescannt worden sind und als PDF abgelegt sind.
Die Indexierung habe ich gemacht bei Windows, doch leider findet er die nicht.
 
Dynasty schrieb:
Die PDFs sind meistens Rechnungen die als "Bild" gescannt worden sind und als PDF abgelegt sind.
Dann musst du eine OCR machen damit der Text gefunden werden kann. Je nach dem mit was du scannst kann das die Scananwendung, Alternativ gibts dann Schwergewichte wie Abbyy Finereader oder Nuance Omnipage oder das freie Tesseract wo man sich aber einarbeiten sollte.
 
Tenferenzu schrieb:
OCRmyPDF funktioniert ganz gut um einen Textlayer drüber zu legen. Das Programm verwendet dann das freie Tesseract das @sikarr bereits erwähnt hat.
sikarr schrieb:
Dann musst du eine OCR machen damit der Text gefunden werden kann. Je nach dem mit was du scannst kann das die Scananwendung, Alternativ gibts dann Schwergewichte wie Abbyy Finereader oder Nuance Omnipage oder das freie Tesseract wo man sich aber einarbeiten sollte.


Tenferenzu schrieb:
OCRmyPDF funktioniert ganz gut um einen Textlayer drüber zu legen. Das Programm verwendet dann das freie Tesseract das @sikarr bereits erwähnt hat.

Super herzlichen Dank.

Versuche gerade auf Windows das zu installieren ist ein wenig umständlich habe ich gerade bemerkt.
Werde es weiter versuchen und ein Feedback hinterlassen.

Vielen Dank

Gruss
 
Zurück
Oben