PDF Text im durchsuchbaren Bild editieren

sexyCora · 21. Januar 2010

Hallo,

auf meiner Suche im Internet habe ich bisher keine passende Antwort oder das geeignete Tool gefunden.

Jeder kennt ja eingescannte Seiten welche als Bild vorliegen und dann in Acrobat per OCR zu einem durchsuchbaren Text werden. D.h. hinter dem Bild liegt unsichtbar (vermutlich auf einer anderen Ebene) ein Text um die Datei für die Volltextsuche nutzbar zu machen.

Ich suche nun die Möglichkeit eben diese Ebene zu editieren oder besser gesagt, z.b. eben solche eine Ebene bzw. unsichtbare Schrift selbstständig einzufügen um diese auch für die Volltextsuche verwenden zu können.

Ich habe z.b. handschriftliche Zettel. Diese habe ich eingescannt und bereits als PDF vor mir liegen. Jetzt möchte ich sie aber auch noch durchsuchbar machen. OCR versagt natürlich völlig, daher will ich ganz einfach nochmal pro Seite eintippen was handschriftlich geschrieben steht. Aber eben so, dass es unsichtbar in dem PDF hinterlegt ist.

Ich hoffe ich habe damit jegliches Missverständnis ausgeräumt und verdeutlicht was ich machen möchte und suche.
#
Danke

Christine A. · 21. Januar 2010

wenn Du Grafik-Text mit einem OCR -Programm in ASCII-Code wandelst und daraus eine PDF generierst, dann gibt es nur den Text und eventuell Grafiken, Linien, Formen, ... mit denen das OCR-Programm nichts anfangen kann.

Eine zweite Ebene, oder was Du auch immer vermuten magst, gibt es nicht. Mit einem Texteditor/Viewer, kannst Du die PDF* auch ansehen. Wenn Du dann Formatierungsbereiche außen vor lässt, kannst Du den Text auch als solchen erkennen.

Wenn Du PDFs editieren möchtest, kannst Du dies mit aktuellen Programmen von Corel wie Draw in den Versionen 11, 12, 13, 14, Textverarbeitungsprogramme wie WordPerfect, OpenOffice Writer oder den entsprechenden Adobe Programmen wie dem Acrobat.

Wenn es darum geht die handschriftlichen Belege und Dokumente zu digitalisieren, dann musst Du dem OCR-Programm die Handschrift beibringen. Ich hab das mal mit der 8er Version des Abbyy FineReader gemacht. Wenn die Handschrift gut, also schön gleichmäßig ist, dann klappt auch die Digitalisierung ganz gut.

Oder, Du erfasst zu dem Grafik-PDF den Text mit einem der v.g. Programme hinzu. Dann kannst Du aber die handschriftlichen Belege, auch gleich in eine Textprogramm eingeben.

Christine A.

* PostScript als Seitenbeschreibungssprache

sexyCora · 21. Januar 2010

wenn Du Grafik-Text mit einem OCR -Programm in ASCII-Code wandelst und daraus eine PDF generierst, dann gibt es nur den Text und eventuell Grafiken, Linien, Formen, ... mit denen das OCR-Programm nichts anfangen kann.

Eine zweite Ebene, oder was Du auch immer vermuten magst, gibt es nicht.

Soetwas nennt sich "durchsuchbares Bild". Es wird hinter das Bild nochmal der Text gelegt. Für mich sieht das wie eine 2. Ebene aus. Ich kenne allerdings nicht den Fachbegriff dafür, vielleicht nennt man es auch Layer?

Möglicherweise sollte ich es auch nicht zu kompliziert ausdrücken, auch wenn ich gehofft habe, dass ich damit verständlich mache wo ich ansetzen will.

Ich möchte einen unsichtbaren Text in ein bereits existierendes PDF einfügen um es damit durchsuchbar zu gestalten, will aber die Bildinformation nicht verlieren.

Es ist mir naheliegend erschienen zu versuchen irgendwie diese Ebene anzuprechen in der Acrobat den Text für ein durchsuchbares Bild einschiebt bzw. manuell anzulegen und dann zu editieren bzw. den Text einzutippen.

Christine A. · 22. Januar 2010

Schau doch mal nach, welche Version des Acrobat diese Leistungsmerkmal beinhaltet und darüber hinaus über ein OCR-Modul verfügt, bei dem man die Zeichensätze selbst definieren kann.

Christine A.

PS: ich hatte die Problematik mit der Erfassung der Handschrift in den Vordergrund gestellt und bewertete die zusätzliche Textinformation als nachrangig. Mein Fehler.

sexyCora · 22. Januar 2010

Hallo,

sollte es soeine Acrobatversion geben, habe ich gehofft es hier zu erfahren. Acrobat 9.0 verfügt nicht über ein solches Modul und Leistungsmerkmal. Zumindest ist es mir noch nicht aufgefallen.

Vielen Dank für deine Ideen.

Ergänzung (22. Januar 2010)

OCR Engine mit PDF Export
Die OCR Option ermöglicht es mit Hilfe der Abbyy FineReader OCR
Engine die von der Version 8.0 unterstützten Image Formate - TIFF, BMP,
PCX, DCX, JPEG, JPEG2000 und PNG - in durchsuch- und per Volltext
indexierbare PDF Dokumente zu konvertieren. Die Software unterstützt
für maschinell erstellte Dokumente 186 verschiedene Sprachen. Dabei
bleibt das Original Layout und Aussehen der Imagedokumente erhalten
wobei die OCR-Text Information als eigene Ebene im PDF Dokument
hinterlegt wird.

Hier nochnmal als Information bzgl. der 2 Ebenen.

Und ich möchte manuell eine 2 Ebene erstellen und somit unsichtbaren Text eintippen. Hat jemand eine Idee? Danke.

Christine A. · 22. Januar 2010

http://help.adobe.com/de_DE/Acrobat/9.0/Standard/WS2A3DD1FA-CFA5-4cf6-B993-159299574AB8.w.html

Textauszug aus dem Bereich: Acrobat 9 Standard verwenden

Sie können Acrobat verwenden, um Text in gescannten Dokumenten, die bereits in PDF umgewandelt wurden, zu erkennen. Mit Hilfe von OCR (Optical Character Recognition, optische Zeichenerkennung) können Sie den Text in einer gescannten PDF-Datei durchsuchen, bearbeiten und kopieren. Um OCR auf ein PDF-Dokument anwenden zu können, muss die ursprüngliche Scannerauflösung mindestens 72 dpi betragen haben.

Christine A.

sexyCora · 22. Januar 2010

Wie bereits gesagt ist das nicht möglich.

Daher möchte ich diese Ebene manuell anlegen.

Suche

PDF Text im durchsuchbaren Bild editieren

sexyCora

Cadet 1st Year

Christine A.

Commander

sexyCora

Cadet 1st Year

Christine A.

Commander

sexyCora

Cadet 1st Year

Christine A.

Commander

sexyCora

Cadet 1st Year