Allgemeine Frage zur Suchfunktion innerhalb eines PDF-Dokuments

ed.rigg

Newbie
Registriert
Nov. 2015
Beiträge
2
Moin Moin. Ich habe eine Frage zu einem etwas eigentümlichen Verhalten eines PDS-Dokuments und hoffe sehr, dass mir vielleicht hier jemand weiter helfen kann.

Es geht um ein PDF-Dokument, bei dem eine Akte eingescannt und im PDF-Format gespeichert wurde. Dabei handelt es sich um Seiten mit einer Tabelle, in deren ganz linker Spalte immer ein SO und dann ein "." gefolgt von der entsprechenden Reihennummer

Beispiel: SO.1(Reihe 1), SO.2(Reihe 2), SO.3(Reihe 3)

Jetzt kann ich ja mit der Suchfunktion dieses PDF-Dokument durchsuchen und habe dabei festgestellt, dass man in manchen Reihen nur ein Suchergebnis erhält, wenn man nicht nach SO sucht, sondern S0(also NULL).

Beispiel: Ich will mit der Suchfunktion zu "SO.113" springen, bekomme aber kein Ergebnnis. Ich bekomme aber ein Ergebnis, wenn ich nach "S0.113" suche.

Dabei ist es aber so, dass sich dieses SO.x in keiner Reihe (optisch) von den anderen SO.x unterscheidet - aus meiner Sicht gibt es also keinen Grund dafür, dass manchmal ein SO als S0 erkannt wird.

Ist es vielleicht ein bekanntes Problem bzw. ist es plausibel, dass sowas geschieht?
Ist hier vielleicht jemand anwesend, der mir etwas dazu sagen kann, ob dieses "Verhalten" des PDF-Dokuments normal ist?

Ich würde mich sehr über ein Feedback freuen. Mfg, Ed Rigg
 
Wenn du etwas scannst hast du ja erstmal ein Bild, das man so nicht durchsuchen kann. Es gibt nun PDF Reader oder Scan-Programme, die automatisch eine optische Zeichenerkennung durchführen (OCR). Damit wird über verschiedene Algorithmen versucht innerhalb des Bildes Zeichen zu erkennen, die Buchstaben sein könnten. Da nun eine Null dem O ziemlich ähnlich sieht, kann das durchaus falsch erkannt werden.

Abhilfe könnte z.B. Abby Finereader bringen. Damit kannst du manuell fehlerhafte Treffer ausbessern und das PDF neu speichern.
 
Kann man so nicht sagen !
 
Vielen Dank für die Antworten!

Also es geht mir nicht um einen Fehler, den ich korrigieren möchte oder so. Ich versuche etwas über dieses Dokument herauszufinden. Hört sich jetzt etwas Balla Balla an, aber die Datensätze, die mit S0 beginnen haben statistisch erhöht in den dazugehörigen Texten (inhaltliche) Gemeinsamkeiten. Es wäre im Grunde nicht auszuschliessen, dass diese Datensätze quasi versteckt markiert wurden.

Denn was ich nicht verstehe: dass in dem selben Dokument ca. 300 x die Jahreszahl 2007 steht- in gleicher Schriftgröße das besagte S0 bzw. SO. Und bei 2007 wurde kein einziges mal aus der 0 ein O.

Oder ist hier die Fehlerquote vielleicht geringer, weil das OCR das Datumsformat erkennt und dann von Nullen ausgeht?
Das kann ich mir irgendwie nicht vorstellen, denn dann wird es doch auch bei anderen Kombinationen, also in meinem Fall Buchstaben gefolgt auf 0 oder O sowas wie eine Regel geben, damit das Programm nicht hier mal eine 0 und da mal ein O erkennt. Oder mache ich einen Denkfehler?
 
naja das kann schon sein. OCR ist manchmal ein Glücksspiel. Vor allem kommt es natürlich auch aufs Dokument an, welches du einscannst (Qualität, Auflösung usw.)

Um das herauszufinden was du willst, müsstest du eben - wie bereits jemand sagte - nochmal mit einer anderen Software eine Erkennung drüber laufen lassen. Vllt. wird dann das O als O erkannt und nicht als 0. Ansonsten wünsch ich dir viel Spaß beim manuellen suchen ;)

Mit welcher Software lässt du denn OCR laufen?
 
Dass die Software die NULLEN in 2007 immer richtig erkennt ist logisch; das Programm gleicht sicherlich die gefundenen Zeichen mit der Umgebung ab, wenn das Erkannte nicht eindeutig zuzuordnen ist; wenn dann die NULLEN unmittelbar zwischen zwei SIEBENERN stehen, entscheidet es sich für Ziffern; steht die NULL aber unmittelbar neben einem Buchstaben, entscheidet es wohl eher auf Buchstabe O !
 
Zurück
Oben