PDF-Datei: Text als Bild anstatt Text

retho

Lt. Junior Grade
Registriert
Mai 2010
Beiträge
463
Hallo CBler

Es gibt doch immer wieder Deppen, welche Text als Bild (Grafik) in eine PDF-Datei packen und das nervt mich extrem. Erstens werden die PDF-Dateien dadurch sehr gross (im Verhältnis) zu Text. Zudem kann man Text nicht markieren (Tool Leuchtstift) oder entnehmen. Was ich aber als grössten Nachteil empfinde ist, dass bei einer Suche nichts vom (Text-)Inhalt gefunden wird.

Nun zu meinen Fragen:
  1. Gibt es eine Möglichkeit solche Dokumente zu erkennen?
  2. Gibt es eine (einfache) Möglichkeit trotzdem an den Text heranzukommen?
  3. Gibt es eine (einfache) Möglichkeit zur Verschlagwortung? Damit bei einer Suche das Dokument gefunden wird.

Bin für jeden brauchbaren Tipp dankbar.
 
PDF-Dokumente enthalten oft nur Grafik statt Text, wenn es sich um Scans handelt, die zunächst eben als Grafik gespeichert werden. Hochwertige Scanner verfügen häufig über die Funktion gescannte Dokumente "durchsuchbar" zu machen.

Das Schlagwort lautet OCR. Ich hatte hier mal einen Beitrag auf Cashy's Blog gefunden.
 
ryan_blackdrago schrieb:
andere als Deppen zu beschimpfen ist schon echt mies. Vielleicht mag derjenige nicht, daß sein PDF per copy&paste weiterverarbeitet wird?

Und wozu gibt es wohl bei der PDF-Erzeugung "Dokumentensicherheit und Einschränkungen"?

Ich beziehe mich hier auf Dokumente, welche ganz bestimmt in digitaler Form erzeugt wurden.
Dann wohl auf Papier ausgedruckt und wieder eingescannt :freak:

Aber Danke an inciter und JeverPils für die Lösungsvorschläge!
 
Zuletzt bearbeitet:
1.Die von dir genannten "Deppen" sind das vermutlich wirklich und speichern ein .doc nicht als .pdf, sondern drucken es mit einem PDF-Drucker.
2.Wurde schon genannt, sowas kann durchaus Absicht.
Beruflich erstellen wir viele Manuals, da ist außer dem Inhaltsverzeichnis (Damit weiterhin anklickbar) alles nur "Bild", damit es eben nicht direkt kopierbar ist, bzw. nur als Screenshot, mit dem aber halbwegs beweisen kann, dass es von uns ist.

Lösungen wurden ja auch schon genannt.
 
retho schrieb:
Es gibt doch immer wieder Deppen, welche Text als Bild (Grafik) in eine PDF-Datei packen und das nervt mich extrem.
Das hat, wie andere hier sagen, nichts damit zu tun, daß es Deppen seien. Beispielsweise haben einige Kunden bei Remotezugriffen aus Sicherheitsgründen cut&paste deaktiviert, da hilft nur Screenshot über sein eignes System, um überhaupt irgend etwas zu dokumentieren.
 
Es erstaunt mich doch sehr, dass anstatt die Fragen zu beantworten, Kommentare kommen, um zu rechtfertigen, wieso das gemacht wird. Aber das war und ist nicht meine Frage!
Und interessiert mich überhaupt nicht. ;)
 
  • Gefällt mir
Reaktionen: SpAWin
retho schrieb:
Es erstaunt mich doch sehr, dass anstatt die Fragen zu beantworten, Kommentare kommen, um zu rechtfertigen, wieso das gemacht wird. Aber das war und ist nicht meine Frage!
Und interessiert mich überhaupt nicht. ;)

Wenn Du andere als "Deppen" bezeichnest, dann sollte Dir das klar sein, dass sich eben viele solcher "Deppen" auch rechtfertigen werden. Wenn Dir das nicht passt, einfach keinen beleidigen, nicht glauben, dass Du alles richtig machst, sondern einfach NUR die Frage stellen.

Denn so gibt es eben "Trottel", die einiges nicht verstehen, warum etwas zu seinem vermeidlichem Nachteil gemacht wird. Die klärt man aber gerne auf, auch wenn es Sie nicht interessiert, weil Sie in Ihrer kleinen Welt leben, nicht über den Tellerrand schauen, und so einfach mal andere teils grundlos als Deppen bezeichnen.
 
Zuletzt bearbeitet:
Sgt.Seg schrieb:
1.Die von dir genannten "Deppen" sind das vermutlich wirklich und speichern ein .doc nicht als .pdf, sondern drucken es mit einem PDF-Drucker.
Nur, dass ein so erstelltes PDF, das direkt aus dem Erzeugerprogramm "gedruckt" wird, trotzdem durchsuchbar ist. Es gibt die unterschiedlichsten Gründe, weshalb Leute auf PDF-Drucker zurückgreifen, obwohl das Erzeugerprogramm in der Lage ist das Dokument direkt als PDF zu speichern bzw. es als solches zu exportieren. Sicherlich ist es nicht selten einfach Unwissenheit. Es kann aber auch sein, dass das Ursprungsprogramm bestimmte Standards nicht unterstützt oder beim Erstellen des PDFs Mist baut. Auch die Größe der PDF kann ein Grund sein.

retho schrieb:
Es erstaunt mich doch sehr, dass anstatt die Fragen zu beantworten, Kommentare kommen, um zu rechtfertigen, wieso das gemacht wird. Aber das war und ist nicht meine Frage!
Und interessiert mich überhaupt nicht. ;)
Zumindest deine Frage 2 wurde doch beantwortet. Die Lösung ist eine OCR-Software zu nutzen.

Zur Frage 1: Du meinst also von "außen", ohne die Datei zu öffnen oder auf irgendeiner Weise zu untersuchen? Nein, denke ich nicht. Auch die Dateigröße ist kein sicherer Anhaltspunkt. Auch "Bild"-PDFs können sehr klein sein. je nach Art und Stärke der Kompression und Anzahl der Farben (Bit-Tiefe).

Zur Frage 3: Auch hier lautet die Lösung einfach eine OCR-Software drüberjagen lassen, die den Text einbetten kann, und dies abspeichern. Der PDF-XChange Editor kann das beispielsweise (auch in der Freeware Version).

/Edit
Eine andere Möglichkeit wäre von diesen PDFs eine Kopie als TIFF-Datei zu erstellen (z.B. durch IrfanView; könnte man per Batch Skript automatisieren) und den TIFF-IFilter von Windows zu aktivieren. Dadurch wird auch der Inhalt von TIFF-Dateien indiziert (sofern du den Indizierungsdienst nicht deaktiviert hast) und kann über die Windows-Suche gefunden werden. Die Texterkennung hierbei ist erstaunlich gut.
 
Zuletzt bearbeitet:
Zurück
Oben