Mr. Brooks
Lt. Commander
- Registriert
- Aug. 2011
- Beiträge
- 1.441
Hallo,
ich erstelle gerade aus einigen Büchern, die ich als Screenshot (einen Screenshot pro Seite) erstellt habe, epub per Texterkennung. Im nicht jede Seite einzeln durch die Texterkennung zu jagen beschneide ich die ganzen Bildern erstmal mit XnViewMP auf den reinen Text. Ich schneide erstmal den Titel oben und die Seitenzahl unten weg und lasse das per Autp-Crop alles wegschneiden was "nicht Text" ist. Danach füge ich die so geschnittenen Bilder zu einem großen Bild zusammen. Die Einzelbilder liegen dann übereinander. Das jage ich durch die OCR-Software. Ich brauche nur einen Durchlauf und es werden auch Absätze zusammengefasst die eigentlich über 2 Bilddateien gehen.
Bisher waren es nur recht kurze Bücher, aber schon 17 Seiten erzeugen eine Hlhe von über 24000px. Wo liegt da die Grenze? Bisher hab ich nur mit JPG experimentiert. Die Datei aus 17 Seiten war 7MB groß.
Mr. Brooks
ich erstelle gerade aus einigen Büchern, die ich als Screenshot (einen Screenshot pro Seite) erstellt habe, epub per Texterkennung. Im nicht jede Seite einzeln durch die Texterkennung zu jagen beschneide ich die ganzen Bildern erstmal mit XnViewMP auf den reinen Text. Ich schneide erstmal den Titel oben und die Seitenzahl unten weg und lasse das per Autp-Crop alles wegschneiden was "nicht Text" ist. Danach füge ich die so geschnittenen Bilder zu einem großen Bild zusammen. Die Einzelbilder liegen dann übereinander. Das jage ich durch die OCR-Software. Ich brauche nur einen Durchlauf und es werden auch Absätze zusammengefasst die eigentlich über 2 Bilddateien gehen.
Bisher waren es nur recht kurze Bücher, aber schon 17 Seiten erzeugen eine Hlhe von über 24000px. Wo liegt da die Grenze? Bisher hab ich nur mit JPG experimentiert. Die Datei aus 17 Seiten war 7MB groß.
Mr. Brooks