Mr. Brooks
Lt. Commander
- Registriert
- Aug. 2011
- Beiträge
- 1.441
Hallo,
ich habe mir zuletzt ein paar Möglichkeiten gesucht um aus gescannten Büchern ePub-Formate zu erstellen. Das geht bei reinem Text mit tesseract-ocr und anschließender Bearbeitung in einem Editor mit Regex sehr gut, bei Büchern mit Bildern oder regelmäßig wechselnden Absatzformatierungen (zuletzt z. B. ein Sachbuch in den Zitate anders formatiert wurden) eignet sich Omnipage besser. Das läuft bei mir derzeit als Testversion in einer virtuellen Maschine. Bei reinem Text bevorzuge ich dennoch tesseract.
Leider erzeugt Omnipage für fast jeden Absatz und für fast jede Überschrift eigene CSS-Klassen, die sich aber kaum unterscheiden. Meist liegen die Unterschiede im Abstand nach oben und/oder unten. Der eigentliche Text liegt in einer Datei "content0.xhtml", die CSS-Formatierungen in einer separaten Datei "stylesheet.css". Hier mal zwei kurze Bsp.
Ich bin grds. in der Lage mich in einfachem HTML oder CSS zurecht zu finden, Experte bin ich aber nicht. Es genügt um ePubs anzupassen. Ich passe die Klassen im ePub-Editor von Calibre an mittels Suche/Ersetzen und Regex. Ich benenne zunächst die Klassen für die Überschriften um, z. B. von "pc1" in "pc99". Das verhindert, dass hinterher bei der Bearbeitung des Textes Überschriften geändert werden.
Problem: Das manuelle Umbenennen der Klassen echt echt mühselig, v.a. wenn man in Sachbüchern dennoch einiges an unterschiedlichen Klassen braucht. Ich suche eine Möglichkeit das im gesamten Dokument auf einmal umzubenennen. Sagen wir überall in der content0.xhtml und der stylesheet.css soll aus der Klasse pc1 die Klasse pc99 werden.
Geht das automatisch zu machen oder muss ich da wie bisher manuell herumfummeln?
Mr. Brooks
ich habe mir zuletzt ein paar Möglichkeiten gesucht um aus gescannten Büchern ePub-Formate zu erstellen. Das geht bei reinem Text mit tesseract-ocr und anschließender Bearbeitung in einem Editor mit Regex sehr gut, bei Büchern mit Bildern oder regelmäßig wechselnden Absatzformatierungen (zuletzt z. B. ein Sachbuch in den Zitate anders formatiert wurden) eignet sich Omnipage besser. Das läuft bei mir derzeit als Testversion in einer virtuellen Maschine. Bei reinem Text bevorzuge ich dennoch tesseract.
Leider erzeugt Omnipage für fast jeden Absatz und für fast jede Überschrift eigene CSS-Klassen, die sich aber kaum unterscheiden. Meist liegen die Unterschiede im Abstand nach oben und/oder unten. Der eigentliche Text liegt in einer Datei "content0.xhtml", die CSS-Formatierungen in einer separaten Datei "stylesheet.css". Hier mal zwei kurze Bsp.
HTML:
<p class="pc1"><span class="sc1"><b>Überschrift</b></span></p>
HTML:
p.pc1 {
text-align: left;
text-indent: 0%;
margin-left: 0%;
margin-top: 0;
margin-bottom: 0;
}
span.sc1 {
font-size: 133%;
font-family: "Arial", sans-serif;
}
Ich bin grds. in der Lage mich in einfachem HTML oder CSS zurecht zu finden, Experte bin ich aber nicht. Es genügt um ePubs anzupassen. Ich passe die Klassen im ePub-Editor von Calibre an mittels Suche/Ersetzen und Regex. Ich benenne zunächst die Klassen für die Überschriften um, z. B. von "pc1" in "pc99". Das verhindert, dass hinterher bei der Bearbeitung des Textes Überschriften geändert werden.
Problem: Das manuelle Umbenennen der Klassen echt echt mühselig, v.a. wenn man in Sachbüchern dennoch einiges an unterschiedlichen Klassen braucht. Ich suche eine Möglichkeit das im gesamten Dokument auf einmal umzubenennen. Sagen wir überall in der content0.xhtml und der stylesheet.css soll aus der Klasse pc1 die Klasse pc99 werden.
Geht das automatisch zu machen oder muss ich da wie bisher manuell herumfummeln?
Mr. Brooks