Mr. Brooks
Lt. Commander
- Registriert
- Aug. 2011
- Beiträge
- 1.441
Hallo,
ich habe hier mehrere Bücher zu bearbeiten, bei denen jede Seite als einzelnes Bild vorliegt. Es handelt sich ausschließlich um Screenshots, die Texterkennung liegt ein paar Texts zufolge bei fast 100% Genauigkeit. Problem sind die Absätze. Ich verwende unter Ubuntu für die Texterkennung terreract-ocr in der Kommandozeile. Das Program gibt mir eine nette Textdatei aus, die Absätze werden richtig erkennt und durch eine Leerzeile voneinander getrennt. Das OCR-Programm speichert aber die Absätze nicht als einzelne Zeile ab, sondern hat da einen Zeilenumbruch eingefügt wo der Screenshot einen hatte. Für ein eBook im epub-Format ist es natürlich besser wenn es keine Zeilenumbrüche im Absatz gibt, damit die Zeilen im Reader richtig dargestellt werden.
Im Editor Kate kann ich einfach mit Suchen und Ersetzen nach
und durch "nichts" ersetzen lassen - mit regulärem Ausdruck eingeschaltet.
Problem: Er erkennt auch die Leerzeile als solchen Zeilenumbruch. Diese soll ja aber gerade als Trennung zwischen den Absätzen erhalten bleiben.
Wie könnte man das lösen?
Mr. Brooks
ich habe hier mehrere Bücher zu bearbeiten, bei denen jede Seite als einzelnes Bild vorliegt. Es handelt sich ausschließlich um Screenshots, die Texterkennung liegt ein paar Texts zufolge bei fast 100% Genauigkeit. Problem sind die Absätze. Ich verwende unter Ubuntu für die Texterkennung terreract-ocr in der Kommandozeile. Das Program gibt mir eine nette Textdatei aus, die Absätze werden richtig erkennt und durch eine Leerzeile voneinander getrennt. Das OCR-Programm speichert aber die Absätze nicht als einzelne Zeile ab, sondern hat da einen Zeilenumbruch eingefügt wo der Screenshot einen hatte. Für ein eBook im epub-Format ist es natürlich besser wenn es keine Zeilenumbrüche im Absatz gibt, damit die Zeilen im Reader richtig dargestellt werden.
Im Editor Kate kann ich einfach mit Suchen und Ersetzen nach
Code:
/n
und durch "nichts" ersetzen lassen - mit regulärem Ausdruck eingeschaltet.
Problem: Er erkennt auch die Leerzeile als solchen Zeilenumbruch. Diese soll ja aber gerade als Trennung zwischen den Absätzen erhalten bleiben.
Wie könnte man das lösen?
Mr. Brooks