FatManStanding
Lieutenant
- Registriert
- Aug. 2021
- Beiträge
- 518
tach,
ich habe hier aus einer PDF per OCR ein richtiges eBooks (*.epub) erstellt. die ocr-software hatte probleme bei der erkennung einfacher anführungszeichen (also ' statt ") und ich hab das danach durch search&replace weiter verschlimmert: jetzt sind alle kommas einfache anführungszeichen. ich kann aber nicht einfach alle ' durch , ersetzen, weil hier tatsächlich oft einfache anführungszeichen verwendet werden, d.h. an vielen stellen sind die korrekt.
ich versuche nun so viele kommas wie möglich wiederhzustellen. ich kann damit
jedes einfache anführungszeichen das nach einem kleinbuchstaben kommt anzeigen lassen. <p> ist dabei einfach der beginn des absatzes und
der faule ausdruck für "alles". ohne das ? würde er immer das letzte anführungszeichen des absatzes findet statt des ersten. probolem: zu "allem" gehört auch der ausdruck
also anführungszeichen vor einem wort und demnach die "richtigen" anführungszeichen die bleiben sollen. ich müsste also den ausdruck oben abändern, dass er jedes zeichen zwischen <p> und [a-z]' findet außer '[A-Za-z].
ich habe hier aus einer PDF per OCR ein richtiges eBooks (*.epub) erstellt. die ocr-software hatte probleme bei der erkennung einfacher anführungszeichen (also ' statt ") und ich hab das danach durch search&replace weiter verschlimmert: jetzt sind alle kommas einfache anführungszeichen. ich kann aber nicht einfach alle ' durch , ersetzen, weil hier tatsächlich oft einfache anführungszeichen verwendet werden, d.h. an vielen stellen sind die korrekt.
ich versuche nun so viele kommas wie möglich wiederhzustellen. ich kann damit
Code:
(<p>.*?[a-z^'])'
jedes einfache anführungszeichen das nach einem kleinbuchstaben kommt anzeigen lassen. <p> ist dabei einfach der beginn des absatzes und
Code:
.*?
der faule ausdruck für "alles". ohne das ? würde er immer das letzte anführungszeichen des absatzes findet statt des ersten. probolem: zu "allem" gehört auch der ausdruck
Code:
'[A-Za-z]
also anführungszeichen vor einem wort und demnach die "richtigen" anführungszeichen die bleiben sollen. ich müsste also den ausdruck oben abändern, dass er jedes zeichen zwischen <p> und [a-z]' findet außer '[A-Za-z].