FatManStanding
Lt. Junior Grade
- Registriert
- Aug. 2021
- Beiträge
- 491
tach,
ich habe hier ein buch, dass durch eine ocr-software geschickt wurde zur texterkennung. die erkennung der anführungszeichen (hier ‹ und « statt ' und ") ist nicht immer zuverlässig. ich will versuchen die meisten fehler zu finden und wollte mit einer regex-suche nach einfachen anführungszeichen suchen lassen die aber durch doppelte "beendet" werden (und umgedreht). im bsp.
sollte er die zeichenfolge
finden. wenn das einfache ausführungszeichen aber korrekt gesetzt wurde, soll er nichts finden
das geht grundsätzlich mit
er findet da aber auch das einfache beendende anführungszeichen selbst. im dritten korrekten bsp. oben würde er alles finden bis irgendwann ein doppeltes ausführungszeichen kommt. das soll so nicht sein. sowas geht nicht.
ich habe hier ein buch, dass durch eine ocr-software geschickt wurde zur texterkennung. die erkennung der anführungszeichen (hier ‹ und « statt ' und ") ist nicht immer zuverlässig. ich will versuchen die meisten fehler zu finden und wollte mit einer regex-suche nach einfachen anführungszeichen suchen lassen die aber durch doppelte "beendet" werden (und umgedreht). im bsp.
bla bla ‹laber laber sülz» bla bla bla
sollte er die zeichenfolge
‹laber laber sülz»
finden. wenn das einfache ausführungszeichen aber korrekt gesetzt wurde, soll er nichts finden
bla bla ‹laber laber sülz› bla bla bla
das geht grundsätzlich mit
Code:
‹.*»
er findet da aber auch das einfache beendende anführungszeichen selbst. im dritten korrekten bsp. oben würde er alles finden bis irgendwann ein doppeltes ausführungszeichen kommt. das soll so nicht sein. sowas geht nicht.
Code:
‹.*[^›]»