schwarzen Scankanten und -schatten aus PDF-Dokumenten wieder los werden

tarifa · 5. November 2021

Hallo u. guten Abend,

Bei gescannten Dokumenten - (einem gescannten Buch) habe ich Schatten am Rand.
Gibt es ein Programm das hier abhilft, das die (se) Schatten an den Rändern - entlang der Kanten vermeiden oder entfernen.

Es ist so: Ich habe ein Dokument mit vielen Schatten und Markierungen in gescannten PDF-Dokumenten.

Wie kann ich die schwarzen Scankanten und -schatten aus PDF-Dokumenten wieder los werden?
Anm;: es ist ein relativ grosses Dokument von mehreren hundert Seiten.

Was würdet ihr hier tun?

Freue mich auf einen Tipp

VG

Demon_666 · 5. November 2021

Ohne ein Beispiel schwierig. Zudem ist PDF ja eher ein "Endcontent-Format". Wenn die Schatten nur an den Rändern auftauchen, würde ich versuchen, eine "weiße Umrandung" via Wasserzeichen, "Schwärzung" oder ähnlichem auf die Seiten zu legen.
Oder Du wandelst es in Text um und machst daraus ein neues PDF. Aber die OCR wird dir garantiert Fehler einbauen.

Scientist · 5. November 2021

Wenn moeglich, koennte man natuerlich einfach den Teil einfach abschneiden.
Dafuer wuerde ich alle das ganze in Bilder umwandeln, eine stapelverarbeitung machen und wieder zurueck konvertieren.
Das konvertieren ist kein muss, ist aber denke ich einfacher.

Man koennte auch Kontrast und Helligkeit ueber die Stapelverarbeitung veraendern.
Je nachdem, wie hart das ganze ist.

Aber am sinnvollsten koennte evtl. durchaus OCR sein, koennte aber der groeßte Aufwand sein, wenn die Erkennung sehr fehlerbehaftet ist.

PHuV · 5. November 2021

Je nach Wichtigkeit des Dokumentes lohnt sich aber OCR gewaltig. Man kann dann per Copy&Paste daraus zitieren, suchen, indexieren, neu reformatieren...

Die Größe wird ebenso in einem Ebook oder Textdatei dramatisch reduziert.

Hier würde ich auf alle Fälle mit gescheiten OCR Programmen von Abby oder Adobe beileibe rücken, die liefern auch gescheite Ergebnisse.

Demon_666 · 6. November 2021

Ich habe mal 'ne zeitlang mit ocr diverser pdf-tools rumgespielt. Die mit Abstand besten plain-Text-Ergebnisse habe ich mit Tesseract (google) erzielt. Allerdings geht da natürlich jegliche Fomatierung flöten. Und man muss sich da etwas reinfummeln.

tarifa · 6. November 2021

hallo und guten Tag Demon, PHuV und Scientist,

also - es sind die wohl typischen Fehler / Begleiterscheinungen bei Kopien.
hier ein Beispiel - auf S. 64 und Seite 65 (zwei aufeinanderfolgende Seiten) unten ist ein grauer Schatten - und auf S. 65 ist Rechts ein schwarzer Balken.

Also: Der sw. Balken - der ist auf den rechten Seiten immer zu sehen.
Eine Methode, diesen Balken nachträglich zu entfernen - wäre nicht schlecht.

@Scientist : die Idee mit dem Abschneiden finde ich gut. Wenn es hier ein Tool gäb wärs echt cool.
Von Tesseract hab ich bereits gehört.

Früher hab ich auch mal mit MuPDF und ähnlichen Programmen gearbeitet um doppelseiten auseinander zuschneiden. Aber in diesem aktuellen Scan liegen glücklicherweise einzelne Seiten schon vor - das hat mir der Zeutschel bei den Voreinstellungen so angeboten. Und das war ziemlich hilfeich.

Nebenbei bemerkt: ich habe die Seiten in einem Zeutschel Buchkopierer erstellt / kopiert

Demon_666 · 6. November 2021

Also wenn ich mir die Seite 64 oben anschaue, sind da ziemlich viele Scan-Artefakte. Das wird schwierig, egal welche OCR-Software in Betracht gezogen wird.
Wenn du auf OCR verzichtest und alle Seiten in Bilder umwandelst, stehen die alle Möglichkeiten der Bildbearbeitung offen. Einfach überlegen/probieren, was am besten passt und dann per batch über alle Bilder laufen lassen. Danach kannst Du die Bilder wieder in ein PDF umwandeln.
Aufgrund des Bildes würde ich persönlich diesen Weg probieren.

Scientist · 6. November 2021

Beispiel ablauf zum Schneiden:
pdf24 -> pdf creator ->PDF per drag&drop reinziehen -> Menueband: Diskette -> Benutzerdefiniert
-> linkes Menue: PNG -> Aufloesung: 300 DPI -> weiter -> Speicherort festlegen (es wird ein Ordner angelegt)

Zwischenergebnis: Jede Seite wurde als einzeles PNG abgespeichert

Irfanview -> eine Seite oeffnen
-> Markierung ziehen, so wie geschnitten werden soll. Am besten einmal durch mehrere Skippen und schauen, wie weit man an jeder Seite ziehen kann.
-> Datei -> Batch(Stapel)-Konvertierung/Umbenennung -> oben links: Batch-Konvertierung auswaehlen
-> links mittig, Button: setzen -> oben links: Haken bei freistellen -> Button darunter: akt. Markierung -> Okay

-> sofern nicht im richtigen Verzeichnis: ins richtige Verzeichnis navigieren
-> Irgendwo einen Ordner anlegen fuer die geschnittenen PNGs

-> unten links: durchsuchen -> neuen Ordner auswaehlen
-> unten mittig, Button: alle hinzufüg.

-> unten links: Haken bei "Vorschau Bild" anzeigen entfernen
-> Starten

Zwischenergebnis: im neuen Verzeichnis sollten jetzt die geschnittenen PNGs angelegt worden sein (Kontrollieren, ob das Ergebnis passt!).

pdf24 -> pdf creator -> per drag&drop reinziehen (auf die korrekte Reihenfolge achten; nach Selektion Seite 1 reinziehen)
-> Menueband: Doppelringe (Statt mehrere Zeilen, sollte jetzt nur noch eine Zeile vorhanden sein.)
-> Menueband: Diskette -> gute Qualitaet -> speichern

Ggf. ueber Benutzerdefiniert die DPI reduzieren, wenn das PDF zu groß wird.
Oder quick&dirty PDF einfach noch mal als PDF ausdrucken.

Demon_666 · 6. November 2021

Was mir grad noch einfällt: Einfach alles als pdf drucken und dabei die Seitenränder entsprechend groß einstellen. Dabei darf dann natürlich die Seite nicht an die Druckseite skalieren.
Damit müsstest du die schwarzen Ränder dann ganz einfach los sein.

tarifa · 8. November 2021

hallo @Scientist, hallo @Demon_666

vielen Dank für Eure Beiträge und die Ideen.

Beispiel ablauf zum Schneiden:

pdf24 -> pdf creator ->PDF per drag&drop reinziehen -> Menueband: Diskette -> Benutzerdefiniert
-> linkes Menue: PNG -> Aufloesung: 300 DPI -> weiter -> Speicherort festlegen (es wird ein Ordner angelegt)
Zwischenergebnis: Jede Seite wurde als einzeles PNG abgespeichert
Irfanview -> eine Seite oeffnen
-> Markierung ziehen, so wie geschnitten werden soll. Am besten einmal durch mehrere Skippen und schauen, wie weit man an jeder Seite ziehen kann.
-> Datei -> Batch(Stapel)-Konvertierung/Umbenennung -> oben links: Batch-Konvertierung auswaehlen
-> links mittig, Button: setzen -> oben links: Haken bei freistellen -> Button darunter: akt. Markierung -> Okay

Das ist sehr sehr interessant. Denn - ja: das ganze Dokument (mehrere Hundert Seiten) ist zwa Seite für Seite gescannt - aber in einer einzigen fortlaufenden Datei drinne.

Deshalb ja: wenn ich Schneide ist das auch eine wichtige Sache. Die einzelnen Seiten einfach mal zu schneiden, sodass ich die einzeln vorliegen hab.

Und darüber hinaus auch die Ränder (mit den sw Schatten etc.etx )wegschneiden.

Nebenbei: Die Idee von dir @Demon_666 gefällt mir auch sehr gut - in dem ich alles auf PDF-Drucken verlege und dann dabei die Seitenränder so groß wähle, dass dann die sw. Ränder und Störstellen einfach dabei dann wegfallen.

Wenn ich das dann alles in eine Datei drucke - dann wär ich wohl diesen Schritt weiter - und hätte die sw. Ränder auf eine relativ einfache weise eliminiert.

ich werde heute Abend mal verschiedene Tests machen.

Euch nochmals vielen Dank für Eure Tipps, Ideen und Anregungen.

Viele Grüße
Tarifa

Suche

schwarzen Scankanten und -schatten aus PDF-Dokumenten wieder los werden

tarifa

Lieutenant

Demon_666

Commodore

Scientist

Lt. Commander

PHuV

Banned

Demon_666

Commodore

tarifa

Lieutenant

Demon_666

Commodore

Scientist

Lt. Commander

Demon_666

Commodore

tarifa

Lieutenant

Ähnliche Themen