Dokumentenscan Workflow für beste Qualität

Schabing

Lt. Junior Grade
Registriert
Aug. 2016
Beiträge
354
Hallo zusammen,

ich habe zuletzt viel ausgetestet beim scannen von Dokumenten (Briefe, Berichte, Verträge....):
  • verschiedene Scanner (Brother ADS 1800W. Lexmark XC2235, Brother DS-940DW...)
  • verschiedene Software zum scannen (PDF XChange, PDF24, PDFelement, Brother, Scanner direkt auf USB Stick)
  • verschiedene Komprimierungen (diverse PDF Programme)

Mein Ergebnis ist, es kommen immer unterschiedliche Ergebnisse raus (logisch), aber teil mit riesigen Unterschieden! Das geht von einer A4 Textseite 300dpi mit 35kb bis hin zu 800kb. Bei dieser Seiter dann OCR anwenden von 35kb auf 50kb und 800kb auf 1,1MB.
Komprimierungen gehen auch auf 40kb runter, sehen aber aus wie mit 50dpi gescannt. Allerdings verstehe ich die Einstellungen die man beim Komprimierungen einstellen kann nicht perfekt.

Was empfehlt ihr für den besten Workflow?

Scannen 300dpi und anschließend OCR ohne Komprimierung (mit PDF XChange).
Alternative könnte ich mit 900/1200dpi (hat bei mir 1kb Unterschied gemacht) scannen, anschließend OCR und dann komprimieren (mit PDF XChange).

Wenn ich im nachhinein optisch nahezu keine Unterschiede feststellen kann, wäre doch die zweite Variante die bessere?
Variante 1 fällt ein kurzer Arbeitsschritt weg, da das komprimieren wegfällt, aber von Variante 2 erhoffe ich mir ein besseres Ergebnis bei der Texterkennung.
Übersehe ich etwas? Mache ich einen Fehler wenn ich alle meine Dokumente auf diese Art einscanne? Ist direkt 300dpi besser als 900/1200dpi mit Komprimierung?

Vielen Dank im Voraus für den Austausch eurer Erfahrungen!
 
ICh nutze Paperless NGX in den Standardeinstellungen und Scanne alle Dokumente mit 300DPI und lass das die Software machen. OCR funktioniert sehr gut.
Vielleicht wäre das was für dich?

Vorteil: Alles in einer DB, kannst nach Stichworten suchen, OCR geht Automatisch, Kannst automatisch Tags zuweisen, Dokumente werden automatisch Gruppen zugeordnet (Rechnungen, Verträge, etc).

Nachteil: Das Ding muss halt als Server irgendwo laufen und man muss sich damit beschäftigen.

Alles an Papierkram oder an PDFs die wichtig sind, landen bei mir direkt da drin. Jetzt ist wieder Steuerzeit und dann wird alles nach 2024 und "Steuer" durchsucht und ich hab alles Griffbereit.

Was die Komprimierung angeht, Text braucht eh kaum Platz nach OCR, ist immer die Frage, was ist der "Rest" im Dokument. Bilder bleiben Bilder und werden komprimiert und sehen dementsprechend aus.
Was ist denn dein Ziel?
Ich bin der Meinung für Dokumente reichen 300 DPI ewig (300 Bildpunkte pro 2.54 cm). Also Fast 12 Punkte pro mm.
 
  • Gefällt mir
Reaktionen: WhiteHelix, redjack1000 und JDK91
Danke für deine schnelle Antwort.

Das ist weniger was für mich. Ich mache das gerne und habe mir letzten Monat einen neuen 400€ Scanner zugelegt.
Kann man seine Dokumente nicht einfach in Google Drive laden und man kann dann auch eine Textsuche durchführen? Wäre doch die einfachere Lösung wenn man das so möchte, also die Texterkennung.

Mein Ziel ist eine gute Qualität und gleichzeitig eine Anständige Dateigröße. Sozusagen suche ich den Sweetspot :D Ich denke da immer an die alten Computerspiele. Früher wurde optimiert damit das Spiel auf den Datenträger passt. Ob die Spiele mit mehr Speicherplatz gewesen wäre? Naja... Heutzutage wird darauf nicht mehr geachtet. Ich mag das nicht. Ist aber eine persönliche Sache denke ich.

300dpi ergeben bei mir 47kb
3000dpi ergeben 105kb
3000dpi mit nachträglicher Komprimierung ergeben 39kb

alles ohne OCR. Das irritiert halt alles... Ich habe schon 800% zoom angewendet, 300dpi und 3000dpi+Komprimierung sehen leicht anders aber im Durchschnitt gleich gut aus.

Ich mein, wenn es keinen Haken gibt dann scanne ich 3000dpi, wende OCR an und komprimiere dann. Aber dazu kenne ich mich nicht gut genug aus!
 
Schabing schrieb:
Kann man seine Dokumente nicht einfach in Google Drive laden und man kann dann auch eine Textsuche durchführen?
Die Google in app Suche findet ja nicht mal die Rechnung für "Zahnbürsten" wenn du nach "Zahnbürste" suchst.

Es ist mir völlig schleierhaft wie der weltweite Suchmaschinenmarktführer innerhalb seiner Apps so eine lausige Suchfunktion haben kann.
 
Ist halt das gleiche wie mit der Gesichtserkennung & Co.
Dennoch frage ich mich nach wie vor, wie es mit der Scanqualität beim entsprechenden Workflow aussieht.
 
Geschwindigkeit spielt eigentlich keine Rolle, zwischen 300dpi und 3000dpi liegen vielleicht zwei Sekunden. Selbst bei 20 Seiten im Monaten wäre das zu vernachlässigen.

Interessant mit dem Overhead, dem gehe ich mal nach danke!

Sweetpoint geht mir aktuell weniger um 300dpi oder 3000 dpi. Ich tendiere eher dazu, in 1200-3000dpi zu scannen, Texterkennung drüber laufen lassen und am ende zu komprimieren. Dateigröße und optische Qualität liegt meiner Meinung nach bei 300dpi. Meine Hoffnung ist, dass die Texterkennung bei 1200-3000dpi besser arbeiten kann.
 
Ich hab mittlerweile ne 3 stellige Anzahl Dokumente in meinem Paperless liegen, scanne alles mit Default 300 DPI. Hatte bis jetzt genau einen Fehler im OCR das aus ner 0 ein O geworden ist.
Scanzeit dürfte bei mehr als 300 DPI ja dann auch mehr werden, seh da den Mehrwert nicht wirklich. Noch dazu ist die Frage was der native Wert von deinem Scanner ist. Alles darüber ist ja auch nur Interpolation und bringt dir kein Plus an Qualität.
 
Hat man inzwischen in Sachen Kamera Dokumenten Scanner fortschritte gemacht?
Ich mein abseits der beliebten Handykamera Apps.
Sowas wo man zb ein Buch mit ner Kamera mit 60 frames die sekunde oder mehr im schnelldurchlauf abfilmt und dann per OCR in text umwandelt... gibt es sowas in der richtung schon?
Wäre ja auch für große mengen an Dokumenten schneller denke ich... 🤔
 
Ja, hast recht an Duplex hab ich nicht gedacht. Das halbiert natürlich die scanzeit pro Dokument. Sofern es sich um beidseitige Dokumente handelt.

Ich dachte aber auch eher an unhandliches Papierkram, von gebundenem Material wie Büchern mal abgesehen wo man an Kameraufbauten eh nicht vorbeikommt.
Ich hatte mal in einem Archiv zu tun wo man überlegte alles zu digitalisieren. Aber es wäre unmöglich gewesen die Dokumente in einem Einzugsscanner zu stecken da teilweise gebunden, zusammengeheftet oder sehr altes bröseliges Papier und teilweise auch ne menge an Zeitungen usw.
Aber dafür wird es sicherlich spezialisierte Dienstleister geben die das um einiges besser können...

Wobei auch hier möglicherweise KI einiges tun kann in Zukunft. Man stelle sich vor ein ganze Buch einfach vor einer Kamera durchzuflippen (wie ein Daumenkino) und die KI macht den rest... 🤔
 
Es geht bei meiner Frage nicht um viele Scans, privater Normaler gebraucht. Die paar Blätter die man im Monat halt so hat.
Ich habe auch schon gegoogelt, aber hätte nicht gedacht dass sich so wenige Menschen für so eine Detailfrage interessieren :D
Scannen wohl alle "planlos" ein :hammer_alt:
 
Schabing schrieb:
Die paar Blätter die man im Monat halt so hat.
Das ist ja das Problem. Ich denk das die App/Kameralösung für die meisten Gelegenheitsnutzer vollkommen ausreichend ist. Zumal man das Smartphone auch fast immer auch bei sich trägt.

Um auf deine Frage zurückzukommen da ich vor ca 10 Jahren auch mal ne weile in der Richtung experimentiert habe.
Da gibt es keine Ideallösung für den goldenen Mittelweg zwischen Dateigröße/Qualität. Es gibt immer Dokumente die etwas mehr oder weniger benötigen. Da zb Grafiken enthalten sind, super dünne Linien oder exotischere Schriftarten usw...
Ich würde hier nicht mit dpi geizen um ein paar MB Speicherplatz zu sparen. 300 dpi sollten für die allermeisten Dokumente genügen. Hier sollte man nicht am falschen Ende sparen.
Natürlich würden wahrscheinlich für 80% der Fälle auch wesentlich weniger reichen.
Aber ist es den Aufwand wirklich wert die dpi anhand der Dokumentkomplexität dann manuell immer umzustellen!?
Ich würde auf jeden Fall aber wenn möglich ohne Komprimierung arbeiten. Das ist heute bei den Speicherplatzpreisen gar keine frage mehr. Selbst einen billigen kleinen 64 GB USB Stick bekommst selbst bei 1000 dpi bei deiner Nutzung (ab und zu mal) niemals im Leben auch nur zur hälfte voll.

Es ist ja nicht nur zu bedenken das Dokument gerade so durch die OCR Erkennung zu bekommen. Man sollte die Originalbilddatei auch als Absicherung in einer Ausdruck fähigen Qualität archivieren.
Gerade bei Dokumenten die man amtlich vielleicht mal vorlegen muss als Nachweis oder Beweis wird eine veränderte Variante die durch eine OCR Software gequetscht wurde oft nicht akzeptiert.

Wichtig wäre auch noch zu bedenken eine Backupstrategie einzuplanen und zb ein USB Stick woanders zu lagern als zu Hause.
 
Zuletzt bearbeitet:
Ja du hast recht, aber schon vor meiner Frage hier war klar, 300dpi oder mehr. Es geht ja um die Verfahrensweise.
300dpi-->OCR
1200/3000dpi-->OCR-->Komprimierung

Aber ich sehe schon, gibt wohl zu wenig Erfahrungen hier. Den meisten wird das egal sein oder es halt zu speziell finden.
Ich werde wohl oder übel mich entscheiden müssen und dann damit leben müssen, auch wenn es dann der falsche weg war :D

App/Kameralösung ist Müll. Schlechte Qualität und riesige Dateien...
 
Geht direkt vom Scanner in 300 DPI Paperless ;) für Komprimierung ist die Datenmenge viel zu wenig, Mehraufwand macht’s nur noch 10x uninteressanter. Denke das wird wohl den meisten so gehen.
 
Bei mir ist es schon immer die Software ScanSnap, die beim Fujitsu ix500 (kam 2013 raus) dabei war und immer weiter schön Updates bekommt. Das war der Grund warum ich damals den Fujitsu genommen habe.
Scannt in 300dpi soweit ich weiß, OCR und alles hübsch ins PDF.
Weiß nicht wie groß die sind. Soviel ist es nicht.
Scanne seit Jahren und die Platte ist nicht voll. ;)

Du sagts ja auch 20 seiten pro Monat sind "schon viel". Das macht der alte ix500 halt in 1 Minute.

Daher scanne ich auch mal Anleitungen usw.

Von Paperless NGX hört man gute Dinge, aber ... passt bei mir so wie es ist.
 
Was mich mal interessieren würde... ob es handliche kleine mobile Scanner im Hosentaschenformat gibt für maximal A4 Scans die man per App mit dem Smartphone kombinieren kann?
Diese mobilen Handscanner sind mit vage bekannt. Aber elider allesammt viel zu groß für die Hosentasche.

Ich hatte sowas in derart vor Jahren mal kurz in der Hand, das Ding hatte jedoch nur ein paar MB internen Speicher und musste dann glaub ich per SCSI-Schnittstelle an den PC. Man musste fürs scanner das ding gleichmäßig übers Papier ziehen.
War aber auch nicht unbedingt was für die enge Hosentasche! xD

Fürs gelegentliche Scannen von einzelnen Dokumenten sicher ne alternative.
Einfach in die Schublade rein und gut ist.
 
Zuletzt bearbeitet:
Scannen mit Handy, das kann der 12 Jahre ate ix500 auch, hat wlan an board und es gibt eine passende App, kleine Scanner gibt es auch. Mobil und mit Akku.
Sowas:
https://geizhals.de/fujitsu-scansnap-ix100-pa03688-b001-a1166353.html

An so Handgeräte, die man übers Papier rollt, kann ich mich auch noch erinnern, aber das ist schon sehr lange her.

Vermute aber das heute eher das Handy den scanner ersetzt und habe gehört man kann Paperless so einrichten, dass es einfach emil empfangen kann, dann mailt man sein dokument da halt hin.
Ist ja auh spannend ansich, es kommen ja doch immer mehr Dinge gar nicht als Papier.

Das wäre für mich ein guter Grund für sowas wie Paperless ... wobei auch ScanSnap inzwischen (früher nicht) fremde PDFs importiert
 
klampf schrieb:
Ist ja auh spannend ansich, es kommen ja doch immer mehr Dinge gar nicht als Papier.
An sich ist das ja auch praktisch, platzsparend und gut für die Umwelt.
Andererseits, nur die wenigstens denken an Backupstrategien. Da hat man dann ganz schnell die Dokumente von 3 Jahren in der Wasserpfütze versenkt.
Es sei denn man holt sich was mit automatischem Cloudbackup. Beim nächsten großen Leak freuts dann die Wiederverkäufer der Datensätze im Darknet. :mussweg:

Interessantes Thema dazu:
https://www.itzbund.de/DE/itloesungen/egovernment/bundescloud/bundescloud.html
Interessant für den einzelnen Bürger würde es aber erst wenn auch jeder einzelne auf seine Daten verschlüsselt zugriff hätte und auch sämtliche Dokumente so verschlüsselt archiviert würden das nur die jeweils entsprechende Behörde oder eben Bürger auf das Dokument zugriff hätte.
 
Zuletzt bearbeitet:
Zurück
Oben