Hallo CB Forum,
Ich habe aktuell folgenden Workflow:
Rechner via Dualboot ins Windows booten, Scannersoftware von Brother starten, Dokumente in den Scanner (Brother 2750DW) legen, mit OCR scannen (Ich verwende hier die Software von Brother weil die einfach unglaublich gut ist im OCR, sowohl Deutsch als auch andere Sprachen welche ich brauche). Und im Anschluss in Linux die Dokumente via Recoll "verwalten" (Recoll ist eigentlich eine Indexierung von Texten mittels Volltextsuche, nicht wirklich zur Verwaltung gedacht).
Aber ich bin nicht so wirklich glücklich mich dem Workflow. Das Hauptproblem ist, ich muss, damit ich scannen kann, immer via Dualboot ins Windows (und dort dann erstmal Updates etc.). Und Recoll ist okay, aber als DMS (Dokumentenmanagementsoftware) nicht wirklich der Hit, da ich jedes Mal die Volltext suche habe und auch keine Tags etc. vergeben kann was ich aktuell über die Dateinnamen versuche zu lösen.
Was ich am Wochenende versucht habe:
Raspberry pi aufgesetzt, dort dann Docker installiert, dann "paperless ngx" drauf und dann entsprechend Netzwerkfreigabe via Samba auf den "ingest Folder" von Paperless. Und dann halt vom Scanner via Netzwerkscan die Dokumente einscannen.
An sich super Workflow, genau wie ich es mir vorstelle ABER, die OCR von paperless ist mal sowas von grotten schlecht. Dies ist auch einer der Gründe warum ich vor ein paar Jahren schon den Workflow ins Windows verlegt hatte, weil ich mit Teseract und Co einfach keine gute OCR bekommen habe. Und das passiert mir schon bei "einfachen" Textdokumenten. Sobald da was mit Tabellen reinkommt, oder gar Tabellen mit mehreren Spalten und Zeilen ist komplett vorbei. Auch Kundennummern etc. werden nicht sauber erkannt. Und sobald das Dokument mehr als 3 Grad schief eingescannt wurde weigert er sich komplett etwas mit OCR zu machen und ich muss das ganze neu einscannen.
Kennt einer da eine Alternative? Die brother Software scheint man nicht unter Linux nutzen zu können (zumindest nicht nach meiner Suche via Google und co). Und der Workflow mit Paperless und dem Raspberry Pi ist eigentlich genau das, was ich will weil ich dann meinen Windowsrechner nicht brauche und den Pi einfach laufen lassen kann, aber die OCR ist einfach bescheiden.
Vielen Dank im Voraus,
Ich habe aktuell folgenden Workflow:
Rechner via Dualboot ins Windows booten, Scannersoftware von Brother starten, Dokumente in den Scanner (Brother 2750DW) legen, mit OCR scannen (Ich verwende hier die Software von Brother weil die einfach unglaublich gut ist im OCR, sowohl Deutsch als auch andere Sprachen welche ich brauche). Und im Anschluss in Linux die Dokumente via Recoll "verwalten" (Recoll ist eigentlich eine Indexierung von Texten mittels Volltextsuche, nicht wirklich zur Verwaltung gedacht).
Aber ich bin nicht so wirklich glücklich mich dem Workflow. Das Hauptproblem ist, ich muss, damit ich scannen kann, immer via Dualboot ins Windows (und dort dann erstmal Updates etc.). Und Recoll ist okay, aber als DMS (Dokumentenmanagementsoftware) nicht wirklich der Hit, da ich jedes Mal die Volltext suche habe und auch keine Tags etc. vergeben kann was ich aktuell über die Dateinnamen versuche zu lösen.
Was ich am Wochenende versucht habe:
Raspberry pi aufgesetzt, dort dann Docker installiert, dann "paperless ngx" drauf und dann entsprechend Netzwerkfreigabe via Samba auf den "ingest Folder" von Paperless. Und dann halt vom Scanner via Netzwerkscan die Dokumente einscannen.
An sich super Workflow, genau wie ich es mir vorstelle ABER, die OCR von paperless ist mal sowas von grotten schlecht. Dies ist auch einer der Gründe warum ich vor ein paar Jahren schon den Workflow ins Windows verlegt hatte, weil ich mit Teseract und Co einfach keine gute OCR bekommen habe. Und das passiert mir schon bei "einfachen" Textdokumenten. Sobald da was mit Tabellen reinkommt, oder gar Tabellen mit mehreren Spalten und Zeilen ist komplett vorbei. Auch Kundennummern etc. werden nicht sauber erkannt. Und sobald das Dokument mehr als 3 Grad schief eingescannt wurde weigert er sich komplett etwas mit OCR zu machen und ich muss das ganze neu einscannen.
Kennt einer da eine Alternative? Die brother Software scheint man nicht unter Linux nutzen zu können (zumindest nicht nach meiner Suche via Google und co). Und der Workflow mit Paperless und dem Raspberry Pi ist eigentlich genau das, was ich will weil ich dann meinen Windowsrechner nicht brauche und den Pi einfach laufen lassen kann, aber die OCR ist einfach bescheiden.
Vielen Dank im Voraus,