( "helfen" wollte ich eigentlich im Betreff noch schreiben. Aber das mochte die Forensoftware gar nicht.
)
Grüße, Erdenmenschen.
Ich scanne routinemäßig meine eingehende Post und ältere Dokumente. Nun wollte ich sie im nächsten Schritt verschlagworten.
Tesseract mit Language File deu-best ist schon ganz gut, an einigen Dokumenten beißt er sich aber die Zähne aus.
Also will ich nun versuchen mein eigenes File zu trainieren. Haltet mich ruhig für verrückt, aber besser scheitern als nie versuchen.
Host ist debian 10 buster, installiert sind tesseract-ocr und nach den ersten Fehlschlägen nun auch libtesseract-dev
Was funktioniert:
Damit erzeuge ich img1.txt mit mehr oder weniger brauchbarem Text.
Mein Problem:
Das sollte eine Textdatei und eine Boxdatei erzeugen. Stattdessen bekomme ich eine Fehlermeldung:
Alle Quellen sagen das mir, das Konfig File zu lstmbox fehlt. Aber alle Fundstellen verlinken zu Seiten die auf Seiten verlinken die zu Seiten verlinken die Dokumente enthalten die zu Seiten verlinken......ich müsste schon das halbe Internet nicht nur duchsuchen sondern auch lesen. Vielleicht geht es ja etwas einfacher? Hat jemand diese Config-Datei für mich oder kann mir ein Dokument nennen in dem konkret beschrieben wird wie ich es erzeuge oder wo ich es finde?

Grüße, Erdenmenschen.
Ich scanne routinemäßig meine eingehende Post und ältere Dokumente. Nun wollte ich sie im nächsten Schritt verschlagworten.
Tesseract mit Language File deu-best ist schon ganz gut, an einigen Dokumenten beißt er sich aber die Zähne aus.
Also will ich nun versuchen mein eigenes File zu trainieren. Haltet mich ruhig für verrückt, aber besser scheitern als nie versuchen.
Host ist debian 10 buster, installiert sind tesseract-ocr und nach den ersten Fehlschlägen nun auch libtesseract-dev
Was funktioniert:
Code:
tesseract -l deu img1.tif img1
Mein Problem:
Code:
tesseract -l deu img1.tif img1 lstmbox
Code:
read_params_file: Can't open lstmbox
Alle Quellen sagen das mir, das Konfig File zu lstmbox fehlt. Aber alle Fundstellen verlinken zu Seiten die auf Seiten verlinken die zu Seiten verlinken die Dokumente enthalten die zu Seiten verlinken......ich müsste schon das halbe Internet nicht nur duchsuchen sondern auch lesen. Vielleicht geht es ja etwas einfacher? Hat jemand diese Config-Datei für mich oder kann mir ein Dokument nennen in dem konkret beschrieben wird wie ich es erzeuge oder wo ich es finde?
Zuletzt bearbeitet von einem Moderator:
("helfen" im Betreff ergänzt)