Ordnerüberwachung - PDF Inhalte per Mail versenden

holdes schrieb:
mit OCR hab ich bei allen Herstellen keine guten Erfahrungen gemacht, da wird aus einem großen I gerne mal ein senkrechter Strich | oder andere Spielereien. :D

Ich hab den Abby Finereader unter Linux am Laufen und kann Dir versichern dass das Problem mittlerweile doch arg geschrumpft ist. Angesichts einer qualitativ einwandfreien Vorlage, eines bekannten Layouts und eines eingeschränkten Zeichensatzes würde ich vermuten dass selbst die zweite Reihe der OCR-Anwendungen dahingehend zu trainieren wären. Das aber nur am Rande, IP over Brieftaube sollte die letzte Wahl bleiben.
 
  • Gefällt mir
Reaktionen: holdes
pfd schrieb:
Ist es möglich, dass der Hersteller die E-Mailadresse in den Metadaten der PDF (z.B. unter Keywords) speichert?
Dann könnten diese beispielsweise mittels exiftool ausgelesen werden. Ist sicher einfacher als die PDF zu parsen.

Falls das nicht möglich ist, würde ich wie oben erwähnt die PDF durchsuchen.

Code:
alle Metadaten

PS F:\exiftool> .\exiftool.exe .\01.pdf
ExifTool Version Number         : 11.98
File Name                       : 01.pdf
Directory                       : .
File Size                       : 1577 bytes
File Modification Date/Time     : 2020:05:07 13:28:40+02:00
File Access Date/Time           : 2020:05:07 13:52:23+02:00
File Creation Date/Time         : 2020:05:07 13:52:23+02:00
File Permissions                : rw-rw-rw-
File Type                       : PDF
File Type Extension             : pdf
MIME Type                       : application/pdf
PDF Version                     : 1.5
Linearized                      : No
Page Count                      : 1
Title                           : TITEL
Subject                         : BETREFF
Keywords                        : user@test.tld
Creator                         : Draw
Producer                        : LibreOffice 6.2
Create Date                     : 2020:05:07 13:28:40+02:00


bestimmter Tag

PS F:\exiftool> .\exiftool.exe -Keywords .\01.pdf
Keywords                        : user@test.tld


Tag bearbeiten (falls vor dem Versenden die Adresse gelöscht werden soll)

PS F:\exiftool> .\exiftool.exe -Keywords="" .\01.pdf
    1 image files updated


Metadaten nach dem Löschen

PS F:\exiftool> .\exiftool.exe .\01.pdf
ExifTool Version Number         : 11.98
File Name                       : 01.pdf
Directory                       : .
File Size                       : 2.1 kB
File Modification Date/Time     : 2020:05:07 13:52:43+02:00
File Access Date/Time           : 2020:05:07 13:52:43+02:00
File Creation Date/Time         : 2020:05:07 13:52:23+02:00
File Permissions                : rw-rw-rw-
File Type                       : PDF
File Type Extension             : pdf
MIME Type                       : application/pdf
PDF Version                     : 1.5
Linearized                      : No
Page Count                      : 1
Title                           : TITEL
Subject                         : BETREFF
Creator                         : Draw
Producer                        : LibreOffice 6.2
Create Date                     : 2020:05:07 13:28:40+02:00

Also wenn er keine Metadaten setzen kann, kann er dann nicht einfach die Mail-Adresse in den Dateinamen packen? (Einfach ein Suffix setzen à la "_mail=max.müller@somewhere.com"
Alle erlaubten Mail-Adressen-Characters sind auch im NTFS-Filesystem erlaubt (wüsste jetzt keine Ausnahme).
Ist ja laut Beschreibung auch nur immer ein Empfänger? (Kommas wären auf dem FS auch erlaubt)

Ob die Adresse im unverschlüsselten PDF irgendwo platziert wird oder in den Metadaten oder im Dateinamen auftaucht ist datenschutzrechtlich absolut identisch.
Da muss dann schon auf anderer Ebene der Datenschutz gewahrt werden.

Ich wäre auch auf Metadaten gegangen, aber wenn nicht möglich, dann sollte zumindest der Dateiname machbar sein.
 
Ich werde das morgen mal absprechen und schauen was mit der Software machbar ist. Dateiname wäre auch noch eine gute Idee und ja, es handelt sich immer um jeweils einen Empfänger.
 
Zurück
Oben