simpsonsfan schrieb:
So, zwar ist das Wochenende vorbei, aber hier trotzdem mal noch etwas ausführlichere Rückfragen zu #128.
1. Was heißt kreuz und quer?
Kreuz und quer bedeutet folgendes:
der Medien-Ordner/Pool besteht aus über den Jahren angesammelten Backups des WhatsApp-Medienordners. Soll heißen: einfach immer mal wieder den gesamten Medien-Ordner vom Handy auf den PC gezogen.
Das hat zur Folge, dass es nicht einen einzigen Medienordner gibt, in dem kumulativ alle neuen Dateien hinzugefügt wurden (so wie es der Fall ist für den WhatsApp-Medienordner auf dem Handy), sondern auf dem PC entstehen somit sehr viele Kopien identischer Dateien, denn jedes einzelne Backup beinhaltet ja nicht nur die neu hinzugefügten Dateien in Relation zum vorherigen Backup, sondern jedes einzelne Backup enthält automatisch immer ALLES, was vorher auch schon da war.
Angenommen, ich mache im Jahr 2020 10 Backups des Medienordners - dann habe ich 10x Medienordner im Medien-Pool-Ordner, von denen insbesondere die älteren Dateien 10x vorhanden sind, da sie in früheren Backups ja auch schon da waren.
So entsteht nun also dieses "kreuz und quer". Ich habe mir bei der schieren Menge an Backups / Daten nicht die Mühe gemacht, nur jeweils die neu-hinzugekommenen Mediendateien kumulativ zu sichern, sondern habe halt der Einfachheit halber immer den gesamten Medienordner vom Handy gezogen.
Daher nun so viele Duplikate derselben Dateien.
simpsonsfan schrieb:
Ist die Struktur unterhalb von "Media", also bspw. "WhatsApp Video" immer vorhanden?
Die Struktur des Medienordners ist immer gleich aufgebaut. Ab dem Ordner "Media" ändert sich unterhalb die Struktur nicht mehr. Oberhalb des Ordners "Media" kann es je nach Speicherort im Medien-Pool variieren.. Daher solche Sachen wie "Backup 2022/Media/etc" oder "Handy-Daten Stand 17.06.20/Media/etc"
Relevant wird es für die Suche also erst ab dem Ordner "Media" und den jeweiligen Unterordnern, die immer dieselbe Struktur haben sollten.
simpsonsfan schrieb:
1a. Ist insbesondere die Struktur unterhalb von bspw. "WhatsApp Images" immer vorhanden? Konkret sehe ich dort bspw. Unterordner "Sent" und "Private" in deiner search.txt. Zudem monatsweise Unterordner bei "WhatsApp Voice Notes"
Auch das muss zwingend immer dieselbe Struktur sein, da WhatsApp sonst die Medien nicht erkennen würde. Die Output.txt ist ja eine 1:1 Kopie der WhatsApp-Datenbank-Tabelle "message_media", die die Pfade zu den Mediendateien in Relation zur jeweils geschriebenen Nachricht (message_row_id) in der Datenbank auflistet.
Ist im Chat also am 05.05.20 um 17:20 Uhr ein Bild von mir versendet worden an den Chatpartner, dann schreibt WhatsApp in der Tabelle "message_media" für genau dieses Datum und Uhrzeit den Pfad zu dieser gesendeten Bilddatei als:
Media/WhatsApp Images/sent/IMG-20200505-WA0000.jpg
(0000 falls es die erste versendete oder empfangene Datei an diesem Tag ist, ansonsten wird aufaddiert).
Die physische Bilddatei wird daher im WhatsApp-Medienordner in
Media/WhatsApp Images/sent/
gespeichert.
simpsonsfan schrieb:
2. Sind die Dopplungen reine Kopien von Dateien?
Siehe oben bei 1.)
In den MEISTEN Fällen sind es reine Kopien, da es eben zig Backups derselben Dateien gibt. ALLERDINGS - und hier wird es wichtig - hat WhatsApp in sehr wenigen Fällen die Namensgebung verhunzt, weshalb es nun vorkommen kann, wie in Beitrag #125 demonstriert, dass ein und dieselbe Datei einen identischen Namen haben (also auf erste Sicht reine Kopien sind), aber DENNOCH einen anderen Inhalt haben.
Und genau diese Dateien müssen auf jeden Fall gesucht und gefunden werden, denn in diesen Fällen muss ich manuell prüfen, welche Dateien nun passen. Das kann das Script nicht wissen.
In den vergangenen Scripts wurden diese Dopplungen aber irgendwie nicht gefunden (siehe nochmals Beitrag #125 hierfür).
simpsonsfan schrieb:
2a. Du sprichst von Original. Sind dir bei gleichem Dateiinhalt Dateiattribute (wie bspw. das Windows Erstelldatum-Attribut) wichtig? (Ich vermute nein, also einfach irgendeine der Dateien gewünscht.)
Siehe Frage 2.)
Wichtig ist der Inhalt, die Metadaten nicht wirklich, außer eben der Dateinamen, denn der muss ja mit dem jeweiligen Eintrag in der WA-Datenbank übereinstimmen.
simpsonsfan schrieb:
4. Kann ich, wie bereits erwähnt, nicht nachvollziehen.
Ich hoffe, dies hat sich mit der Erklärung zu 2.) und 2a) nun geklärt, was ich meinte. Falls nicht, versuche ich es dann nochmal zu erklären.
simpsonsfan schrieb:
5. Siehe 1a, was heißt "originale Pfadstruktur wahren"?
Hierzu auch wieder die Antwort bei 1a). Auch dies sollte hoffentlich nun klar geworden sein durch die Erklärung, falls nicht, erkläre ich es auch nochmal.
simpsonsfan schrieb:
5a. Wohin dürfte eine Datei "f:\medien\Medien Stand 17.06.24\Media\WhatsApp Images\Private\IMG-20220307-WA0001.jpg" hin? Welcher Teil des Pfads müsste beachtet werden.
Auch hier wieder 1a)
Alles, ab Media und darunter ist relevant. Alles, was darüber ist, ist nicht relevant.
Diese Datei würde also optimalerweise im Zielordner gefunden dort liegen:
F:\gefunden\Media\WhatsApp Images\Private\IMG-20200307-WA0001.jpg
Eben so, wie sie auch im Suchordner/Pool abgelegt ist ab dem Ordner "Media" und darunter.
simpsonsfan schrieb:
5b. Wo (in welchen Verzeichnissen) dürfte nach einer "Media/WhatsApp Images/Sent/IMG-20220304-WA0002.jpg" gesucht werden?
Im Suchordner / Pool läge diese Datei analog in irgendwelchen (sicherlich auch mehreren Ordnern (da es ja meist mehr als 1 Backup gibt) Ordnern, die dann irgendwann als Unterordner "Media/WhatsApp Images/Sent/IMG-20220304-WA0002.jpg" haben werden.
Ob dies aber nun "Backups\
Media\etc" ist oder "Sicherung 17.04.22\Neu\neu\blablabla\blubb\
Media\etc" kann unterschiedlich sein.
Wichtig wird's immer erst ab "Media\etc".
simpsonsfan schrieb:
5c. Wo (in welchen Verzeichnissen) dürfte nach einer "Media/WhatsApp Images/IMG-20210328-WA0000.jpg" gesucht werden?
Siehe 5b). Analog dazu.
simpsonsfan schrieb:
6. Wohin sollen doppelte Dateien kopiert werden?
Ursprünglich hatten wir doppelte Dateien ja in einen extra Ordner kopiert. Dies würde ich nun revidieren und der Übersicht halber die doppelten Dateien einfach zusammen zu den Originalen reinkopieren, nur eben mit Namenszusatz _1 _2 _3 _4 etc.
Damit sehe ich durch die Thumbnails dann direkt auf einen Blick, ob es tatsächlich nur Dopplungen sind, die ich dann mittels Windowssuche nach "_1" "_2" "_3" alle auf einen Schlag dann direkt rauslöschen kann, da nicht benötigt, oder aber ob es sich um die wichtigen Dopplungen, wie in der Antwort auf 2.) beschrieben, handelt. Für die muss ich nämlich dann manuell entscheiden und kann sie nicht direkt rauslöschen.
Also Dopplungen dann am besten einfach in denselben Ordner wie das Orignal. Wenn es ein Bild ist, dann halt Media/WhatsApp Images/
Wenn es ein von mir gesendetes Bild ist, dann eben in Media/WhatsApp Images/sent
Und so weiter...
simpsonsfan schrieb:
6a. Wie soll das Namenschema für doppelte Dateien aussehen?
Das darf sich nicht ändern, mit Aussnahme des _1 _2 _3-Zusatz, siehe 6.)
simpsonsfan schrieb:
6aa. Soll eine Datei den Originalnamen bekommen?
Das verstehe ich nicht.
Ich hoffe, nach diesen Erläuterungen ist nun alles klar(er). Falls nicht, bitte nochmal fragen.
Vielen Dank!