Programme zum Finden von Duplikatsdateien

@Evil E-Lex: Irgentwas ist an deiner Kiste rottig:
  1. Die hohen Systemzeiten.
  2. Dein b3sum greift sich nicht genügend Cores.
  3. Dein b3sum ist selbst mit seekable Input langsamer als meiner mit non-seekable Input.
Gerade wenn du sagst "Mich interessiert nur "was hinten rauskommt".

Nachschauen ob es sha* in HW gibt:
Code:
$ lscpu | tr ' ' '\n' | grep -i sha
sha_ni
$

Hier ein paar Werte für sha256 mit und ohne sha*-HW (OPENSSL_ia32cap) und b3sum mit und ohne seekable Input:

Code:
$ du -h bar10
10G    bar10
$ echo $OPENSSL_ia32cap

$ /bin/time sha256sum bar10 > /dev/null
4.19user 0.70system 0:04.90elapsed 99%CPU (0avgtext+0avgdata 3968maxresident)k
0inputs+0outputs (0major+221minor)pagefaults 0swaps
$ /bin/time sha256sum bar10 > /dev/null
4.24user 0.65system 0:04.90elapsed 100%CPU (0avgtext+0avgdata 3968maxresident)k
0inputs+0outputs (0major+222minor)pagefaults 0swaps
$ OPENSSL_ia32cap='~0x20000000' /bin/time sha256sum bar10 > /dev/null
14.52user 0.70system 0:15.23elapsed 99%CPU (0avgtext+0avgdata 4096maxresident)k
0inputs+0outputs (0major+222minor)pagefaults 0swaps
$ OPENSSL_ia32cap='~0x20000000' /bin/time sha256sum bar10 > /dev/null
14.36user 0.71system 0:15.07elapsed 99%CPU (0avgtext+0avgdata 4096maxresident)k
0inputs+0outputs (0major+222minor)pagefaults 0swaps
$ /bin/time b3sum bar10 > /dev/null
3.18user 0.71system 0:00.45elapsed 864%CPU (0avgtext+0avgdata 10482688maxresident)k
0inputs+0outputs (0major+164365minor)pagefaults 0swaps
$ /bin/time b3sum bar10 > /dev/null
3.15user 0.74system 0:00.45elapsed 865%CPU (0avgtext+0avgdata 10482944maxresident)k
0inputs+0outputs (0major+164360minor)pagefaults 0swaps
$ /bin/time b3sum < bar10 > /dev/null
1.22user 0.56system 0:01.77elapsed 100%CPU (0avgtext+0avgdata 3328maxresident)k
0inputs+0outputs (0major+246minor)pagefaults 0swaps
$ /bin/time b3sum < bar10 > /dev/null
1.23user 0.54system 0:01.77elapsed 100%CPU (0avgtext+0avgdata 3328maxresident)k
0inputs+0outputs (0major+249minor)pagefaults 0swaps
$

b3sum kann mehrere Cores nutzen allerdings nur wenn es einen seekable Input hat, was beim lesen von stdin halt eben nicht der Fall ist, das Ding gibt aber auch ohne mehrere Cores gut Gas.
 
Zuletzt bearbeitet:
Hallo,

ich dachte eigentlich mehr an Anwendungsprogramme mit GUI.
Und wo man auch sagen kann, ich möchte Ordner xy nur mit Ordner yz vergleichen, ob da was gemeinsames drin ist. Ich hab etwas Durcheinander in meinen Sicherungen, sie sind jeweils auf unterschiedlichen Datenträgern.

Anti-Twin hatte ich auf Windows auch, das wäre meine Wahl gewesen, wenn es um Windows ginge. Aber hier suche ich halt für Linux.

Es geht mir weniger drum, Speicherplatz zu sparen, sondern Ordnung in meine Dateien zu bekommen. Es geht um von mir selbst angelegte Dateien: Text, Office, html, pdf, audios und vielleicht noch etwas an Spezialformaten.

JumpingCat schrieb:
Hatten wir nicht vor ein paar Tagen fast genau die gleiche Frage mit den gleichen Antworten? 😁
Ich hab keinen gesehen, aber wenns da um Linux geht, würde ich mich über einen Link dahin freuen.
 
Wackelkarton schrieb:
ich dachte eigentlich mehr an Anwendungsprogramme mit GUI.
Und wo man auch sagen kann, ich möchte Ordner xy nur mit Ordner yz vergleichen, ob da was gemeinsames drin ist.
Wie schon erwähnt, Czkawka kann das.
 
  • Gefällt mir
Reaktionen: fr13del
foofoobar schrieb:
@Evil E-Lex: Irgentwas ist an deiner Kiste rottig:
  1. Die hohen Systemzeiten.
  2. Dein b3sum greift sich nicht genügend Cores.
  3. Dein b3sum ist selbst mit seekable Input langsamer als meiner mit non-seekable Input.
Gerade wenn du sagst "Mich interessiert nur "was hinten rauskommt".
Du hast bei allen Punkten recht. Es handelt sich bei der Kiste um meinen Internetrechner auf der Arbeit. Damit hashe ich normalerweise keine Dateien. b3sum ist halt schneller. Warum, wieviel, weshalb ist für meine tägliche Arbeit egal, da ich BLAKE3 mangels Unterstützung in meinen Programmen nicht nutzen kann. Auf meinem eigentlichen Arbeitsrechner läuft Windows, oder WSL, da hab ich mir die Tests gespart. Die Zahlen auf meinem iMac zuhause sahen aber ganz ähnlich aus.

sha_ni unterstützt der Core i7-10700 übrigens nicht. Das geht erst ab der 11. Generation.
 
Wackelkarton schrieb:
Und wo man auch sagen kann, ich möchte Ordner xy nur mit Ordner yz vergleichen, ob da was gemeinsames drin ist.
So leicht wirst du mich nicht los :-)
Code:
$ find
.
./3
./3/3
./2
./2/2
./1
./1/1
$ find 1
1
1/1
$ find 2 3
2
2/2
3
3/3
$ find 1 2 3
1
1/1
2
2/2
3
3/3
$ (find 1; find 2) | cat
1
1/1
2
2/2
$
Ansonsten ist find(1) eine ziemliche Granate wenn es darum geht Files nach allen möglichen Kriterien zu finden oder zu filtern. Ausdrücke mit logischen AND OR NOT "(" ")", Permissions mit arithmetischen AND OR NOT befummeln sind da möglich.

Nur für den Fall das du bei bestimmten Aufgaben GUIs überdrüssig werden solltest :-)
 
Zuletzt bearbeitet:
Wackelkarton schrieb:
ich dachte eigentlich mehr an Anwendungsprogramme mit GUI.
Krusader, dort hast du die Möglichkeit unter "Extras -> Ordner abgleichen..." auch nach Duplikaten zu suchen.

1729584263891.png


Vor allem ist Krusader Teil der KDE Umgebung und sollte fast in jeder repo enthalten sein.
Hast du kein KDE, werden vermutlich so einige KDE libs mitinstalliert.
 
Zurück
Oben