SSD im Verdacht für Abstürze - Welche Diagnosemöglichkeiten habe ich?

Naphtor · 27. Juli 2024

Hallo in die Runde,

ich habe seit einiger Zeit das Problem, dass Manjaro unregelmäßig mitten im Betrieb einfriert. Als Ursache habe ich die SSD in Verdacht, da nach einem Neustart ("REISUB") die SSD nicht erkannt wird und ich erst das System vom Strom nehmen muss, damit es wieder funktioniert. Als SSD nutze ich eine "SK Hynix Platinum P41 2TB", auf welcher Manjaro und meine gesamten Daten in mehreren Partitionen liegen. Die SSD ist im dritten Slot meines Mainboards (ASRock B650M Pro RS WiFi) installiert und zusätzlich mit einer Kupferplatte versehen. Die Temperatur im normalen Desktop-Betrieb liegt bei 43 °C. Falls relevant, meine restlichen Systemkomponenten sind hier zu finden. Ich nutze den dritten Slot, da in den beiden anderen meine Festplatten für Windows verbaut sind, ich nutze das System im Dualboot.
Anhand der auftretenden Fehlermeldungen hatte ich etwas gesucht und viele Einträge gefunden, dass die Stromsparmechanismen deaktiviert werden sollten. Ich habe daher in Grub den folgenden Befehl eingetragen:

Bash:

nvme_core.default_ps_max_latency_us=0

Leider scheint das nicht geholfen zu haben. Wie könnte ich herausfinden, ob es an der SSD liegt? Das Mainboard habe ich noch nicht im Verdacht, da bei einem Neustart automatisch der Boot in Windows erfolgt und nur die Manjaro-SSD nicht erkannt wird, die beiden anderen SSDs sind voll funktionsfähig.

Für Tipps und Hinweise bin ich sehr dankbar!

(Daten sind nicht in Gefahr, die sind lokal vom NAS gespiegelt und private Daten liegen verschlüsselt auf VeraCrypt-Partitionen).

cartridge_case · 27. Juli 2024

Naphtor schrieb:
die beiden anderen SSDs sind voll funktionsfähig

Na dann dort das System drauf und testen. Viel anders wird man das nicht rausfinden können. SMART-Werte geprüft?

Naphtor · 27. Juli 2024

Die anderen SSDs sind ja nicht leer... Da bestelle ich mir lieber eine neue SSD und teste das damit. Ich hatte nur gehofft, ob es im Vorfeld noch etwas weiteres gibt zum Diagnostizieren. Außerdem ist die SSD hinter der GPU verbaut, das System ist so klein und auf Kante vom Platz her, der Wechsel dauert ne halbe Ewigkeit...

Die SMART-Werte sind soweit unauffällig, die unsafe shutdowns stammen vermutlich von den anfängen, als ich das System hart vom Strom genommen hatte, ohne vorher "REISUB" durchzuführen...

Bash:

Smart Log for NVME device:nvme1n1 namespace-id:ffffffff
critical_warning                        : 0
temperature                             : 43 °C (316 K)
available_spare                         : 100%
available_spare_threshold               : 10%
percentage_used                         : 0%
endurance group critical warning summary: 0
Data Units Read                         : 4419790 (2.26 TB)
Data Units Written                      : 7653591 (3.92 TB)
host_read_commands                      : 34680632
host_write_commands                     : 94870535
controller_busy_time                    : 758
power_cycles                            : 432
power_on_hours                          : 571
unsafe_shutdowns                        : 20
media_errors                            : 0
num_err_log_entries                     : 0
Warning Temperature Time                : 0
Critical Composite Temperature Time     : 0
Temperature Sensor 1           : 37 °C (310 K)
Temperature Sensor 2           : 42 °C (315 K)
Thermal Management T1 Trans Count       : 11
Thermal Management T2 Trans Count       : 0
Thermal Management T1 Total Time        : 139
Thermal Management T2 Total Time        : 0

cartridge_case · 27. Juli 2024

Naphtor schrieb:
die unsafe shutdowns stammen vermutlich von den anfängen

Dann dürften die ja dann jetzt nicht mehr steigen, also eventuell einfach diese Werte beobachten.

Naphtor · 27. Juli 2024

Das ist eine gute Idee - Danke

Alexander2 · 27. Juli 2024

Welche sonstigen Rechnerbestandteile gibt es denn noch? es könnte tatsächlich noch eine Option für die Fehlerquelle geben, wenn wegen Daten fehler geworfen wird.

AMD-Flo · 27. Juli 2024

Die kannst die SSD gezielt stressen, z.B. eine große Menge Daten schreiben, dann sollte sie reproduzierbar aussteigen. Wenn du die SSD an einem 2. Rechner als zusätzlichen Datenträger anschließt, kannst du den gleichen Test machen. Dann sollte sich nur die SSD verabschieden, nicht der ganze Rechner.

Auf jeden Fall zuerst die wichtigsten Daten von der SSD sichern, bevor sie komplett hinüber ist.

Alexander2 · 27. Juli 2024

Es könnte sogar daran liegen, das eventuell die CPU/dessen Kühlkörper zu fest angezogen ist. Der Gedanke dahinter ist, das die Verbindungen bis in die CPU direkt gehen für die NVME und die müssen ja über die Pins im LGA Sockel gehen. Da gibt es immer mal wieder Fälle von Schlechten/keinem Kontakt bei eben zu viel Anpressdruck.

Wenn sonst kein Fehler direkt gefunden wird, der es sein könnte, dann wäre das auch eine stelle mal das zu checken.

Naphtor · 27. Juli 2024

Alexander2 schrieb:
Welche sonstigen Rechnerbestandteile gibt es denn noch?

CPU: AMD Ryzen 9 7900X (delidded, AM5 High Performance Heatspreader, Flüssigmetall-WLP, @ 130W)
Kühler: Thermalright Phantom Spirit 120 SE
MB: ASRock B650M Pro RS WiFi
RAM: Corsair Vengeance RGB, 64GB, @DDR5-6000 CL30-36-36-80
GPU: MSI RTX 4080 Ventus 3X E OC, CableMod 12VHPWR 90 Degree Seasonic Cable (Variante B) @ 230W
SSD: Crucial P5 Plus 1TB, Crucial P5 Plus 2TB, SK hynix P41 2TB
NT: Seasonic Focus GX 750W ATX 2.4
Lüfter: 2x Arctic P12 PWM PST A-RGB unten, 2x Jonsbo HF1215 RGB oben (Der Abstand zu den NT-Schrauben ist wirklich sehr knapp)

Ich muss mich zu oben korrigeren: Auf der Hynix-SSD ist Manjaro inkl. der home-Partition. Von den anderen beiden SSDs binde ich die VeraCrypt-Partitionen mit den Daten ein.

Alexander2 schrieb:
Es könnte sogar daran liegen, das eventuell die CPU/dessen Kühlkörper zu fest angezogen ist.

Es verabschiedet sich jedoch immer nur die Hynix-SSD, die beiden Crucials machen keine Probleme. Könnte das so selektiv sein? Das ist aber ein guter Punkt, die CPU ist geköpft und mit dem derbauer Heatspreader versehen. Ich habe dafür die Abstandshalter vom CPU-Kühler leicht modifiziert, um den Höhenunterschied auszugleichen. Es sollte alles passen von den Höhen aber Fehler passieren schnell... Unter Windows hatte ich jedoch noch keinen Absturz und das System nutze ich häufiger.

AMD-Flo schrieb:
Die kannst die SSD gezielt stressen

Das teste ich gleich mal und berichte, falls sich was zeigt. Wie gesagt, ausbauen würde ich erst am Ende, da ich dafür den PC halb zerlegen muss...

Alexander2 · 27. Juli 2024

Naphtor schrieb:
Könnte das so selektiv sein?

Kann ich dir leider auch nicht genau sagen. Ich halte es zumindest für eine mögliche Fehlerquelle. Würde dem aber auch erst so ziemlich als letztes nachgehen.

Naphtor · 27. Juli 2024

Bisher haben diverse Benchmark-Tests die SSD nicht zum Abstürzen gebracht (KDiskMark und fio). Ich vermute daran liegt es nicht, da die Abstürze beim normalen Browsen auftreten und das bisher nicht reproduzierbar / ohne Muster.

DorMoordor · 27. Juli 2024

Welcher Kernel wird denn genutzt? Ich hatte mal was ähnliches mit Kernel 6.1(?). Der hatte Probleme mit meiner CPU. Da die SSD direkt an der CPU hängt könnte es auch damit zusammen hängen.

Oder mal in einem anderen Port versuchen? Ich weiß Umbau dauert ewig... Vielleicht liegts am Port

Naphtor · 27. Juli 2024

DorMoordor schrieb:
Welcher Kernel wird denn genutzt?

Ich nutze den Kernel 6.6.40-1. Ich denke morgen wird die SSD mal in einen anderen Slot gesetzt. Einer ist prinzipiell ohne große Umbauten erreichbar, den werde ich dann nutzen. So könnte ich auch testweise eine andere SSD einbauen, um einen Hardwaredefekt auszuschließen.

Naphtor · 28. Juli 2024

So, ich habe heute die Slotbelegung der SSDs gewechselt. Die Hynix-SSD war im Slot 1 (PCIe 4.0 x4), die Windows-SSD im Slot 0 (PCIe 5.0 x4). Jetzt ist die Hynix-SSD direkt an die CPU angebunden.

Von den SMART-Werten hat sich nichts getan, es gab zwischenzeitlich aber auch keinen weiteren Absturz.

Code:

Smart Log for NVME device:nvme2n1 namespace-id:ffffffff
critical_warning                        : 0
temperature                             : 39 °C (312 K)
available_spare                         : 100%
available_spare_threshold               : 10%
percentage_used                         : 0%
endurance group critical warning summary: 0
Data Units Read                         : 5536754 (2.83 TB)
Data Units Written                      : 8467342 (4.34 TB)
host_read_commands                      : 97159641
host_write_commands                     : 137628412
controller_busy_time                    : 776
power_cycles                            : 436
power_on_hours                          : 576
unsafe_shutdowns                        : 20
media_errors                            : 0
num_err_log_entries                     : 0
Warning Temperature Time                : 0
Critical Composite Temperature Time     : 0
Temperature Sensor 1           : 33 °C (306 K)
Temperature Sensor 2           : 38 °C (311 K)
Thermal Management T1 Trans Count       : 11
Thermal Management T2 Trans Count       : 0
Thermal Management T1 Total Time        : 139
Thermal Management T2 Total Time        : 0

Mal schauen, wie sich das System damit verhält

Ergänzung (28. Juli 2024)

Das lies nun leider nicht lange auf sich warten - das System ist gerade wieder eingefroren. Es liegt somit leider nicht am M2-Slot. Der "unsafe_shutdown" Zähler hat sich auch um eins erhöht. Das passiert nicht, wenn ich im normalen Zustand "REISUB" oder "REISUO" ausführe, es ist somit ein eindeutiger Indikator für die Abstürze.

Code:

mart Log for NVME device:nvme2n1 namespace-id:ffffffff
critical_warning                        : 0
temperature                             : 46 °C (319 K)
available_spare                         : 100%
available_spare_threshold               : 10%
percentage_used                         : 0%
endurance group critical warning summary: 0
Data Units Read                         : 5978890 (3.06 TB)
Data Units Written                      : 8499731 (4.35 TB)
host_read_commands                      : 99867969
host_write_commands                     : 138567805
controller_busy_time                    : 778
power_cycles                            : 438
power_on_hours                          : 576
unsafe_shutdowns                        : 21
media_errors                            : 0
num_err_log_entries                     : 0
Warning Temperature Time                : 0
Critical Composite Temperature Time     : 0
Temperature Sensor 1           : 40 °C (313 K)
Temperature Sensor 2           : 52 °C (325 K)
Thermal Management T1 Trans Count       : 11
Thermal Management T2 Trans Count       : 0
Thermal Management T1 Total Time        : 139
Thermal Management T2 Total Time        : 0

Thelaggy · 29. Juli 2024

Im bios irgendwelche voltzahlen geändert? RAM, CPU Voltage zu niedrig kann auch zu sowas führen

Suche

SSD im Verdacht für Abstürze - Welche Diagnosemöglichkeiten habe ich?

Naphtor

Cadet 4th Year

Anhänge

cartridge_case

Fleet Admiral

Naphtor

Cadet 4th Year

cartridge_case

Fleet Admiral

Naphtor

Cadet 4th Year

Alexander2

Fleet Admiral

AMD-Flo

Captain Pro

Alexander2

Fleet Admiral

Naphtor

Cadet 4th Year

Alexander2

Fleet Admiral

Naphtor

Cadet 4th Year

DorMoordor

Lt. Junior Grade

Naphtor

Cadet 4th Year

Naphtor

Cadet 4th Year

Thelaggy

Cadet 4th Year

Passend zum Thema

Weitere Infos zur Crucial E100 Eine echte SSD-Wundertüte wie die Kingston NV3

Crucial E100 Update Diesen Controller nutzt die „heimliche“ Budget-SSD

SM8466 Silicon Motion arbeitet an erstem PCIe-6.0-SSD-Controller