SSD im Verdacht für Abstürze - Welche Diagnosemöglichkeiten habe ich?

Naphtor

Cadet 4th Year
Registriert
Dez. 2012
Beiträge
98
Hallo in die Runde,

ich habe seit einiger Zeit das Problem, dass Manjaro unregelmäßig mitten im Betrieb einfriert. Als Ursache habe ich die SSD in Verdacht, da nach einem Neustart ("REISUB") die SSD nicht erkannt wird und ich erst das System vom Strom nehmen muss, damit es wieder funktioniert. Als SSD nutze ich eine "SK Hynix Platinum P41 2TB", auf welcher Manjaro und meine gesamten Daten in mehreren Partitionen liegen. Die SSD ist im dritten Slot meines Mainboards (ASRock B650M Pro RS WiFi) installiert und zusätzlich mit einer Kupferplatte versehen. Die Temperatur im normalen Desktop-Betrieb liegt bei 43 °C. Falls relevant, meine restlichen Systemkomponenten sind hier zu finden. Ich nutze den dritten Slot, da in den beiden anderen meine Festplatten für Windows verbaut sind, ich nutze das System im Dualboot.
Anhand der auftretenden Fehlermeldungen hatte ich etwas gesucht und viele Einträge gefunden, dass die Stromsparmechanismen deaktiviert werden sollten. Ich habe daher in Grub den folgenden Befehl eingetragen:
Bash:
nvme_core.default_ps_max_latency_us=0

Leider scheint das nicht geholfen zu haben. Wie könnte ich herausfinden, ob es an der SSD liegt? Das Mainboard habe ich noch nicht im Verdacht, da bei einem Neustart automatisch der Boot in Windows erfolgt und nur die Manjaro-SSD nicht erkannt wird, die beiden anderen SSDs sind voll funktionsfähig.

Für Tipps und Hinweise bin ich sehr dankbar!

(Daten sind nicht in Gefahr, die sind lokal vom NAS gespiegelt und private Daten liegen verschlüsselt auf VeraCrypt-Partitionen).
 

Anhänge

  • SSD_error1.jpeg
    SSD_error1.jpeg
    313,3 KB · Aufrufe: 86
Die anderen SSDs sind ja nicht leer... Da bestelle ich mir lieber eine neue SSD und teste das damit. Ich hatte nur gehofft, ob es im Vorfeld noch etwas weiteres gibt zum Diagnostizieren. Außerdem ist die SSD hinter der GPU verbaut, das System ist so klein und auf Kante vom Platz her, der Wechsel dauert ne halbe Ewigkeit...

Die SMART-Werte sind soweit unauffällig, die unsafe shutdowns stammen vermutlich von den anfängen, als ich das System hart vom Strom genommen hatte, ohne vorher "REISUB" durchzuführen...

Bash:
Smart Log for NVME device:nvme1n1 namespace-id:ffffffff
critical_warning                        : 0
temperature                             : 43 °C (316 K)
available_spare                         : 100%
available_spare_threshold               : 10%
percentage_used                         : 0%
endurance group critical warning summary: 0
Data Units Read                         : 4419790 (2.26 TB)
Data Units Written                      : 7653591 (3.92 TB)
host_read_commands                      : 34680632
host_write_commands                     : 94870535
controller_busy_time                    : 758
power_cycles                            : 432
power_on_hours                          : 571
unsafe_shutdowns                        : 20
media_errors                            : 0
num_err_log_entries                     : 0
Warning Temperature Time                : 0
Critical Composite Temperature Time     : 0
Temperature Sensor 1           : 37 °C (310 K)
Temperature Sensor 2           : 42 °C (315 K)
Thermal Management T1 Trans Count       : 11
Thermal Management T2 Trans Count       : 0
Thermal Management T1 Total Time        : 139
Thermal Management T2 Total Time        : 0
 
Welche sonstigen Rechnerbestandteile gibt es denn noch? es könnte tatsächlich noch eine Option für die Fehlerquelle geben, wenn wegen Daten fehler geworfen wird.
 
Die kannst die SSD gezielt stressen, z.B. eine große Menge Daten schreiben, dann sollte sie reproduzierbar aussteigen. Wenn du die SSD an einem 2. Rechner als zusätzlichen Datenträger anschließt, kannst du den gleichen Test machen. Dann sollte sich nur die SSD verabschieden, nicht der ganze Rechner.

Auf jeden Fall zuerst die wichtigsten Daten von der SSD sichern, bevor sie komplett hinüber ist.
 
Es könnte sogar daran liegen, das eventuell die CPU/dessen Kühlkörper zu fest angezogen ist. Der Gedanke dahinter ist, das die Verbindungen bis in die CPU direkt gehen für die NVME und die müssen ja über die Pins im LGA Sockel gehen. Da gibt es immer mal wieder Fälle von Schlechten/keinem Kontakt bei eben zu viel Anpressdruck.

Wenn sonst kein Fehler direkt gefunden wird, der es sein könnte, dann wäre das auch eine stelle mal das zu checken.
 
Alexander2 schrieb:
Welche sonstigen Rechnerbestandteile gibt es denn noch?
CPU: AMD Ryzen 9 7900X (delidded, AM5 High Performance Heatspreader, Flüssigmetall-WLP, @ 130W)
Kühler: Thermalright Phantom Spirit 120 SE
MB: ASRock B650M Pro RS WiFi
RAM: Corsair Vengeance RGB, 64GB, @DDR5-6000 CL30-36-36-80
GPU: MSI RTX 4080 Ventus 3X E OC, CableMod 12VHPWR 90 Degree Seasonic Cable (Variante B) @ 230W
SSD: Crucial P5 Plus 1TB, Crucial P5 Plus 2TB, SK hynix P41 2TB
NT: Seasonic Focus GX 750W ATX 2.4
Lüfter: 2x Arctic P12 PWM PST A-RGB unten, 2x Jonsbo HF1215 RGB oben (Der Abstand zu den NT-Schrauben ist wirklich sehr knapp)

Ich muss mich zu oben korrigeren: Auf der Hynix-SSD ist Manjaro inkl. der home-Partition. Von den anderen beiden SSDs binde ich die VeraCrypt-Partitionen mit den Daten ein.

Alexander2 schrieb:
Es könnte sogar daran liegen, das eventuell die CPU/dessen Kühlkörper zu fest angezogen ist.
Es verabschiedet sich jedoch immer nur die Hynix-SSD, die beiden Crucials machen keine Probleme. Könnte das so selektiv sein? Das ist aber ein guter Punkt, die CPU ist geköpft und mit dem derbauer Heatspreader versehen. Ich habe dafür die Abstandshalter vom CPU-Kühler leicht modifiziert, um den Höhenunterschied auszugleichen. Es sollte alles passen von den Höhen aber Fehler passieren schnell... Unter Windows hatte ich jedoch noch keinen Absturz und das System nutze ich häufiger.

AMD-Flo schrieb:
Die kannst die SSD gezielt stressen
Das teste ich gleich mal und berichte, falls sich was zeigt. Wie gesagt, ausbauen würde ich erst am Ende, da ich dafür den PC halb zerlegen muss...
 
Naphtor schrieb:
Könnte das so selektiv sein?
Kann ich dir leider auch nicht genau sagen. Ich halte es zumindest für eine mögliche Fehlerquelle. Würde dem aber auch erst so ziemlich als letztes nachgehen.
 
Bisher haben diverse Benchmark-Tests die SSD nicht zum Abstürzen gebracht (KDiskMark und fio). Ich vermute daran liegt es nicht, da die Abstürze beim normalen Browsen auftreten und das bisher nicht reproduzierbar / ohne Muster.
 
  • Gefällt mir
Reaktionen: cartridge_case
Welcher Kernel wird denn genutzt? Ich hatte mal was ähnliches mit Kernel 6.1(?). Der hatte Probleme mit meiner CPU. Da die SSD direkt an der CPU hängt könnte es auch damit zusammen hängen.

Oder mal in einem anderen Port versuchen? Ich weiß Umbau dauert ewig... Vielleicht liegts am Port
 
DorMoordor schrieb:
Welcher Kernel wird denn genutzt?
Ich nutze den Kernel 6.6.40-1. Ich denke morgen wird die SSD mal in einen anderen Slot gesetzt. Einer ist prinzipiell ohne große Umbauten erreichbar, den werde ich dann nutzen. So könnte ich auch testweise eine andere SSD einbauen, um einen Hardwaredefekt auszuschließen.
 
  • Gefällt mir
Reaktionen: Alexander2
So, ich habe heute die Slotbelegung der SSDs gewechselt. Die Hynix-SSD war im Slot 1 (PCIe 4.0 x4), die Windows-SSD im Slot 0 (PCIe 5.0 x4). Jetzt ist die Hynix-SSD direkt an die CPU angebunden.

Von den SMART-Werten hat sich nichts getan, es gab zwischenzeitlich aber auch keinen weiteren Absturz.
Code:
Smart Log for NVME device:nvme2n1 namespace-id:ffffffff
critical_warning                        : 0
temperature                             : 39 °C (312 K)
available_spare                         : 100%
available_spare_threshold               : 10%
percentage_used                         : 0%
endurance group critical warning summary: 0
Data Units Read                         : 5536754 (2.83 TB)
Data Units Written                      : 8467342 (4.34 TB)
host_read_commands                      : 97159641
host_write_commands                     : 137628412
controller_busy_time                    : 776
power_cycles                            : 436
power_on_hours                          : 576
unsafe_shutdowns                        : 20
media_errors                            : 0
num_err_log_entries                     : 0
Warning Temperature Time                : 0
Critical Composite Temperature Time     : 0
Temperature Sensor 1           : 33 °C (306 K)
Temperature Sensor 2           : 38 °C (311 K)
Thermal Management T1 Trans Count       : 11
Thermal Management T2 Trans Count       : 0
Thermal Management T1 Total Time        : 139
Thermal Management T2 Total Time        : 0

Mal schauen, wie sich das System damit verhält :)
Ergänzung ()

Das lies nun leider nicht lange auf sich warten - das System ist gerade wieder eingefroren. Es liegt somit leider nicht am M2-Slot. Der "unsafe_shutdown" Zähler hat sich auch um eins erhöht. Das passiert nicht, wenn ich im normalen Zustand "REISUB" oder "REISUO" ausführe, es ist somit ein eindeutiger Indikator für die Abstürze.
Code:
mart Log for NVME device:nvme2n1 namespace-id:ffffffff
critical_warning                        : 0
temperature                             : 46 °C (319 K)
available_spare                         : 100%
available_spare_threshold               : 10%
percentage_used                         : 0%
endurance group critical warning summary: 0
Data Units Read                         : 5978890 (3.06 TB)
Data Units Written                      : 8499731 (4.35 TB)
host_read_commands                      : 99867969
host_write_commands                     : 138567805
controller_busy_time                    : 778
power_cycles                            : 438
power_on_hours                          : 576
unsafe_shutdowns                        : 21
media_errors                            : 0
num_err_log_entries                     : 0
Warning Temperature Time                : 0
Critical Composite Temperature Time     : 0
Temperature Sensor 1           : 40 °C (313 K)
Temperature Sensor 2           : 52 °C (325 K)
Thermal Management T1 Trans Count       : 11
Thermal Management T2 Trans Count       : 0
Thermal Management T1 Total Time        : 139
Thermal Management T2 Total Time        : 0
 
Zuletzt bearbeitet:
Im bios irgendwelche voltzahlen geändert? RAM, CPU Voltage zu niedrig kann auch zu sowas führen
 
Zurück
Oben