SSD Fehlersuche

netzgestaltung

Captain
Registriert
Jan. 2020
Beiträge
3.595
Hi,

seit voriger Woche hab ich ein seltsames Verhalten mit meiner System-SSD(Samsung SSD 970 EVO Plus). Nach Updates war irgendwas gecrashed und der PC ließ sich nicht mehr starten. Die Meldung entsprach dem, dass die /home Partition /dev/nvme0n1p5 nicht gefunden werden konnte.

Hier kann man das im Detail anschauen: https://linuxconfig.org/welcome-to-emergency-mode-boot-error-understanding-and-resolving-fsck-issues

Ich hab da in das empfohlene journalctl -xb reingeschaut da ich im "Emergency Mode" eine Root Konsole hatte.
Gestorben war es an: fsck died with status code 4

Ich hab dann spontan einen live-stick gebootet und per "Gnome-Laufwerke" fsck check&repair auf der Partition durchgeführt.
Dann ließ er sich wieder starten.

Heute war der PC im Bildschirm-gesperrt Modus, keine laufenden Sachen abgesehn von Browser,Emails, etc pp. Als ich mich wieder hinsetzte, kam nichts. Kein Bild, kein Ton.
Neustart bracht mich wieder in den Emergency Modus, diesmal aber keine Root Konsole.

Also neuerlich Live-Stick gebootet und sowohl /home als auch / mit fsck behandelt.
Jetzt bin ich wieder da, frisches Backup läuft.

Wie solls jetzt weiter gehen?
SSD Defekt oder ist das ein anderes Thema?
Wie tausche ich eine M.2 SSD mit Datenübertragung?
Andere Ideen?

Ich denke und recherchiere natürlich auch weiter und gebe ggf Rückmeldung.

Verbaute Datenträger:
  • Samsung SSD 970 EVO Plus 500GB (1B2QEXM7) -> /boot/efi, /boot, swap, /, /home
  • WDC WD10EAVS-00D7B1 (01.01A01) -> untergeordnete Datengräber
  • WD Blue SA510 2.5 2TB (530309WD) -> untergeordnete Datengräber
System:
  • Ryzen 7 5800x3D
  • RX 6700XT
  • Asus B450Plus
  • SB-Z
  • Samsung Evo 970
  • 48GB Ram Mixed
  • Be Quiet PP11 500
  • Fedora Linux-Gnome/Wayland 39 Workstation
Bildschirmfoto vom 2024-04-07 23-58-44.png
 
Zuletzt bearbeitet:
Du hast bereits den ersten Ausfall ignoriert. Das ist oft ein böser Fehler.
Was sagen denn die Smart-Werte?
 
Ignoriert hab ich es nicht, aber meine Tage sind gut gefüllt.

Die wirklich wichtigen Sachen liegen auf der NAS, also ist es nicht ganz gestresst - hier gehts um die neuesten Emails und das Firefox Profil.
Ich warte jetzt erstmal das Backup ab, bevor ich da was dran teste.

DH vor Morgen werd ich kein Feedback geben können.
Gn8
Ergänzung ()

SATA Kabel ist leider nicht: https://geizhals.at/samsung-ssd-970-evo-plus-500gb-mz-v7s500bw-a1972733.html
 
Ja, schau mal nach den Smart-Werten. Die bekommst du auch in Gnomes "Laufwerke" da oben recht bei den drei Punkten. Überprüfe bei jeder Zeile, wo der "Wert" weder 0 noch "nicht verfügbar" ist, ob das so in Ordnung und die "Einschätzung" OK ist.
 
die Firmware ist nicht aktuell, die hat zwar kein Ziegelstein-Firmware wie die zweite Revision aber da kann sich ja auch ein zickiges fehlerchen eingeschlichen haben. Die 2er firmware wäre das passende update, nicht die 4er
 
Also das Backup hat ja eine Weile gebraucht...

Jedenfalls: SMART lässt sich nicht nutzen, ist ausgegraut(auch wenn eine andere Partition gewählt wurde), auch im Manjaro Live-Stick(schon etwas älter) war es ausgegraut wie hier zu sehen:

Bildschirmfoto vom 2024-04-09 08-39-29.png


Ich schaue gegen Mittag dann nach den Commandozeilenbefehlen dazu und wie ich ein Firmwareupdate machen kann.
Ergänzung ()

rgbs schrieb:
Aber nicht für NVMEs.
Da braucht man "smartmontools".
Ahja - Das war mal eine kurze "Recherche" - Danke :D
 
Bash:
user@localhost:~$ sudo smartctl -a /dev/nvme0
[sudo] Passwort für user:
sudo: smartctl: Befehl nicht gefunden
user@localhost:~$ sudo dnf install smartmontools
...
Fertig!
user@localhost:~$ sudo smartctl -a /dev/nvme0
smartctl 7.4 2023-08-01 r5530 [x86_64-linux-6.7.10-200.fc39.x86_64] (local build)
Copyright (C) 2002-23, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Samsung SSD 970 EVO Plus 500GB
Serial Number:                      xxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Firmware Version:                   1B2QEXM7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 500.107.862.016 [500 GB]
Unallocated NVM Capacity:           0
Controller ID:                      4
NVMe Version:                       1.3
Number of Namespaces:               1
Namespace 1 Size/Capacity:          500.107.862.016 [500 GB]
Namespace 1 Utilization:            219.789.901.824 [219 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 5191522a8b
Local Time is:                      Tue Apr  9 19:30:38 2024 CEST
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x03):         S/H_per_NS Cmd_Eff_Lg
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     85 Celsius
Critical Comp. Temp. Threshold:     85 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     7.80W       -        -    0  0  0  0        0       0
 1 +     6.00W       -        -    1  1  1  1        0       0
 2 +     3.40W       -        -    2  2  2  2        0       0
 3 -   0.0700W       -        -    3  3  3  3      210    1200
 4 -   0.0100W       -        -    4  4  4  4     2000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        46 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    2%
Data Units Read:                    13.205.410 [6,76 TB]
Data Units Written:                 50.528.721 [25,8 TB]
Host Read Commands:                 209.234.986
Host Write Commands:                1.123.121.030
Controller Busy Time:               5.276
Power Cycles:                       353
Power On Hours:                     9.291
Unsafe Shutdowns:                   101
Media and Data Integrity Errors:    0
Error Information Log Entries:      286
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               46 Celsius
Temperature Sensor 2:               58 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS  Message
  0        286     0  0x0018  0x4004      -            0     0     -  Invalid Field in Command

Self-test Log (NVMe Log 0x06)
Self-test status: No self-test in progress
No Self-tests Logged

Auf was soll ich achten?
 
Auch mal einen Memorytest machen, ob die Bytes auch da ankommen, wo sie hin sollen.
 
  • Gefällt mir
Reaktionen: netzgestaltung
netzgestaltung schrieb:
Auf was soll ich achten?
Wichtig ist:
netzgestaltung schrieb:
SMART overall-health self-assessment test result: PASSED
und
netzgestaltung schrieb:
Media and Data Integrity Errors: 0
Da ist so wie ich das sehe alles paletti.

Aber Du hast die 1er Firmware :
netzgestaltung schrieb:
Firmware Version: 1B2QEXM7
Es gibt ja von Samsung "Magician", aber nicht für Linux.
Für Ubuntu gibt es ein Snap "Firmware Updater", aber ob das funzt weis ich nicht.

Gruß
R.G.
 
  • Gefällt mir
Reaktionen: netzgestaltung
Die iso mit anderem Treiber hab ich schon mal an einer anderen SSD probiert. kenn mich aus, thx.
 
Also Danke schon mal für den Memtest-Tipp:

2024-04-22-01-39-41-455.jpg


2024-04-22-01-49-09-761.jpg


ich schau jetzt mal wie ich den "richtigen" Slot rausfinde.
 
  • Gefällt mir
Reaktionen: konkretor
Also nachdem ich die Corsair einen nach dem anderen ausgebaut habe, sind die fehler weg.
Ich hab jetzt die G.Skill in Slot 0 und 2 Eingebaut und es kamen diese Fehler nicht mehr.

Der PC wirkt nun auch mehr snappy und responsive - interessant.
Ich warte nun ob der Fehler nochmals auftritt.
 
Mit Spielzeug-RAM ist das nicht verwunderlich.
 
ja, was wolltest du jetzt eigentlich beitragen?
 
  • Gefällt mir
Reaktionen: rg88 und konkretor
Das es schon seit Jahrzehnten RAM-Riegel gibt die sich bezüglich Fehlern wesentlich besser verhalten.
 
Meinst du jetzt ECC oder was genau? Wie hilft mir das gerade weiter?
Ergänzung ()

und btw die sind ca aus 2016/17 gewesen, haben also schon einiges an Arbeitszeit hinter sich.
 
  • Gefällt mir
Reaktionen: rg88 und kieleich
Zurück
Oben