Synology - SMART-Werte der verbauten HDDs auslesen / analysieren

DHC

Lt. Commander
Registriert
Aug. 2013
Beiträge
1.578
Hallo zusammen,

ich hoffe es kann mir jemand bei einem aktuellen Problem helfen.

Seit gestern höre ich in gewissen Abständen Geräusche, verursacht durch eine HDD.
Ich hatte auch eine Meldung erhalten:

Die Anzahl fehlerhafter Sektoren auf Laufwerk 1 von DS920+ hat zugenommen. Wir empfehlen eine Datenbereinigung, um die Datenkonsistenz sicherzustellen. Wenn die Anzahl fehlerhafter Sektoren weiterhin zunimmt, lesen Sie diesen Artikel zur Fehlerbehebung.

Informationen zum Laufwerk
Hersteller: Seagate
Modell: ST8000NE0004-1ZF11G
Größe: 7.300000 TB
Seriennummer: ********
Firmware-Version: EN01
Zuordnungsrolle: Speicherpool 1


Für weitere Informationen melden Sie sich bei NAS an und öffnen Sie Speicher-Manager > HDD/SSD > Integritätsstatus.

Von NAS

Eine Datenbereinigung habe ich durchgeführt.

Ich habe bei der betroffenen HDD einen SMART- und IronWolf Health-Test laufen lassen.
Ohne Ergebnis. Anscheinend sei alles OK.

Als erstes habe ich noch mal ein doppeltes Backup aller Pools / Volumes gemacht.
Eine neue HDD habe ich auch schon bestellt.

Gibt es eine Möglichkeit die Festplatten auf anderen Wegen zu analysieren?
Zum Beispiel mit Terminal über SSH.
 
Skudrinka schrieb:
Da läuft doch n Linux drauf?!
Ja. Schon. Aber ich kann da ja nicht direkt mit Konsole arbeiten.
Zumindest weiß ich nicht wie.

Letztens habe ich zwei NVME als Volume eingebunden, was so nicht in DSM direkt geht.
Ich musste da ein Skript über Terminal (Putty) mit SSH ausführen.
Zumindest nach der Beschreibung aus GitHub, wo das Skript her kam.

Ich habe da einen Thread gefunden:
SMART-Werte auslesen und interpretieren

Ich kämpfe mich da gerade durch.

Das Ganze ist halt wohl nicht so einfach. So hat es den Anschein.
 
DHC schrieb:
Ich habe da einen Thread gefunden:
Ab DSM 7.2.1 hat Synology leider die Option zum Auslesen aus der UI verbannt
Wie kann man denn eine solche wichtige Funktion, in einer NAS bitte entfernen?

Zumindest normal über CLI ist es auszulesen.
Befehle sind ja angegeben.
Einfach SSH aktivieren, mit Putty drauf-schalten und eintippen :)
 
  • Gefällt mir
Reaktionen: conf_t und JumpingCat
Skudrinka schrieb:
Wie kann man denn eine solche wichtige Funktion, in einer NAS bitte entfernen?
Das frage ich mich auch.

Früher ging das ja mal.

Keine Ahnung, warum man das entfernt hat.

Ich habe halt alles, was nicht benötigt wird deaktiviert.
Nur das nötigste ist aktiv.

Mir bleibt dann wohl nur der Umweg über Terminal (Putty) und SSH.

Theoretisch sollte das auch über den Aufgabenplaner gehen.
Ergänzung ()

Code:
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME             FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate        0x000f   074   064   044    Pre-fail  Always       -       26254756
  3 Spin_Up_Time               0x0003   089   089   000    Pre-fail  Always       -       0
  4 Start_Stop_Count           0x0032   100   100   020    Old_age   Always       -       115
  5 Reallocated_Sector_Ct      0x0033   092   092   010    Pre-fail  Always       -       33261
  7 Seek_Error_Rate            0x000f   092   060   045    Pre-fail  Always       -       1453621099
  9 Power_On_Hours             0x0032   029   029   000    Old_age   Always       -       62574 (72 55 0)
 10 Spin_Retry_Count           0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count          0x0032   100   100   020    Old_age   Always       -       115
184 End-to-End_Error           0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect         0x0032   098   098   000    Old_age   Always       -       2
188 Command_Timeout            0x0032   100   088   000    Old_age   Always       -       107375820825
189 High_Fly_Writes            0x003a   099   099   000    Old_age   Always       -       1
190 Airflow_Temperature_Cel    0x0022   068   061   040    Old_age   Always       -       32 (Min/Max 23/32)
191 G-Sense_Error_Rate         0x0032   023   023   000    Old_age   Always       -       154494
192 Power-Off_Retract_Count    0x0032   100   100   000    Old_age   Always       -       36
193 Load_Cycle_Count           0x0032   099   099   000    Old_age   Always       -       2678
194 Temperature_Celsius        0x0022   032   040   000    Old_age   Always       -       32 (0 18 0 0 0)
195 Hardware_ECC_Recovered     0x001a   074   064   000    Old_age   Always       -       26254756
197 Current_Pending_Sector     0x0012   100   100   000    Old_age   Always       -       72
198 Offline_Uncorrectable      0x0010   100   100   000    Old_age   Offline      -       72
199 UDMA_CRC_Error_Count       0x003e   200   200   000    Old_age   Always       -       0
200 Pressure_Limit             0x0023   100   100   001    Pre-fail  Always       -       0
240 Head_Flying_Hours          0x0000   100   253   000    Old_age   Offline      -       60427h+29m+13.517s
241 Total_LBAs_Written         0x0000   100   253   000    Old_age   Offline      -       26843311742
242 Total_LBAs_Read            0x0000   100   253   000    Old_age   Offline      -       40618695248

Kann jemand etwas dazu sagen?
 
Zuletzt bearbeitet:
Komisch, meine einige konnten das noch unter 7.2.1, aber mit 7.2.2 ist das wirklich vorbei
 
Zuletzt bearbeitet:
DHC schrieb:
Kann jemand etwas dazu sagen?

KI sagt:
Hier eine Analyse der SMART-Daten, die du zur Verfügung gestellt hast:

  1. Raw_Read_Error_Rate (ID 1):
    • Wert: 26.254.756 (roh)
    • Normalisierter Wert: 74
    • Dieser Wert ist hoch, aber der normalisierte Wert von 74 zeigt an, dass der Fehlerstatus noch nicht kritisch ist. Es ist jedoch ratsam, die Festplatte regelmäßig zu überwachen, da eine hohe Anzahl von Lesefehlern auf zukünftige Probleme hinweisen könnte.
  2. Reallocated_Sector_Ct (ID 5):
    • Wert: 33.261 (roh)
    • Normalisierter Wert: 92
    • Eine große Anzahl an reallokierten Sektoren (33.261) ist ein Warnsignal. Reallokierte Sektoren bedeuten, dass die Festplatte fehlerhafte Sektoren ersetzt hat, was auf beginnende physische Schäden hindeuten kann. Hier solltest du die Festplatte weiterhin im Auge behalten, da ein hoher Wert ein Hinweis auf bevorstehenden Ausfall sein könnte.
  3. Seek_Error_Rate (ID 7):
    • Wert: 1.453.621.099 (roh)
    • Normalisierter Wert: 92
    • Der Wert ist extrem hoch, aber der normalisierte Wert ist immer noch akzeptabel (92). Hohe Rohwerte können auf mechanische Probleme hindeuten, aber die Festplatte scheint bisher keine direkten Auswirkungen auf die Leistung zu haben.
  4. Power_On_Hours (ID 9):
    • Wert: 62.574 Stunden (ca. 7 Jahre)
    • Die Festplatte hat eine beträchtliche Betriebszeit hinter sich. Diese Zahl ist nicht unbedingt ein Problem, aber sie zeigt, dass die Festplatte bereits eine lange Lebensdauer hat.
  5. Current_Pending_Sector (ID 197) und Offline_Uncorrectable (ID 198):
    • Wert: 72 (Pending Sektoren)
    • Wert: 72 (Offline unkorrekte Sektoren)
    • Es gibt 72 Sektoren, die noch nicht neu zugewiesen wurden (Pending) und 72 Sektoren, die nicht repariert werden konnten (Offline Unkorrekte). Dies ist ein besorgniserregender Wert, da diese Sektoren möglicherweise nicht mehr lesbar sind und zu Datenverlust führen könnten. Du solltest regelmäßig Backups durchführen und die Festplatte beobachten.
  6. Temperatur:
    • Airflow_Temperature_Cel (ID 190): 32 °C (Max/Min 23/32)
    • Temperature_Celsius (ID 194): 32 °C
    • Die Temperaturen der Festplatte liegen im normalen Bereich. Eine Temperatur von etwa 32 °C ist gut und zeigt an, dass die Festplatte gut gekühlt wird.
  7. Weitere wichtige Werte:
    • UDMA_CRC_Error_Count (ID 199): Keine Fehler, was gut ist.
    • Head_Flying_Hours (ID 240): 60.427 Stunden, was auf eine lange Betriebszeit der Festplatte hinweist.

Zusammenfassung:​

Die Festplatte zeigt einige Anzeichen von Problemen, insbesondere aufgrund der hohen Anzahl an reallokierten Sektoren und Pending/Unkorrekten Sektoren. Die Raw_Read_Error_Rate und Seek_Error_Rate sind ebenfalls relativ hoch, was potenziell auf mechanische Probleme hinweist. Es wäre ratsam, regelmäßig Backups zu machen und die Festplatte genau zu überwachen. Wenn der Wert für reallokierte Sektoren oder unkorrekte Sektoren weiter ansteigt, solltest du ernsthaft über den Austausch der Festplatte nachdenken.
Ergänzung ()

Lt. KI kannste die in die Tonne kloppen - um es kurz zu fassen :)
 
Skudrinka schrieb:
Lt. KI kannste die in die Tonne kloppen - um es kurz zu fassen :)
Deshalb habe ich vorsorglich schon eine neue bestellt und nochmal zwei Backups gemacht.
Das NAS ist nun aus und bleibt es auch, bis die neue HDD da ist.

Die HDD ist über sieben Jahre alt. Wie die zweite (RAID 1).
Mal schauen, wann die die Grätsche macht.

Weitere zwei HDDs sind neuer. Haben aber auch schon über drei Jahre auf dem Buckel.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: JumpingCat
Zur Info.

Neue HDD ist da und eingebaut.
Reparatur und Datenbereinigung durchgeführt.
Alles bestens.

Damit ich nicht jedes Mal Klimmzüge über Terminal (SSH) machen muss, habe ich nach der Anleitung aus dem Synology-Forum im Aufgabenplaner eine nicht aktivierte Aufgabe mit einem Skript erstellt, dass mir die Protokolle in einem Ordner ablegt.
So kann ich in aller Ruhe die Daten anschauen.
Aktuell sind alle vier HDDs, gemäß ihren S.M.A.R.T.-Werten OK.
 
Ab DSM 7.2.1 hat Synology leider die Option zum Auslesen aus der UI verbannt
Skudrinka schrieb:
Wie kann man denn eine solche wichtige Funktion, in einer NAS bitte entfernen?

conf_t schrieb:
Komisch, meine einige konnten das noch unter 7.2.1, aber mit 7.2.2 ist das wirklich vorbei

Komisch, DS118 mit DSM 7.2.2-72806 Update 3:

screenshot_2025_02_17_04-27-44-Nr_01.jpg


Das war jetzt der Schnelltest:
screenshot_2025_02_17_04-35-25-Nr_01.jpg


Den ausführlichen mache ich jetzt nicht, dauert zu lange. ;)

screenshot_2025_02_17_04-35-51-Nr_01.jpg
 
  • Gefällt mir
Reaktionen: JumpingCat und Skudrinka
Ah, ok. Danke für die Info
 
Skudrinka schrieb:
Bitte poste diesen KI-Dreck nicht mehr auf CB.

Für 01 Lesefehler und 07 Suchfehler gibt diese "KI" Fehler an die schlicht NICHT existieren, sowohl die Such als auch die Lesefehler sind bei exakt 0.
 
  • Gefällt mir
Reaktionen: Banned
Die G-Sense-Error-Rate zeigt, dass die HDD Erschütterungen ausgesetzt war. Aufgrund von 197 und 198 sollte sie ausgetauscht werden. Datenverlust hat es evtl. gegeben.
 
Inzersdorfer schrieb:
sowohl die Such als auch die Lesefehler sind bei exakt 0.

Die "KI" schnallt es offensichtlich nicht, das es sich um Seagate Platten handelt und deren Besonderheit bei diesen zwei(?) Attributen.
Wurde alleine hier vemutlich zigmal durchgekaut 🥱

DHC schrieb:
187 Reported_Uncorrect 0x0032 098 098 000 Old_age Always - 2
188 Command_Timeout 0x0032 100 088 000 Old_age Always - 107375820825
Angesichts der reallocated sectors nicht verwunderlich, aber diese zwei Attribute hat die KI auch gleich unter den Tisch fallen lassen
 
Tja, sich mit unwissenden Usern (oder schlimmer: mit ignoranten) herumschlagen ist ja o.k., aber dann auch noch mit phantasierenden "KI's" da hört der Spaß auf, um es mit Helfried zu sagen: 'Davon halte ich nichts, das lehne ich ab'.
 
Banned schrieb:
Die G-Sense-Error-Rate zeigt, dass die HDD Erschütterungen ausgesetzt war. Aufgrund von 197 und 198 sollte sie ausgetauscht werden. Datenverlust hat es evtl. gegeben.
Ich wüsste nicht, das es Erschütterungen gab.
Wenn, dann könnten es mal kleinere Erdbeben gewesen sein.
Die gibt es bei uns immer wieder mal.

Wie gesagt wurde die HDD nun ausgetauscht.
Um die alte (evtl. defekte) genauer analysieren zu können, habe ich mir eine Docking-Station geholt, um diverse Tools nutzen zu können, die im NAS (Synology) so direkt und einfach nicht zu nutzen sind.

Fusionator schrieb:
Angesichts der reallocated sectors nicht verwunderlich, aber diese zwei Attribute hat die KI auch gleich unter den Tisch fallen lassen

Inzersdorfer schrieb:
Tja, sich mit unwissenden Usern
Für mich sind all diese Werte "bömische Dörfer".
Man liest da zwar einen Text / Bezeichnung.
Aber dann gibt es ja da die verschiedenen Werte (Aktuell / Schlechtester / Grenzwert / Rohwert).
Gerade die Rohwerte können sehr hohe Werte haben.
Was das nun bedeutet. Da muss man halt nachfragen.
Im Wikipedia findet man zwar einen Artikel zu S.M.A.R.T.-Werten.
Aber was bedeuten die nun.
Sind sie kritisch oder nicht.

Das NAS hatte mir kürzlich eine E-Mail geschickt, dass Laufwerk 1 beobachtet werden sollte.
Im Speicher Manager bei den Smart-Infos stand "In Ordnung".
Was denn nun? Gibt es Probleme oder nicht?

Auf jeden Fall ist mir aufgefallen, das die HDD in regelmäßigen Abständen komisch Zugriffsgeräusche gemacht hat.
Also keine ungewöhnlichen Kratzgeräusche oder ähnlich.
Alle ca. 5 - 10 Minuten hörte man komische andauernde Zugriffsgeräusche für ca. 5 bis 10 Sekunden.
Dann war wieder Pause und das wiederholte sich dann.

Nun hört sich alles wieder so an, wie früher, als noch alles in Ordnung war.
Die meiste Zeit ist Ruhe. Ab und zu gibt es kurze Zugriffsgeräusche.
So kenne ich das.

Die HDDs kosten ja keine 2 Mark 50.
Da fragt man lieber nach, bevor man das Geld zum Fenster raus wirft oder noch schlimmer Daten verliert.
Zur Entwarnung.
Alle drei Volumes sind gespiegelt (RAID 1) und jeweils zwei Backups gibt es auch.
 
Zuletzt bearbeitet:
Interessant finde ich die recht hohen Rohwerte der "nagelneuen" HDD der IDs 1 und 7.
Was auch immer diese Werte bedeuten.

Code:
Drive /dev/sata3:

=== START OF INFORMATION SECTION ===
Device Model:     ST8000NT001-3LZ101
Firmware Version: EN01
User Capacity:    8,001,563,222,016 bytes [8.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   Unknown(0x0fe0) (minor revision not indicated)
SATA Version is:  SATA >3.2 (0x1ff), 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Feb 16 02:54:22 2025 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Error Log Version: 1
No Errors Logged

 ID  | Attribute                         | (1) | (2) | (3) | (4)
=====|===================================|=====|=====|=====|===================
 1   | Raw_Read_Error_Rate               | 083 | 064 | 044 | 180515966 <!
 3   | Spin_Up_Time                      | 099 | 099 | 000 | 0 <!
 4   | Start_Stop_Count                  | 100 | 100 | 020 | 1   
 5   | Reallocated_Sector_Ct             | 100 | 100 | 010 | 0 <!
 7   | Seek_Error_Rate                   | 062 | 060 | 045 | 1509159 <!
 9   | Power_On_Hours                    | 100 | 100 | 000 | 33   
 10  | Spin_Retry_Count                  | 100 | 100 | 097 | 0 <!
 12  | Power_Cycle_Count                 | 100 | 100 | 020 | 1   
 18  | Unknown_Attribute                 | 100 | 100 | 050 | 0 <!
 187 | Reported_Uncorrect                | 100 | 100 | 000 | 0   
 188 | Command_Timeout                   | 100 | 100 | 000 | 0   
 190 | Airflow_Temperature_Cel           | 065 | 060 | 000 | 35   
 192 | Power-Off_Retract_Count           | 100 | 100 | 000 | 1   
 193 | Load_Cycle_Count                  | 100 | 100 | 000 | 2   
 194 | Temperature_Celsius               | 035 | 040 | 000 | 35   
 197 | Current_Pending_Sector            | 100 | 100 | 000 | 0   
 198 | Offline_Uncorrectable             | 100 | 100 | 000 | 0   
 199 | UDMA_CRC_Error_Count              | 200 | 200 | 000 | 0   
 240 | Head_Flying_Hours                 | 100 | 100 | 000 | 33   
 241 | Total_LBAs_Written                | 100 | 253 | 000 | 3053573334   
 242 | Total_LBAs_Read                   | 100 | 253 | 000 | 2996376292   

 (1) Value, (2) Worst, (3) Threshold, (4) Raw, <! Pre-fail value
-------------------------------------------------------------------------------
 
01 zeigt hier nur die Anzahl der Lesevorgänge (letzte 8 Stellen des hexadezimalen Rohwertes, hier 0000 0AC2 747E = 180.515.966 dez, Fehler würden in den ersten 4 Stellen stehen), allerdings erscheint mir das für 33 Betriebsstunden zu hoch.

Einmal mit Seatools oder smartmontools ab Version 7.4 die FARM Werte auslesen.

Mit smartmontools:
In die Befehlszeile zur Prüfung folgender Code eingegeben

smartctl -l farm /dev/sda

(Das „a“ (sda) steht für die 1. HDD, „b“ (sdb) für die 2., „c“ (sdc) für die 3. usw.)
 

Ähnliche Themen

Zurück
Oben