[Sammelthread] HDD-Probleme, SMART-Analysen

@AMDHippster: die WD2002FYPS ist eine überarbeitete WD20EADS Caviar Green, die 5400 rpm sind korrekt.
Der aktuelle Wert der Schreibfehlerrate steht bei optimalen 200, d.h. ist soweit in Ordnung.
Fehler im Filesystem und manche Hardwaredefekte können mittels SMART nicht erkannt werden.
 
Guten Abend liebe Forengemeinde,

ich habe ein Problem mit meiner Festplatte und hoffe auf eure Ratschläge.
Gestern Abend "frohr" mein ganzer Laptop plötzlich ein und nachdem sich mehrer Minuten nichts getan hatte habe ich ihn per lange Drücken des Resetschalters hart vom Strom getrennt.

Das Hochfahren dauerte dann zunächst ewig bis eine automatische Prüfung und Reperatur der Festplatte (C:\) eingeitet wurde, die aber bei 12% fast ne Stunde hängen bliebt.
Also nochmal lange den Resetknopf gedrückt...

Beim erneuten Hochfahren kam dann die Meldung, das alle Laufwerke geprüft und repariert werden, ohne eine Fortschrittsanzeige oder so. Nach etwa 10 min starte Windwos dann ganz normal.
Ich habe bevor ich irgendetwas anderes gemacht habe alle wichtige Daten auf eine externe Festplatte gesichert und anschließend HD-Tune 2.55 angeworfen und Crystal Disk Info 7.5.0 mit folgendem Ergebnis (352 Pending Sectors; 0,3% Damaged Blocks):

HDTunes 1.PNGCrystal Disk Info 1.PNG

Der Rechner wurde in der Zwischenzeit zwei Mal hoch und wieder runtergefahren und normal benutzt. Ich habe mir eingebildet, dass er manchmal hackt, aber kaum merklich. Die Diagnoseprogramme spucken mittlerweile folgende Parameter aus (272 Pending Sectos; 0,1 % Damaged Blocks):

Crystal Disk Info 2.PNGHDTunes 2.PNG

Ich habe jetzt ein paar Fragen:

1. Kann ich etwas tun um das Problem zu beseitigen ohne die Festplatte neu zu überschreiben? Aus verschiedenen Gründen muss ich unbedingt noch 3-4 Monate mit dem Rechner und der Festplatte so wie arbeiten wie er jetzt ist.

2. Meint ihr, dass die Festplatte ohne weitere Maßnahmen noch 3-4 Monate durchhält?

3. Darf ich den Laptop noch bewegen oder sollte ich ihn besser an Ort und Stelle stehen lassen und nicht mehr mit mir rumschleppen?

4. Könnte eine Datensicherung in eine Cloud durch die Probleme der Festplatte beeinträchtigt werden?

Schonmal vorab vielen Lieben Dank für eure Hilfe!

Viele Grüße,

Calmgore
 
Die Platte hatte vorher 0x150 = 336 Schwebende Sektoren und hat noch 0x110 = 272. Schwebende Sektoren sind Sektoren deren Daten nicht mehr zur ECC passen die hinter jedem Sektor steht und mit deren Hilfe auch nicht mehr korrigiert werden können. Da die korrekten Daten nicht mehr feststellbar sind, gibt die Platte statt falscher Daten einen Lesefehler als Antwort wenn man versucht diese zu lesen. Das kann auch anderen Gründe als defekte Oberflächen haben, z.B. einen Stromausfall während eines Schreibvorgang der dazu führt, dass eben nicht die ganze Daten plus der neuen ECC geschrieben wurden oder wegen eines Stoßes oder Vibrationen ist der Kopf beim Schreiben aus der Spur gekommen und hat Daten auf der Nachbarspur überschrieben. Auch arbeiten HDDs nicht 100%ig und die Hersteller geben die Fehlerhäufigkeit auch in Form der UBER an, wobei eine UBER von 1:10^14 bedeutet, dass je 10^14 gelesener Bits was etwa 12TB gelesener Daten entspricht, ein Lesefehler und damit schwebender Sektor im Rahmen der Erwartungen liegt. So viele liegen aber außerhalb des Normalbereiches und hierfür dürften auch zu harte Stöße / Vibrationen, der G-Sensors zeigt mit 0x43 = 67 Auslösungen an das es davom im Betrieb einige gab, mit verantwortlich sein.

HDDs sind halt empfindlich und von HGST gibt es dieses Video über die Empfindlichkeit und korrekt Handhabung von HDDs, mit dem Empfehlung wie die Umgebung aussehen sollte auf denen mit HDDs gearbeitet wird und sie weisen darauf hin, dass die Schäden sich auch erst später bemerkbar machen können.

Die Controller der Platten merken sich die schwebenden Sektoren und prüfen die Daten nach dem erneuten Schreiben auf diese Sektoren, dann verschwinden diese einfach oder werden eben durch Reservesektoren ersetzt. Dies ist hier nicht bisher passiert, die Oberfläche scheint also nicht defekt zu sein.
 
Hallo,

ich betreibe ein NAS (openmediavault) im Raid6. Gerade habe ich mich nochmal in die GUI eingelogt. Zwei Festplatten zeigen einen Smart-Fehler an. Da momentan das Geld etwas knapp ist, würde ich zur Sicherheit gerne eine der Platten austauschen. Kann mir bitte jemand bei der Auswahl helfen? Oder sind die Fehler gar nicht so gravierend? Vielen Dank im Voraus.

Platte Nr. 1 (WDC WD40EFRX-68W)
Code:
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       1254
  3 Spin_Up_Time            0x0027   176   175   021    Pre-fail  Always       -       8166
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       79
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   068   068   000    Old_age   Always       -       23368
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       22
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       14
193 Load_Cycle_Count        0x0032   193   193   000    Old_age   Always       -       21279
194 Temperature_Celsius     0x0022   114   099   000    Old_age   Always       -       38
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       15
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       49

Platte Nr.2 (WDC WD40EFRX-68W)
Code:
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       37
  3 Spin_Up_Time            0x0027   222   176   021    Pre-fail  Always       -       5891
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       78
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   068   068   000    Old_age   Always       -       23367
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       22
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       14
193 Load_Cycle_Count        0x0032   196   196   000    Old_age   Always       -       13450
194 Temperature_Celsius     0x0022   115   103   000    Old_age   Always       -       37
196 Reallocated_Event_Count 0x0032   199   199   000    Old_age   Always       -       1
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0
 
Zuletzt bearbeitet:
Das ist schwer zu sagen, welches Modelle sind das überhaupt? Wenn ich solche Werte bei über 23.000 Betriebsstunden sehe, dann fürchte ich sind es keine geeigneten HDDs für diesen Einsatz mit Zulassung für den Dauerbetrieb. Die Nr. 1 oben hat 15 schwebende Sektoren, diese sollten HDDs in einem RAID nie haben, entweder wurde lange kein Scrubbing mehr gemacht, oder die ist schon aus dem RAID geflogen. Dazu hat sie auch Schreibfehler. Die Nr.2 hat einen wiederzugewiesenen Sektor, aber keinen schwebenden, die dürfte noch nicht erst kürzlich aus dem RAID geflogen sein. Ich würde Nr. 1 ersetzen, wenn nur Geld für eine vorhanden ist.

Bedenken aber, dass RAIDs keine Backups ersetzen und Daten alleine auf einem NAS nicht sicher sind! Zumindest von den die Du wirklich nicht verlieren willst, solltest Du spätestens jetzt ein Backup anlegen, wenn Du noch keines hast.
 
Hallo Holt,

danke für die Unterstützung. Beide Fetsplatten sind WDC WD40EFRX-68W. Ich habe es gerade oben auch ergänzt.
Noch scheinen alle Platten im Raid zu laufen(falls ich das richtig deute). Aber ein bisschen Sorgen mache ich mir schon. Die Wichtigsten Daten sind auch nochmal gebackupt. Aber es wäre schon ärgerlich wenn das NAS ausfällt.

Code:
root@nas:~# mdadm -D /dev/md0
/dev/md0:
        Version : 1.2
  Creation Time : Tue May 17 12:46:45 2016
     Raid Level : raid6
     Array Size : 15627548672 (14903.59 GiB 16002.61 GB)
  Used Dev Size : 3906887168 (3725.90 GiB 4000.65 GB)
   Raid Devices : 6
  Total Devices : 6
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Dec 17 17:46:46 2017
          State : clean
 Active Devices : 6
Working Devices : 6
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 512K

           Name : nas:0  (local to host nas)
           UUID : 1a421ab2:2c0d85c7:8c535973:615e15db
         Events : 12071

    Number   Major   Minor   RaidDevice State
       0       8        0        0      active sync   /dev/sda
       1       8       16        1      active sync   /dev/sdb
       2       8       32        2      active sync   /dev/sdc
       3       8       48        3      active sync   /dev/sdd
       4       8       64        4      active sync   /dev/sde
       5       8       80        5      active sync   /dev/sdf
 
Das RAID sieht noch heil aus, schau auch noch mal den output von cat /proc/mdstat, da sollte [6/6] [UUUUUU] stehen. Das die Red in dem Alter von nicht mal 3 Jahren schon anfängt Probleme zu machen, ist allerdings nicht so toll. Wurde sie vielleicht nicht gut behandelt, z.B. schlecht verpackt auf die Reise geschickt?

Von HGST gibt es dieses Video über die Empfindlichkeit und korrekt Handhabung von HDDs, mit dem Empfehlung wie die Umgebung aussehen sollte auf denen mit HDDs gearbeitet wird und sie weisen darauf hin, dass die Schäden sich auch erst später bemerkbar machen können.
 
Code:
root@nas:~# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid6 sda[0] sdf[5] sde[4] sdd[3] sdc[2] sdb[1]
      15627548672 blocks super 1.2 level 6, 512k chunk, algorithm 2 [6/6] [UUUUUU]
      bitmap: 0/30 pages [0KB], 65536KB chunk

Das sieht auch noch gut aus. Wenn die Festplatten nicht gut behandelt wurden, dann von dem Paketboten oder von dem lokalen Computerhandel. Mein Server steht seit 3 Jahren ohne bewegt worden zu sein in einem kleinen Raum. Die Seitenblende von dem Gehäuse ist permanent offen. Zu warm kann da also nichts geworden sein und Vibrationen bekommen die Platten dort auch nicht ab. Ich weiß ja jetzt wonach ich gucken muss. Ich beobachte erstmal weiter. Vielen Dank für die Hilfe.
 
Ich habe eben entdeckt, dass ich noch Smartdaten von September 2016 habe. Damals wollte ich auch beobachten, habe es dann aber komplett vergessen. :( Zu meinem Glück sind die Werte bei Festplatte 2 weitestgehend gleich geblieben.
Also denke ich, das ich mir hier keine Sorgen machen muss.

Jetzt zu Festplatte Nr.1:

Raw_Read_Error_Rate 250 (SEP 2016) --- 1254 (DEZ 2017) -->schlechter
Current_Pending_Sector 18 (SEP 2016) --- 15 (DEZ 2017) -->besser
Offline_Uncorrectable 5 (SEP 2016) --- 0 (DEZ 2017) --> besser
Multi_Zone_Error_Rate 70 (SEP 2016) --- 49 (DEZ 2017) -->besser

Das einzige was sich verschlechtert hat sind die Lesefehler. Kann ich davon ausgehen, dass die Platte noch in Ordnung ist, oder ist der Anstieg von 1000 Stück in einem Jahr zu hoch?

Ich habe bereits eine neue Platte hier, die gerade durch den langen SMART test läuft. Wenn die obere Platte noch ok ist, dann nutze ich sie natürlich lieber zur Erweiterung des Raids, anstatt als Ersatz.

Vielen Dank für die Hilfe.
 
Man kann nie sagen wie lange eine Platte noch halten wird, aber mich wundert das sie Schwebende Sektoren (Current_Pending_Sector) hat obwohl sie in einem RAID 6 arbeitet.
 
Hallo Leute,
Hab auch ein Problem mit einer externen HDD. Hoffe ihr könnt mir helfen.
Es handelt sich um eine 1TB WD externe HDD. Hab da ca 500gb drauf gehabt. Sie war angeschlossen. Nebenbei nutze ich das Media Creation Tool von Microsoft um das neue Win 10 Image zu laden. Hab das Tool gestartet und wahrscheinlich nicht genau gelesen. Das Image lud es runter, ging in der Zwischenzeit für 2h weg. Komme nach Hause und was sehe ich da... Meine externe HDD, die ganze Partition wurde überschrieben und zu einer bootfähigen Partiotion erstellt.(34GB gross) Siehe Bild.
Nun möchte ich alle Daten die da drauf waren retten. Was kann ich tun, welche Tools empfehlt ihr mir?
 

Anhänge

  • hdd.jpg
    hdd.jpg
    39,6 KB · Aufrufe: 443
Hab ich momentan am laufen. Ist jetzt am deep search dran. Kann ich mit dem Tool alles anzeigen lassen resp wiederherstellen auf eine andere Platte?
 
Probiere auch mal PhotoRec oder Recuva und sonst die kommerziellen Tools, von denen gibt es ja meist Demoversionen die Anzeigen was gefunden wird und ggf. auch ein paar Dateien zu Probe retten. Bedenke das Retten bedeutet, dass man die Dateien auf einen anderen Datenträger kopiert, diese also nicht vor Ort wiederherstellen lässt!
 
Ja auf sicher will ich es auf eine andere Platte tun. Aber nicht jedes Tool bietet diese Funktion.
Mit Testdisk verstehe ich es nicht. Keine Ahnung wie das geht mit dem Tool..Hab deep search gemacht, nun kann ich write auswählen um das zurück auf die Platte zu schreiben. Echt kompliziert das Tool :(
 
Man kann nie sagen wie lange eine Platte noch halten wird, aber mich wundert das sie Schwebende Sektoren (Current_Pending_Sector) hat obwohl sie in einem RAID 6 arbeitet.

Hallo,

ich habe gerade die siebte Platte in das Raid eingebunden. Jetzt sind die schwebenden Sektoren auf der anderen Platte verschwunden. Smart markiert sie wieder als OK. Ich speicher mir jetzt die smartwerte aller Platten. Dieser Fall hat mir gezeigt, dass man das alle 2-3 Monate tuen sollte um Aussagen über den Zustand der Platten treffen zu können. Schade das es kein Tool gibt was dies automatisch tut.
 
Man sollte so einmal im Monate ein Scrubbing des RAIDs veranlassen, dabei werden dann möglicherweise problematische Sektoren erkannt, weil diese dann eben einen Lesefehler ausgeben und das RAID kann diese sofort wieder wieder überschreiben.
 
Neben den 2 alten Wiederzuweisungen und 14 Spin Retry Counts (der Spindel konnte die vorgesehene Drehzahl nicht erreichen) älteren Datums gibts auch 106 Schreibfehler, die Platte hat ein deutlich erhöhtes Ausfallsrisiko. Hier sollte in Anbetracht des absoluten Alters mittelfristig ein Ersatz beschafft werden.
 
Mit 8 Jahren ist die Platte weit über die erwartete Nutzungsdauer von 5 Jahren hinaus und HDDs altern auch wenn sie nicht genutzt werden. Dazu schreibt Seagate z.B. hier und auch in einigen anderen Product Manuals:
Wenn also die Lagerbedingungen nicht eingehalten werde, sind 90 Tage und zwar in der ungeöffneten Originalverpackung, sonst bestenfalls 1 Jahr. Nach dem Öffnen sollten HDD nicht länger als 30 Tage stromlos sein.

Bei der neuen Barracuda Pro 10TB mit Heliumfüllung schreibt Seagate:
Also hier nur ein halbes Jahr in der ungeöffneten originalen Versandverpackung von Seagate und sonst 2 Monate, nur bei optimalen Bedingungen bis zu einem Jahr.

HGST schreibt für die meisten Modelle wie z.B. für die Megascale:
 

Ähnliche Themen

Antworten
1.922
Aufrufe
256.887
J
Zurück
Oben