WD Red 4TB reparieren keine Sektoren

Penman · 20. September 2023

Moin,
ich habe einige WD Red 4 TB Platten im Einsatz. Leider ergibt sich ein immer wiederkehrendes Muster, dass die Platten nach 25000h anfangen im SMART long Test kaputte Sektoren zu erkennen und abbrechen. Ich habe es schon geschafft, durch Durchläufe mit badblocks die Festplatten zeitweise wieder zu "reparieren". Denn

Beispielhaft mein neuster Zugang, den ich aus Neugierde gebraucht gekauft habe. Hohe Betriebsstunden, aber anscheinend war erst mal alles in Ordnung.

Code:

=== START OF INFORMATION SECTION ===                                                                                                                  
Model Family:     Western Digital Red                                                                                                                 
Device Model:     WDC WD40EFRX-68WT0N0                                                                                                                
Serial Number:    WD-WCC4xxxxxxxx                                                                                                                    
LU WWN Device Id: 5 0014ee xxxxxxxx                                                                                                                 
Firmware Version: 80.00A80                                                                                                                            
User Capacity:    4.000.787.030.016 bytes [4,00 TB]                                                                                                   
Sector Sizes:     512 bytes logical, 4096 bytes physical                                                                                              
Rotation Rate:    5400 rpm                                                                                                                            
Device is:        In smartctl database 7.3/5528                                                                                                       
ATA Version is:   ACS-2 (minor revision not indicated)                                                                                                
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)                                                                                              
Local Time is:    Wed Sep 20 08:57:47 2023 CEST                                                                                                       
SMART support is: Available - device has SMART capability.                                                                                            
SMART support is: Enabled                                                                                                                             
AAM feature is:   Unavailable                                                                                                                         
APM feature is:   Unavailable                                                                                                                         
Rd look-ahead is: Enabled                                                                                                                             
Write cache is:   Enabled                                                                                                                             
DSN feature is:   Unavailable                                                                                                                         
ATA Security is:  Disabled, frozen [SEC2]                                                                                                             
Wt Cache Reorder: Enabled    
[...]
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE                                                                                
  1 Raw_Read_Error_Rate     POSR-K   200   200   051    -    73                                                                                       
  3 Spin_Up_Time            POS--K   181   178   021    -    7933                                                                                     
  4 Start_Stop_Count        -O--CK   098   098   000    -    2794                                                                                     
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0                                                                                        
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0                                                                                        
  9 Power_On_Hours          -O--CK   003   003   000    -    71258                                                                                    
 10 Spin_Retry_Count        -O--CK   100   100   000    -    0                                                                                        
 11 Calibration_Retry_Count -O--CK   100   100   000    -    0                                                                                        
 12 Power_Cycle_Count       -O--CK   100   100   000    -    318                                                                                      
192 Power-Off_Retract_Count -O--CK   200   200   000    -    175                                                                                      
193 Load_Cycle_Count        -O--CK   194   194   000    -    18916                                                                                    
194 Temperature_Celsius     -O---K   123   095   000    -    29                                                                                       
196 Reallocated_Event_Count -O--CK   200   200   000    -    0                                                                                        
197 Current_Pending_Sector  -O--CK   200   200   000    -    7                                                                                        
198 Offline_Uncorrectable   ----CK   100   253   000    -    0                                                                                        
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    2                                                                                        
200 Multi_Zone_Error_Rate   ---R--   200   200   000    -    3 
[...]
SMART Extended Self-test Log Version: 1 (1 sectors)                                                                                                   
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error                                                       
# 1  Extended offline    Completed: read failure       90%      5701         7374115352                                                               
# 2  Extended offline    Completed without error       00%      5590      
[...]

Das kuriose ist, dass der Sektor prinzipiell lesbar ist, auch wenn die Antwort erst mal verzögert kommt und im Wiederholungsfall sofort. Sogar beschreiben kann ich den Sektor, auch wenn es dann knapp 4 Sekunden dauert.

Code:

# hdparm --read-sector 7374115352 /dev/sdf                                                                                           
                                                                           
/dev/sdf:                                                                  
reading sector 7374115352: SG_IO: bad/missing sense data, sb[]:  70 00 03 00 00 00 00 0a 40 51 e0 01 11 04 00 00 a0 18 00 00 00 00 00 00 00 00 00 00 0
0 00 00 00                                                                                                                                            
succeeded
0000 0000 0000 0000 0000 0000 0000 0000
[...]

# time hdparm --yes-i-know-what-i-am-doing --repair-sector 7374115352 /dev/sdf

/dev/sdf:
re-writing sector 7374115352: succeeded
hdparm --yes-i-know-what-i-am-doing --repair-sector 7374115352 /dev/sdf  0,00s user 0,00s system 0% cpu 3,908 total

Mir ist jetzt nicht klar, was das eigentlich soll. Die Daten scheinen grundsätzlich in Ordnung zu sein, weil sie sich ja auslesen lassen.
Ich habe jetzt 3 von 7 WD Red verschiedener Modelle, die sich so verhalten. Alle mit 20000+ Betriebsstunden. Einerseits bin ich sauer, dass die Platten so früh "ausfallen". Andereseits funktionieren sie prinzipiell ja noch. ZFS kreidet es regelmäßig an, aber ich würde sagen, die Platten funktionieren noch - wenn auch mit einer Macke.

Was sich mir jedoch nicht ergibt, ist das Verhalten der Festplatte. Weil genau für dieses Problem gibt es doch den Reservepool. Aber trotz erkannter Probleme scheint die Platte die Sektoren nicht zu ersetzen. Die Platte oben ist die erste Platte, die Pending Sectors hat. Aber über die letzten Tage hat badblocks mehrfach alles neu geschrieben und sie wurden scheinbar nicht reallokiert.

Hier wäre eine etwas jüngere Platte dessen Lebenszeit ich komplett kenne. Das Bild ist mehr als kurios, weil sie am Ende tatsächlich wieder in Ordnung scheint.

Code:

SMART Self-test log structure revision number 1                                                                                                       
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error                                                       
# 1  Extended offline    Completed without error       00%     32281         -                                                                        
# 2  Selective offline   Completed without error       00%     32272         -                                                                        
# 3  Selective offline   Completed without error       00%     32272         -                                                                        
# 4  Selective captive   Interrupted (host reset)      90%     32270         -                                                                        
# 5  Selective captive   Interrupted (host reset)      90%     32270         -                                                                        
# 6  Selective captive   Interrupted (host reset)      90%     32270         -                                                                        
# 7  Short offline       Completed without error       00%     32270         -                                                                        
# 8  Selective offline   Completed: read failure       90%     32269         3233584577                                                               
# 9  Extended offline    Completed: read failure       10%     32269         3231087440                                                               
#10  Extended offline    Completed: read failure       90%     30011         100173888                                                                
#11  Extended offline    Completed: read failure       90%     29339         100173888                                                                
#12  Extended offline    Completed: read failure       90%     27452         100173888                                                                
#13  Selective offline   Completed without error       00%     26475         -                                                                        
#14  Extended offline    Completed: read failure       10%     26415         3128606032                                                               
#15  Extended offline    Completed: read failure       10%     26404         3128606032                                                               
#16  Extended offline    Completed without error       00%     19509         -                                                                        
#17  Extended offline    Completed without error       00%     14888         -                                                                        
#18  Extended offline    Completed without error       00%     11652         -
#19  Extended offline    Completed without error       00%      8765         -
#20  Extended offline    Completed without error       00%      6748         -
#21  Extended offline    Completed without error       00%        27         -
7 of 7 failed self-tests are outdated by newer successful extended offline self-test # 1
[...]
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   157   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   217   167   021    Pre-fail  Always       -       4125
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       110
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   050   050   000    Old_age   Always       -       36567
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       110
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       65
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       233
194 Temperature_Celsius     0x0022   122   106   000    Old_age   Always       -       28
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       8
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       3

Keine Pending oder Reallocated Sectors, aber scheinbar hat die Platte sicha auf magische Art und Weise geheilt.

Was ich inzwischen über die Firmware der WD Reds herausgefunden habe, ist dass sie länger (30s) und häufiger versuchen einen Sektor auszulesen. Das kann zum Erfolg führen oder eben im Lesefehler enden. RAID5 korrigiert das, aber erst nachdem die Platte den Fehler geschmissen hat. Das heißt, 30 Sekunden Freeze.

Das ist nicht optimal, aber ich würde gerne verstehen, wieso die Platten sich so verhalten.

tRITON · 20. September 2023

Eine defekte Oberfläche ist eben defekt. Mit Realloc der Sektoren kann das Problem nicht behoben werden, sondern nur veschoben. Platten welche solche defekte Ausweisen würde ich austauschen, dann hast Du auch Ruhe.

Das eine HDD versucht die Daten zu lesen, um ggfls doch noch etwas zu retten ist ja grundsätzlich gut, aber spätestens nach einem erfolgreichen Read gehört die Platte nicht mehr in ein Raid.

Evil E-Lex · 20. September 2023

Penman schrieb:
Alle mit 20000+ Betriebsstunden. Einerseits bin ich sauer, dass die Platten so früh "ausfallen".

Über 20.000 bzw. 25.000 Betriebsstunden. Das sind im letzteren Fall fast drei Jahre Dauerbetrieb. Die Platten haben drei Jahre Garantie. Lebenszeit erreicht. WD will schließlich, dass du neue Platten kaufst.

Penman schrieb:
RAID5 korrigiert das, aber erst nachdem die Platte den Fehler geschmissen hat.

RAID5 hat damit nichts zu tun. Das ist ein Feature der Firmware von Hardware-RAID-Controllern. Die Platte wird nach viel kürzerer Zeit aus dem RAID entfernt.

Edit: Die 30 Sekunden kommen von mdadm. Aus dem Wikipedia-Artikel zu Error recovery control:

Linux mdadm simply holds and lets the drive complete its recovery – however, the default command timeout for the SCSI Disk layer (/sys/block/sd?/device/timeout) is 30 seconds, after which it will attempt to reset the drive, and if that fails, put the drive offline.

Sebbi · 20. September 2023

Penman schrieb:
Sogar beschreiben kann ich den Sektor, auch wenn es dann knapp 4 Sekunden dauert.

Das ist das ja das Problem dann

Penman schrieb:
Das ist nicht optimal, aber ich würde gerne verstehen, wieso die Platten sich so verhalten.

Der Wert heißt Current_Pending_Sector - auf deutsch "Schwebende Sektoren" - sprich Sektoren die schwer zu lesen oder zu scheiben sind. Es werden ein paar Versuche unternommen, bis die entgültig ausgemustet werde.

dieser Fehler deutet auf Probleme auf der Plattenoberfläche hin, eventuell durch Korrosion oder Materialabtrag.

Das Problem dabei ist, das sich der Fehler ausweiten kann und auch in angrenzenden Regionen zu Problemen oder Datenverlusten führt.

Penman schrieb:
Was sich mir jedoch nicht ergibt, ist das Verhalten der Festplatte. Weil genau für dieses Problem gibt es doch den Reservepool.

kommt drauf an wie WD diesen "Reservepool" geplant hat ... oder ob es ihn überhaupt gibt. Denn der wird nicht im SMART angezeigt, dort werden nur noch "Fehlerhafte Sektoren" und "Verlagerte Sektoren" angezeit

qiller · 20. September 2023

Penman schrieb:
Einerseits bin ich sauer, dass die Platten so früh "ausfallen".

Willkommen in der Realität. Ich hab mittlerweile schon weit über 100 kaputte HDDs in der Hand gehabt (kaputte SSDs hatte ich in jetzt 14Jahren gerade mal 3, hab sogar noch eine Intel Postville G2 160GB im Einsatz), alle mit ähnlichen Fehlerbildern. Meistens nur Sektorfehler (wie bei dir anscheinend), aber auch Härtefälle mit ausgefallener Mechanik (Klackern des S/L-Arms etc.).

Mein Rat an dich: Wenn dir deine Daten lieb sind, tausche die betreffenden HDDs aus. Meiner Erfahrung nach dauert es nicht lange, und es kommen weitere Sektorfehler und andere Ausfälle dazu bis die Platten ganz ausfallen. Und wenn du dann beim Austauschen bist, würd ich bei den aktuellen SSD-Preisen durchaus auch SSDs als Speichermedium in Betracht ziehen (auch wenns da gegenüber HDDs erstmal teuer wird).

GrumpyCat · 20. September 2023

Penman schrieb:
Das kuriose ist, dass der Sektor prinzipiell lesbar ist, auch wenn die Antwort erst mal verzögert kommt

Das read-sector da ist nicht erfolgreich ("bad sense data" und nur Nullen im Ergebnis).

Da gibt's dann auch nichts zu Reallozieren, weil eben schon gar nicht mehr gelesen werden konnte.

Ich würde auch erwarten, dass dann neu auf den Sektor geschriebene Daten ein Reallocate des Sektors machen würde, macht die Firmware aber wohl an der Stelle nicht. Habe ich auch schon beim Seagate genau so gesehen, bei der Reallocates erst kamen, als die Platte in der Praxis schon lange völlig hinüber war.

Wahrscheinlich scheißen die Plattenhersteller inzwischen auf Endnutzer und überlassen das ganze Fehlerhandling dem RAID.

Penman · 20. September 2023

@tRITON Ich sehe Reallocated Sectors nicht als kritisch an. Pending ist doof, weil ich davon ausgehen muss, dass die Daten verloren sind. Zumindest wenn die Disk alleine läuft. Solange die Werte nur einmalig oder sehr selten steigen, sehe ich das als normale Alterung an. Dank der Redundanz ohne Datenverlust. So professionell bin ich nicht unterwegs. Bevor ich die 4 TB Platten hatte, habe ich mit 3 TB WD Blue gearbeitet, die ich aus denselben Gründen, aber überwiegend wegen Platzmangels komplett ausgetauscht habe. Die liegen jetzt in meine Plattenkiste. Und da schiebe ich gelegentlich auch mal Kopien meiner Daten drauf. Es ist kein richtiges Backup und ebenso naiv, aber das ist auch ein bewusstes Risiko.
Die Aussage von @Evil E-Lex finde ich etwas gewagt. SMART gibt ja einen Hinweis, wie die Platte altert und dass sie ggfs. Ausfallen wird. Das zu erkennen benötigt aber eine Einschätzung der Parameter. Nicht umsonst gibt es Parameter, die einfach nur als Old_Age und welche die als Pre-Fail eingestuft werden.
Lassen wir mal die Diskussion um RAID. Am Ende konnten hat die Anwendung ihre Daten bekommen.

@Sebbi Genau das ist meine Auffassung. Da ist ein Problem, aber solange es sich nicht ausweitet, ist es erst mal nicht dramatisch. Deswegen sehe ich das auch bisher sehr gelassen, weil die Werte nicht steigen. Mir geht es eher darum zu verstehen, warum die Platte sich so verhält.

@GrumpyCat Die Nullen stehen darin, weil badblocks sie reingeschrieben hat. Der Kernel loggt keinen Lesefehler. Warum das "missing sense data" sich da eingeschlichen hat weiß ich nicht. Wenn ich den Befehl wiederhole, passiert es nicht.
Wenn die Rechnung stimmt, habe ich so eben Random Daten in den angeblich defekten Sektor geschrieben.

Code:

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error                                                       
# 1  Extended offline    Completed: read failure       90%      5701         3079148056


# dd if=/dev/urandom of=/dev/sdf bs=512 count=1 seek=3079148056
1+0 records in                                                             
1+0 records out
512 bytes copied, 0.0110781 s, 46.2 kB/s
# hdparm --read-sector 3079148056 /dev/sdf                     

/dev/sdf:
reading sector 3079148056: succeeded
1fe2 22b2 f169 48c0 c291 caa2 2b67 5e60
[...]
# yes |  dd of=/dev/sdf bs=512 count=1 seek=3079148056         
1+0 records in                                                             
1+0 records out                                                            
512 bytes copied, 0.00377743 s, 136 kB/s
# hdparm --read-sector 3079148056 /dev/sdf                     
                                                                           
/dev/sdf:                                                                  
reading sector 3079148056: succeeded                                       
790a 790a 790a 790a 790a 790a 790a 790a
[...]

Dass die Daten in Ordnung sind, sollte der zweite Command beweisen.
Und du erfasst genau mein Problem: Die Platte sollte die Sektoren als defekt erkennen und ersetzen. Tut sie aber nicht, weil sie ja doch irgendwie funktionieren. Badblocks ist ja mehrfach darüber gefegt. Es wurden auch defekte Sektoren auf der Platte gefunden. Aber auch die kann ich problemlos beschreiben und lesen. Das ist ja das Kuriose.

@qiller Klassifizierst du Sektorfehler als "Defekt"? Als hätte ich bei dir 4 von 7 defekte HDDs und betreibe ein ZFS auf 4 HDDs von denen 2 nach Deiner Definition defekt sind?
Zur be(un)ruhigung aller: Ja, die Daten sind da. Es funktioniert auch schon seit Monaten ganz wunderbar. Es gibt auch Backups. Teilweise werde verliere ich halt ein paar aktuellere Daten, aber alles was super wichtig ist, hat so viele Replika, dass schon eine Katastrophe passieren muss, bevor ich die Daten verliere.

Ich habe schon längert mit dem Gedanken gespielt, auf SSDs umzustellen. Vor allem, weil mein Server dann quasi lautlos wäre, weil die Lüfter mit minimaler Rpm leise vor sich hin rotieren würden. Da kann man jetzt diskutieren, ob man QLC SSDs für 180 Euro oder WD Red SSDs für 300 Euro nimmt. Am Ende kommt wieder eine ordentliche Summe zusammen, bei der ich mir wieder sagen werde. Die HDDs funktionieren noch und ZFS hält mich über Wasser. Es mag töricht sein, aber es ist ein Hobbyprojekt, das ich seit über 10 Jahren so betreibe. Ich kenne das Risiko.

Ich möchte verstehen, was mit dieser WD Firmware los ist und warum sie sich so seltsam verhält. Mal ist die Platte "defekt" mal nicht. Ich fahre jetzt noch mal mit Badblocks drüber und lasse alles mit 0x08 vollschreiben. Entweder habe ich Sektoren und LBA für meine Experimente durcheinander gebracht und Rechenfehler gemacht oder die Platte hat sich mal wieder magisch selbst repariert, was für mich einfach nur bekräftigt, dass ich das nur weiterhin beobachten sollte, dass sich nichts verschlimmert.

Zur Beruhigung aller: /dev/sdf ist "neu" und hatte bei mir noch keinen produktiven Betrieb. Ich kann die Platte problemlos mit Zugriffen quälen.

qiller · 20. September 2023

Penman schrieb:
Klassifizierst du Sektorfehler als "Defekt"?

Ab einer gewissen Anzahl ja, klar. Genauso meckern doch auch alle SMART-Tools oder CrystalDiskInfo rum, wenn die Schwellenwerte überschritten werden. Bei CrystalDiskInfo wirds ja meist erst gelb markiert, aber spätestens wenn nicht reparierbare Sektoren auftreten, geht die Markierung auf "rot" über.

Penman · 20. September 2023

qiller schrieb:
wenn nicht reparierbare Sektoren auftreten, geht die Markierung auf "rot" über.

Ja okay, das macht ja auch Sinn. Wie ich sagte: Ein recht statischer, kleiner Wert ist für mich kein Problem. Ich habe einige Platten mit Reallocated Sectors, die ich heute immer noch temporär benutze. Schmerzt nicht und ist ja eigentlich ganz im Sinne der Sache, dass die Platte so weiter im Betrieb bleiben kann.

Leider erklärt sich mir nicht, warum WD Reds sich weigern, Sektoren auszutauschen. Sie weiß es doch eigentlich:

Code:

[405564.313098] ata13.00: configured for UDMA/133                                                                                                     
[405564.313130] sd 12:0:0:0: [sdf] tag#16 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK cmd_age=3s
[405564.313138] sd 12:0:0:0: [sdf] tag#16 Sense Key : Medium Error [current]                                                                          
[405564.313144] sd 12:0:0:0: [sdf] tag#16 Add. Sense: Unrecovered read error - auto reallocate failed
[405564.313150] sd 12:0:0:0: [sdf] tag#16 CDB: Read(16) 88 00 00 00 00 01 ba da 34 00 00 00 02 00 00 00                                               
[405564.313154] I/O error, dev sdf, sector 7429829632 op 0x0:(READ) flags 0x800 phys_seg 63 prio class 2

Zu "auto reallocate failed" gibt es unzählige Suchergebnisse. Aber das ergibt für mich nicht so richtig Sinn. Weil ich den Sektor jetzt wieder auslesen kann. Aktuell ist er mit 0000 vollgeschrieben. Sobald badblocks drüber ist, wird 0808 drin stehen. Nach dem Motto Try Harder kommt die Platte ja scheinbar an die Daten. Ich verstehe dieses Verhalten einfach nicht.

GrumpyCat · 20. September 2023

Ich hatte ziemlich das gleiche Verhalten mit einer Seagate SMR 2,5" letztens. Ich bin mir ziemlich sicher, dass die Firmware einfach total buggy ist. Würde mich nicht wundern, wenn speziell bei SMR einfach nicht sonderlich viel Arbeit in die Reallocation-Logik geflossen ist, vielleicht u.a. weil bei SMR einzelne defekte Sektoren prinzipbedingt gar nicht auftreten können. (aber nun hast Du eine CMR 3,5"...)

Umstieg auf SSDs? Leider gibt's da auch ziemlich viel Ärger, siehe u.a. https://www.computerbase.de/forum/t...mb-s-980pro-auch-nicht-ohne-probleme.2111994/ - man merkt eben schon, dass bei Massenspeichern überall ziemlich auf Kante genäht wird...

NobodysFool · 21. September 2023

Evil E-Lex schrieb:
RAID5 hat damit nichts zu tun. Das ist ein Feature der Firmware von Hardware-RAID-Controllern. Die Platte wird nach viel kürzerer Zeit aus dem RAID entfernt.

Meine Erfahrung sagt was anderes. In meinem NAS hatte ich schon eine Seagate Exos mit >10.000 wiederzugewiesenen Sektoren. Diese produzieren zunächst keine Fehler, weil die nicht lesbaren Sektoren aus der Redundanz kommen. Und so lange die Platte noch Reservesektoren hat die sie neu vergeben kann, wird die auch nicht aus dem RAID geworfen. Das Synoogy NAS stuft sie noch nicht mal als "kritisch" ein. Ich hab sie natürlich trotzdem getauscht, weil man der Zunahme der fehlerhaften Sektoren schon zusehen konnte.

Gleiche Erfahrung momentan bei einem QNAP NAS meines Bruders. Drei Platten haben wiederzugewiesene Sektoren. EIne 32, eine andere 240 - beide liegen aber seit Monaten stabil und es kommen keine neuen hinzu. Die dritte jedoch geht langsam auf die 5.000 zu, und wird voraussichtlich diese Woche noch ersetzt. Die QNAP Software sieht bei der Platte aber noch kein direktes Problem.

NobodysFool · 21. September 2023

Dazu sei noch bemerkt: selbst 10k defekte sektoren (ggf. a 4 kB) auf der Platte sind bei heutigen Plattengrößen verschwindend wenig. Da reden wir von ~40 MB. In einem RAID-5, oder sogar RAID.6 wie bei mir ist das aber kein Problem, solange nicht auf anderen Platten genau die Blöcke auch defekt sind, die die Redundanz für die betreffenden Daten halten. Spätestens bei einem RAID-6 ist das zwar nicht unmöglich, aber doch sehr unwahrscheinlich. Und bevor dies wirklich ein Problem wird, gehen der Platte ohnehin die Rservesektoren aus und sie wird als defekt aus dem RAID geworfen.

Evil E-Lex · 21. September 2023

Man mag mich falsch verstanden haben, oder ich habe @Penman falsch verstanden. TLER bei WD-Platten sorgt genau für das beschriebene Verhalten. Die von ihm beobachteten 30 Sekunden Freeze kommen vom Linux SCSI Block Layer. Da sind die 30 Sekunden Standard. Das kann man ändern. Ein Hardware-RAID-Controller, den weder Synology, noch QNAP nutzen, hat kürzere Timeouts (so 10 bis 20 Sekunden) und sorgt dadurch für einen kürzeren Freeze. Damit meine ich explizit nicht, dass die Platte bereits mit wenigen defekten Sektoren aus dem RAID entfernt wird. Der von mir verlinkte Wikipedia-Artikel eklärt das Verhalten ausführlich.

Weiterhin bezog sich meine Aussage auf die Sicht des Herstellers. Der Hersteller ist der Meinung, das nach Ablauf der Garantie die Lebenszeit erreicht ist, sonst würde er längere Garantie gewähren. Nächstes Mal verwende ich Ironie-Tags.

GrumpyCat · 21. September 2023

NobodysFool schrieb:
In meinem NAS hatte ich schon eine Seagate Exos mit >10.000 wiederzugewiesenen Sektoren. Diese produzieren zunächst keine Fehler, weil die nicht lesbaren Sektoren aus der Redundanz kommen.

Ja so sollte das sein (und so kenne ich das bei den meisten Platten auch), aber in diesem Thread geht's doch gerade darum, dass die SMART-Selbsttests bei dieser Platte Fehler liefern UND es langsam/schlecht lesbare Sektoren gibt, lange bevor es wiederzugewiesene Sektoren gibt. Wenigstens bei einer Seagate 5TB 2,5" SMR habe ich das auch schon so gesehen.

Ich habe so die Befürchtung, dass die Firmwares inzwischen einfach schrottig sind. Oder, das wäre noch fieser, dass die Firmwares inzwischen vielleicht Reallocates machen, aber in SMART "abrunden" und z.B. die ersten 1000 reallozierten Sektoren als 0 melden. Würde aus Herstellersicht Sinn machen, falls sie beim Hochschrauben der Speicherdichte inzwischen soweit sein sollten, dass es so gut wie unmöglich ist, eine ab Werk 100%ig fehlerfreie Platte auszuliefern - und das würde mich gar nicht wundern.

Evil E-Lex · 21. September 2023

GrumpyCat schrieb:
ber in diesem Thread geht's doch gerade darum, dass die SMART-Selbsttests bei dieser Platte Fehler liefern UND es langsam/schlecht lesbare Sektoren gibt, lange bevor es wiederzugewiesene Sektoren gibt.

So wie ich es verstanden habe, ist das Problem doch, dass die Zuweisung von Reservesektoren eben nicht stattfindet, obwohl durch noch welche vorhanden sind. Selbst eine zwangsweise veranlasste Neuzuweisung scheint keinen Erfolg zu haben.

NobodysFool · 21. September 2023

@GrumpyCat Dass Platten ab Werk defekte Sektoren haben dürfte weitgehend normal sein. Diese fallen aber beim Qualitätscheck im Werk bereits auf, und sind für die Verwendung gesperrt. Daher gibt es ja auch keine Angaben, wieviele Reservesektoren eine Platet hat, weil das stark variieren dürfte. Eben die, die am Ende des Checks und dem Sperren noch übrig bleiben.

EIne Zuweisung der Reservesektoren erfolgt meines Wissens nur nach einem langen SMART Test (nicht Schnelltest), oder zumindest im NAS beim Data Scrubbing. Wenn das nicht passiert dann dürfte das jedenfalls kein normales Verhalten der Platte sein.

GrumpyCat · 21. September 2023

NobodysFool schrieb:
EIne Zuweisung der Reservesektoren erfolgt meines Wissens nur nach einem langen SMART Test (nicht Schnelltest), oder zumindest im NAS beim Data Scrubbing.

Nee das passiert einfach so im Betrieb. Wäre sonst auch wenig sinnvoll: Die SMART-Tests sind den meisten Nutzern eh unbekannt, und das Scrubbing ist für die Platte eine ganz normale Leseoperation des Betriebssystems.

qiller · 21. September 2023

Hab früher mit den Herstellertools (waren oft noch solche DOS-Programme^^) bei solchen Sachen einen "Low-Level-Format" gemacht. Das hat im Grunde genommen genau das gemacht, gecheckt, ob alle Sektoren les- und schreibbar waren und wenn nicht, wurden diese Sektoren in der Firmware als defekt markiert und evt. auch durch Reservesektoren ersetzt (halt das, was heute automatisch passieren sollte). Zumindest konnte man anschließend häufig wieder ein normales Full-Format des BS durchführen, ohne danach direkt Bad Sectors in der Datesystemtabelle zu haben. Aber lange hielt das meist nicht an - irgendwann später kamen wieder weitere defekte Sektoren dazu. Daher bin ich auch kein Fan von solchen "Reparaturmaßnahmen" und sortiere solche Platten rigoros aus.

GrumpyCat · 21. September 2023

Nee das Low Level Format aus den 90ern hat einfach alles neu geschrieben inkl. Sektorenheadern. Sowas geht heute nicht mehr, weil ein Teil der magnetischen Info ab Werk aufgebracht wird (u.a. die Markierungen, die der Servo zum Halten/Finden der Spur braucht. Sind ja keine Schrittmotoren mehr drin

).
Wenn danach scheinbar wieder alles paletti war, war das nur, weil die Magnetisierung eben ganz frisch war.

Einen ähnlichen Effekt gibt's heute übrigens insbesondere bei günstigen SSDs/NVMes. Frisch geschriebene Daten lassen sich prima lesen, nach ein paar Tagen/Wochen nur noch langsam lesen und kurz danach gar nicht mehr. :/

qiller · 21. September 2023

GrumpyCat schrieb:
Einen ähnlichen Effekt gibt's heute übrigens insbesondere bei günstigen SSDs/NVMes. Frisch geschriebene Daten lassen sich prima lesen, nach ein paar Tagen/Wochen nur noch langsam lesen und kurz danach gar nicht mehr. :/

Bin da aktuell auch am Testen, Ergebnisse pack ich dann in den entsprechenden Thread, dauert aber noch bisschen, bis ich alle durch hab, da ist z.B. auch ne 8TB Samsung 870 QVC dabei^^. Spoiler schonmal: Die alten Samsung Pro-SSDs mit MLC-Zellen (840 Pro, 970 Pro) tangiert das Problem gar nicht.

WD Red 4TB reparieren keine Sektoren

Lieutenant

Commander

Commander

Fleet Admiral

Captain

Anhänge

Lt. Commander

Lieutenant

Captain

Lieutenant

Lt. Commander

Lt. Commander

Lt. Commander

Commander

Lt. Commander

Commander

Lt. Commander

Lt. Commander

Captain

Lt. Commander

Captain

Ähnliche Themen

Passend zum Thema