Penman
Lieutenant
- Registriert
- Feb. 2009
- Beiträge
- 820
Moin,
ich habe einige WD Red 4 TB Platten im Einsatz. Leider ergibt sich ein immer wiederkehrendes Muster, dass die Platten nach 25000h anfangen im SMART long Test kaputte Sektoren zu erkennen und abbrechen. Ich habe es schon geschafft, durch Durchläufe mit badblocks die Festplatten zeitweise wieder zu "reparieren". Denn
Beispielhaft mein neuster Zugang, den ich aus Neugierde gebraucht gekauft habe. Hohe Betriebsstunden, aber anscheinend war erst mal alles in Ordnung.
Das kuriose ist, dass der Sektor prinzipiell lesbar ist, auch wenn die Antwort erst mal verzögert kommt und im Wiederholungsfall sofort. Sogar beschreiben kann ich den Sektor, auch wenn es dann knapp 4 Sekunden dauert.
Mir ist jetzt nicht klar, was das eigentlich soll. Die Daten scheinen grundsätzlich in Ordnung zu sein, weil sie sich ja auslesen lassen.
Ich habe jetzt 3 von 7 WD Red verschiedener Modelle, die sich so verhalten. Alle mit 20000+ Betriebsstunden. Einerseits bin ich sauer, dass die Platten so früh "ausfallen". Andereseits funktionieren sie prinzipiell ja noch. ZFS kreidet es regelmäßig an, aber ich würde sagen, die Platten funktionieren noch - wenn auch mit einer Macke.
Was sich mir jedoch nicht ergibt, ist das Verhalten der Festplatte. Weil genau für dieses Problem gibt es doch den Reservepool. Aber trotz erkannter Probleme scheint die Platte die Sektoren nicht zu ersetzen. Die Platte oben ist die erste Platte, die Pending Sectors hat. Aber über die letzten Tage hat badblocks mehrfach alles neu geschrieben und sie wurden scheinbar nicht reallokiert.
Hier wäre eine etwas jüngere Platte dessen Lebenszeit ich komplett kenne. Das Bild ist mehr als kurios, weil sie am Ende tatsächlich wieder in Ordnung scheint.
Keine Pending oder Reallocated Sectors, aber scheinbar hat die Platte sicha auf magische Art und Weise geheilt.
Was ich inzwischen über die Firmware der WD Reds herausgefunden habe, ist dass sie länger (30s) und häufiger versuchen einen Sektor auszulesen. Das kann zum Erfolg führen oder eben im Lesefehler enden. RAID5 korrigiert das, aber erst nachdem die Platte den Fehler geschmissen hat. Das heißt, 30 Sekunden Freeze.
Das ist nicht optimal, aber ich würde gerne verstehen, wieso die Platten sich so verhalten.
ich habe einige WD Red 4 TB Platten im Einsatz. Leider ergibt sich ein immer wiederkehrendes Muster, dass die Platten nach 25000h anfangen im SMART long Test kaputte Sektoren zu erkennen und abbrechen. Ich habe es schon geschafft, durch Durchläufe mit badblocks die Festplatten zeitweise wieder zu "reparieren". Denn
Beispielhaft mein neuster Zugang, den ich aus Neugierde gebraucht gekauft habe. Hohe Betriebsstunden, aber anscheinend war erst mal alles in Ordnung.
Code:
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Red
Device Model: WDC WD40EFRX-68WT0N0
Serial Number: WD-WCC4xxxxxxxx
LU WWN Device Id: 5 0014ee xxxxxxxx
Firmware Version: 80.00A80
User Capacity: 4.000.787.030.016 bytes [4,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database 7.3/5528
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Wed Sep 20 08:57:47 2023 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is: Unavailable
APM feature is: Unavailable
Rd look-ahead is: Enabled
Write cache is: Enabled
DSN feature is: Unavailable
ATA Security is: Disabled, frozen [SEC2]
Wt Cache Reorder: Enabled
[...]
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate POSR-K 200 200 051 - 73
3 Spin_Up_Time POS--K 181 178 021 - 7933
4 Start_Stop_Count -O--CK 098 098 000 - 2794
5 Reallocated_Sector_Ct PO--CK 200 200 140 - 0
7 Seek_Error_Rate -OSR-K 200 200 000 - 0
9 Power_On_Hours -O--CK 003 003 000 - 71258
10 Spin_Retry_Count -O--CK 100 100 000 - 0
11 Calibration_Retry_Count -O--CK 100 100 000 - 0
12 Power_Cycle_Count -O--CK 100 100 000 - 318
192 Power-Off_Retract_Count -O--CK 200 200 000 - 175
193 Load_Cycle_Count -O--CK 194 194 000 - 18916
194 Temperature_Celsius -O---K 123 095 000 - 29
196 Reallocated_Event_Count -O--CK 200 200 000 - 0
197 Current_Pending_Sector -O--CK 200 200 000 - 7
198 Offline_Uncorrectable ----CK 100 253 000 - 0
199 UDMA_CRC_Error_Count -O--CK 200 200 000 - 2
200 Multi_Zone_Error_Rate ---R-- 200 200 000 - 3
[...]
SMART Extended Self-test Log Version: 1 (1 sectors)
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 5701 7374115352
# 2 Extended offline Completed without error 00% 5590
[...]
Das kuriose ist, dass der Sektor prinzipiell lesbar ist, auch wenn die Antwort erst mal verzögert kommt und im Wiederholungsfall sofort. Sogar beschreiben kann ich den Sektor, auch wenn es dann knapp 4 Sekunden dauert.
Code:
# hdparm --read-sector 7374115352 /dev/sdf
/dev/sdf:
reading sector 7374115352: SG_IO: bad/missing sense data, sb[]: 70 00 03 00 00 00 00 0a 40 51 e0 01 11 04 00 00 a0 18 00 00 00 00 00 00 00 00 00 00 0
0 00 00 00
succeeded
0000 0000 0000 0000 0000 0000 0000 0000
[...]
# time hdparm --yes-i-know-what-i-am-doing --repair-sector 7374115352 /dev/sdf
/dev/sdf:
re-writing sector 7374115352: succeeded
hdparm --yes-i-know-what-i-am-doing --repair-sector 7374115352 /dev/sdf 0,00s user 0,00s system 0% cpu 3,908 total
Mir ist jetzt nicht klar, was das eigentlich soll. Die Daten scheinen grundsätzlich in Ordnung zu sein, weil sie sich ja auslesen lassen.
Ich habe jetzt 3 von 7 WD Red verschiedener Modelle, die sich so verhalten. Alle mit 20000+ Betriebsstunden. Einerseits bin ich sauer, dass die Platten so früh "ausfallen". Andereseits funktionieren sie prinzipiell ja noch. ZFS kreidet es regelmäßig an, aber ich würde sagen, die Platten funktionieren noch - wenn auch mit einer Macke.
Was sich mir jedoch nicht ergibt, ist das Verhalten der Festplatte. Weil genau für dieses Problem gibt es doch den Reservepool. Aber trotz erkannter Probleme scheint die Platte die Sektoren nicht zu ersetzen. Die Platte oben ist die erste Platte, die Pending Sectors hat. Aber über die letzten Tage hat badblocks mehrfach alles neu geschrieben und sie wurden scheinbar nicht reallokiert.
Hier wäre eine etwas jüngere Platte dessen Lebenszeit ich komplett kenne. Das Bild ist mehr als kurios, weil sie am Ende tatsächlich wieder in Ordnung scheint.
Code:
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 32281 -
# 2 Selective offline Completed without error 00% 32272 -
# 3 Selective offline Completed without error 00% 32272 -
# 4 Selective captive Interrupted (host reset) 90% 32270 -
# 5 Selective captive Interrupted (host reset) 90% 32270 -
# 6 Selective captive Interrupted (host reset) 90% 32270 -
# 7 Short offline Completed without error 00% 32270 -
# 8 Selective offline Completed: read failure 90% 32269 3233584577
# 9 Extended offline Completed: read failure 10% 32269 3231087440
#10 Extended offline Completed: read failure 90% 30011 100173888
#11 Extended offline Completed: read failure 90% 29339 100173888
#12 Extended offline Completed: read failure 90% 27452 100173888
#13 Selective offline Completed without error 00% 26475 -
#14 Extended offline Completed: read failure 10% 26415 3128606032
#15 Extended offline Completed: read failure 10% 26404 3128606032
#16 Extended offline Completed without error 00% 19509 -
#17 Extended offline Completed without error 00% 14888 -
#18 Extended offline Completed without error 00% 11652 -
#19 Extended offline Completed without error 00% 8765 -
#20 Extended offline Completed without error 00% 6748 -
#21 Extended offline Completed without error 00% 27 -
7 of 7 failed self-tests are outdated by newer successful extended offline self-test # 1
[...]
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 157 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 217 167 021 Pre-fail Always - 4125
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 110
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 050 050 000 Old_age Always - 36567
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 110
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 65
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 233
194 Temperature_Celsius 0x0022 122 106 000 Old_age Always - 28
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 8
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 3
Was ich inzwischen über die Firmware der WD Reds herausgefunden habe, ist dass sie länger (30s) und häufiger versuchen einen Sektor auszulesen. Das kann zum Erfolg führen oder eben im Lesefehler enden. RAID5 korrigiert das, aber erst nachdem die Platte den Fehler geschmissen hat. Das heißt, 30 Sekunden Freeze.
Das ist nicht optimal, aber ich würde gerne verstehen, wieso die Platten sich so verhalten.