[Sammelthread] HDD-Probleme, SMART-Analysen

Holt · 10. April 2019

Der Punkt ist nicht zu schauen was im Datenblatt steht, sondern was dort nicht steht! Fehlt die Zulassung für den den Dauerbetrieb, so sind 2400 Power-On-Hours pro Jahr gemeint. Diese findet man z.B. in diesem älteren Product Manual der Seagate Barracudas:

The production disk drive shall achieve an annualized failure-rate of <1.0% over a 5 year service life when used in
Desktop Storage field conditions as limited by the following:
• 2400 power-on-hours per year.
• Typical workload
...
Maximum Rated Workload Maximum rate of <55TB/year
Workloads exceeding the annualized rate may impact product reliability. The Annualized
Workload Rate is in units of TB per year, or TB per 2400 power on hours. Workload Rate
= TB transferred * (2400 / recorded power on hours).

Auch die Angabe des Workload Ratings findet man bei WD nur für die Enterprise HDDs, deren öffentlich zugänglichen Dokumentation ist einfach nur ungenügend, Seagate ist da ungleich besser, auch wenn im Produkt Manual der neueren Barracuda Modelle wieder nichts von 2400 Power-On-Hours steht. Die Werte von 55TB Workload im Jahr und 2400 Power-On-Hours pro Jahr, was also 8x5 plus der Mittagspause entspricht, sind aber bei allen HDD Herstellern Standard und auch in dieser vertraulichen Auflistung der Daten der unterschiedlichen 3.5" HDD Modellen von Toshiba aus 2014 zu finden:

Was die Anzahl pro Gehäuse angeht, so schriebt kein Hersteller das diese einfachen Desktopmodelle eben nur dafür gedacht sind als einzige Platte im Gehäuse zu arbeiten, man sieht es bei WD wie gesagt an dem was sie selbst bei den USB Platten machen, nämlich Blue bei denen mit einer HDD und die Red bei den MyBook Duo mit 2 HDDs zu verbauen. Für den Rest gilt: Was nicht angegeben ist, ist nicht da und für die Red gibt WD an:

WD Red wurde für NAS-Systeme mit 1 bis 8 Laufwerkschächten entwickelt

Nun kannst Du mir das glauben oder auch einfach unterstellen, dass es kein Limit gibt wenn es nicht angegeben ist, dies überlasse ich Dir, denn es sind Deine Platten und Deine Daten und Du musst mit den Konsequenzen leben.

Tronix · 10. April 2019

Eine Frage zu der Festplatte. Die Leserfehlerrate mit 15527 und die Schreibfehlerrate mit 516 sind extrem auffällig. Sollte die Platte langsam erneuert werden oder ist das bei den hohen Betriebsstunden normal? Wundert mich einfach nur weil die Platte trotzdem als „Gut“ angezeigt wird.

Holt · 10. April 2019

Bei über 55000 Betriebsstunden ist es für eine Green auch kein Wunder wenn sie so langsam aufgibt, die ist ja nicht für den Dauerbetrieb gemacht. Die alten Green halten dies noch besser aus, aber ersetze sie auf jeden Fall durch eine Platte die für den Dauerbetrieb zugelassen ist, also z.B. die Red.

CrystalDiskInfo zieht für die Bewertung nur wenige Attribute heran, daher recht es nicht nur auf dessen Bewertung zu schauen, sondern man muss sich die Werte schon genau ansehen.

Tronix · 10. April 2019

Danke für die Antwort. Aus dem Homeserver wurde die Platte schon vor ein paar Wochen entfernt und dort werkeln auch nur noch aktuelle 6-10TB WD Reds herum. War sozusagen der letzte Überbleib der alten HDD Generation. Eigentlich wollte ich die Platte noch in einem externen Gehäuse weiterbetreiben, aber in dem Fall wird die wohl komplett ausgemustert…

Elcrian · 11. April 2019

Hallo,

kann mir jemand bei der Interpretation folgender Kernel Errors helfen? Ich bin mir nicht sicher, inwiefern die Platte bereit fuer einen Austausch ist.

Kernel errors -

Code:

Apr 11 11:03:05 bigiron kernel: [46202.211486] ata4.00: exception Emask 0x0 SAct 0x100000 SErr 0x0 action 0x0
Apr 11 11:03:05 bigiron kernel: [46202.212582] ata4.00: irq_stat 0x40000008
Apr 11 11:03:05 bigiron kernel: [46202.213874] ata4.00: failed command: READ FPDMA QUEUED
Apr 11 11:03:05 bigiron kernel: [46202.214970] ata4.00: cmd 60/00:a0:90:eb:19/01:00:3d:01:00/40 tag 20 ncq dma 131072 in
Apr 11 11:03:05 bigiron kernel: [46202.214970]          res 41/40:00:d0:eb:19/00:00:3d:01:00/40 Emask 0x409 (media error) <F>
Apr 11 11:03:05 bigiron kernel: [46202.217216] ata4.00: status: { DRDY ERR }
Apr 11 11:03:05 bigiron kernel: [46202.218312] ata4.00: error: { UNC }
Apr 11 11:03:05 bigiron kernel: [46202.345879] ata4.00: configured for UDMA/133
Apr 11 11:03:05 bigiron kernel: [46202.345898] sd 3:0:0:0: [sdb] tag#20 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Apr 11 11:03:05 bigiron kernel: [46202.345902] sd 3:0:0:0: [sdb] tag#20 Sense Key : Medium Error [current]
Apr 11 11:03:05 bigiron kernel: [46202.345905] sd 3:0:0:0: [sdb] tag#20 Add. Sense: Unrecovered read error - auto reallocate failed
Apr 11 11:03:05 bigiron kernel: [46202.345909] sd 3:0:0:0: [sdb] tag#20 CDB: Read(16) 88 00 00 00 00 01 3d 19 eb 90 00 00 01 00 00 00
Apr 11 11:03:05 bigiron kernel: [46202.345911] blk_update_request: I/O error, dev sdb, sector 5320076176
Apr 11 11:03:05 bigiron kernel: [46202.347040] md/raid1:md126: sdb: rescheduling sector 5319814032
Apr 11 11:03:05 bigiron kernel: [46202.348140] ata4: EH complete

Platten -

Code:

NAME                     MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
sda                        8:0    0   2.7T  0 disk
└─md126                    9:126  0   2.7T  0 raid1 /mnt/3TB
sdb                        8:16   0   2.7T  0 disk
└─md126                    9:126  0   2.7T  0 raid1 /mnt/3TB

Smart /dev/sda (das ist eine WD Red - keine Ahnung warum die als Green angezeigt wird) -

➜ /mnt sudo smartctl -a /dev/sda
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-8-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Green
Device Model: WDC WD30EZRX-00D8PB0
Serial Number: WD-WMC4N0726987
LU WWN Device Id: 5 0014ee 003acd7ef
Firmware Version: 80.00A80
User Capacity: 3,000,592,982,016 bytes [3.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Apr 11 11:06:36 2019 EDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (39240) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 394) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x7035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 180 173 021 Pre-fail Always - 6000
4 Start_Stop_Count 0x0032 097 097 000 Old_age Always - 3424
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 082 082 000 Old_age Always - 13554
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 703
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 116
193 Load_Cycle_Count 0x0032 185 185 000 Old_age Always - 47873
194 Temperature_Celsius 0x0022 116 097 000 Old_age Always - 34
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

SMART Error Log Version: 1
ATA Error Count: 1
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1 occurred at disk power-on lifetime: 8878 hours (369 days + 22 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 01 00 00 00 00 Error: ABRT

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d5 01 e1 4f c2 00 08 00:22:58.296 SMART READ LOG
b0 d5 01 e1 4f c2 00 08 00:22:58.296 SMART READ LOG
b0 d6 01 e0 4f c2 00 08 00:22:58.295 SMART WRITE LOG
b0 d6 01 e0 4f c2 00 08 00:22:58.294 SMART WRITE LOG
b0 d5 01 e0 4f c2 00 08 00:22:58.294 SMART READ LOG

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 12542 -
# 2 Short offline Completed without error 00% 9956 -
# 3 Short offline Completed without error 00% 9944 -
# 4 Short offline Completed without error 00% 9786 -
# 5 Short offline Completed without error 00% 9774 -
# 6 Short offline Completed without error 00% 9762 -
# 7 Short offline Completed without error 00% 9750 -
# 8 Short offline Completed without error 00% 9726 -
# 9 Short offline Completed without error 00% 9696 -
#10 Short offline Completed without error 00% 9646 -
#11 Short offline Completed without error 00% 9622 -
#12 Short offline Completed without error 00% 9598 -
#13 Short offline Completed without error 00% 9574 -
#14 Short offline Completed without error 00% 9550 -
#15 Short offline Completed without error 00% 9526 -
#16 Short offline Completed without error 00% 9502 -
#17 Short offline Completed without error 00% 9478 -
#18 Short offline Completed without error 00% 9455 -
#19 Short offline Completed without error 00% 9431 -
#20 Short offline Completed without error 00% 9407 -
#21 Short offline Completed without error 00% 9383 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Smart /dev/sdb -

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-8-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Red
Device Model: WDC WD30EFRX-68EUZN0
Serial Number: WD-WMC4N0F5W7U4
LU WWN Device Id: 5 0014ee 65a6f4126
Firmware Version: 82.00A82
User Capacity: 3,000,592,982,016 bytes [3.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Apr 11 11:04:05 2019 EDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 241) Self-test routine in progress...
10% of test remaining.
Total time to complete Offline
data collection: (40080) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 402) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x703d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 196 196 051 Pre-fail Always - 52112
3 Spin_Up_Time 0x0027 179 173 021 Pre-fail Always - 6041
4 Start_Stop_Count 0x0032 098 098 000 Old_age Always - 2688
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 085 085 000 Old_age Always - 11623
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 519
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 111
193 Load_Cycle_Count 0x0032 196 196 000 Old_age Always - 13367
194 Temperature_Celsius 0x0022 119 095 000 Old_age Always - 31
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 001 001 000 Old_age Offline - 1642095

SMART Error Log Version: 1
ATA Error Count: 1
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1 occurred at disk power-on lifetime: 6913 hours (288 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 01 00 00 00 00 Error: ABRT

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d5 01 e1 4f c2 00 08 00:23:00.056 SMART READ LOG
b0 d5 01 e1 4f c2 00 08 00:23:00.056 SMART READ LOG
b0 d6 01 e0 4f c2 00 08 00:23:00.055 SMART WRITE LOG
b0 d6 01 e0 4f c2 00 08 00:23:00.054 SMART WRITE LOG
b0 d5 01 e0 4f c2 00 08 00:23:00.054 SMART READ LOG

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 10668 -
# 2 Short offline Completed without error 00% 8002 -
# 3 Short offline Completed without error 00% 7990 -
# 4 Short offline Completed without error 00% 7705 -
# 5 Short offline Completed without error 00% 7681 -
# 6 Short offline Completed without error 00% 7657 -
# 7 Short offline Completed without error 00% 7633 -
# 8 Short offline Completed without error 00% 7609 -
# 9 Short offline Completed without error 00% 7585 -
#10 Short offline Completed without error 00% 7561 -
#11 Short offline Completed without error 00% 7537 -
#12 Short offline Completed without error 00% 7513 -
#13 Short offline Completed without error 00% 7490 -
#14 Short offline Completed without error 00% 7466 -
#15 Short offline Completed without error 00% 7442 -
#16 Short offline Completed without error 00% 7418 -
#17 Short offline Completed without error 00% 7394 -
#18 Short offline Completed without error 00% 7370 -
#19 Short offline Completed without error 00% 7346 -
#20 Short offline Completed without error 00% 7322 -
#21 Short offline Completed without error 00% 7298 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Danke

(Maschine laeuft auf Debian 9)

Holt · 11. April 2019

"failed command: READ FPDMA QUEUED" Es wurde also beim Lesen ein Fehler geworfen und die Red hat ja auch 52112 Lesefehler: "Raw_Read_Error_Rate 0x002f 196 196 051 Pre-fail Always - 52112". Da beide im RAID 1 laufen, ist dies aber kein Problem, da die md RAID Verwaltung dann die Daten von der anderen Platte liest und den betroffenen Sektor überschreibt, weshalb es auch keine schwebenden Sektoren gibt und da auch keine wiederzugewiesenen Sektoren vorhanden sind, ist die Oberfläche der Platte nicht beschädigt gewesen.

Elcrian · 12. April 2019

Meinst du es liegt an der mdadm/RAID Konfiguration? Die seltsamsten Dinge passieren - rsync und cp bleiben einfach in der Mitte des Prozesses haengen, an den unterschiedlichsten Files. Versucht man jene Datei mit vim, hexedit, tail... (i.e., alles mit I/O auf selbigem) zu oeffnen passiert das gleiche, der Prozess haengt sich auf.

Jenen kriege ich nur mit kill -9 tot, und strace sagt nur das ein read() call in der Luft haengt. Teilweise laesst sich das Array nicht mal mehr unmounten.

Code:

➜  ~ sudo lsof /mnt/3TB
COMMAND   PID USER   FD   TYPE DEVICE SIZE/OFF      NODE NAME
cp      28422 root    3r   REG    9,3  1006950 163840276 /mnt/3TB/Photos/2002/bla.jpg
➜  ~ sudo kill -9 28422
➜  ~ sudo umount /mnt/3TB
^C^C^C^C

MiamXD · 15. April 2019

Ich habe mir für mein NAS eine neue Ironwolf 6TB angeschafft. Mittlerweile hab ich mir angewöhnt, die SMART Werte vor dem Einsatz zu prüfen, aber irgendwie kommen die mir die Rohwerte bei Lesefehler, Suchfehler und Hardware ECC ziemlich hoch vor. Sollten die so aussehen?

Bei einer alten WD Red stehen die nach 8000Std noch auf 0...

Jesterfox · 15. April 2019

Das ist bei Seagate normal, die packen da in den Rohwert zwei Werte rein, ich glaub die linken 4 Stellen oder so sind die tatsächlichen Fehler, der Rest nur die Anzahl der Vorgänge.

Holt · 15. April 2019

Bei Seagate sind die Rohwerte der Attribute Seek Error Rate, Raw Read Error Rate und Hardware ECC Recovered nicht einfache Zählerstände der Fehler, sondern enthalten die Fehlerzähler nur in den 2 höchsten Bytes (die linken 4 Stellen bei hexadezimaler Anzeige der Rohwert in CrystalDiskInfo) und die rechten 8 Stellen (4 Byte) sind der Zähler der Vorgänge dar. Die Ermittlung der Aktuellen Werte funktioniert mehr oder weniger für diese Attribute nach dieser Formel für die Suchfehler:

normalised SER = -10 log (lifetime seek errors / lifetime seeks)

In the above formula, if the drive has recorded no errors, then we would still need to set the number of errors to 1, otherwise the result would be indeterminate.

The following table correlates the normalised SER against the actual error rate:

90 — <= 1 error per 1000 million seeks
80 — <= 1 error per 100 million
70 — <= 1 error per 10 million
60 — <= 1 error per million
50 — 10 errors per million
40 — 100 errors per million
30 — 1000 errors per million
20 — 10 errors per thousand

Wie man sieht, muss auch erst eine bestimmten Anzahl von Vorgängen erfolgt sein, bevor der Aktuelle Wert überhaupt errechnet wird, ist diese Anzahl erreicht fällt er und steigt dann wieder, sofern es nicht keine/nicht zu häufig Fehler gibt.

jsimeze · 15. April 2019

Hallo,
ich habe eine alte Festplatte gefunden und wollte auf dieser einmal Linux installieren. Diese soll dann auch für tägliche Nutzung etwas länger halten. Doch die S.M.A.R.T-Werte sahen nicht so aus als würde sie noch sehr lange laufen. Bei meinen anderen Festplatten (beide 2 jahre +) ist bei der Lesefehlerrate der Aktuelle und der schlechteste Wert 100. Bei der Festplatte die ich jetzt einbauen will, ist aktuell=100,schlechtester=68,grenz=16. Werde ich die Festplatte noch lange nutzen können?
Hier nochmal ein Screenshot aus Crystaldisk:

und ein weiter Screen weil sich das Fenster aus unbekannten Gründen nicht horizontal erweitern lässt:

Ich hoffe ich bekomme eine gute Antwort.
~jsimeze

Holt · 15. April 2019

Lies mal #5632, dann sollte klar sein, dass man von solche uralten Platten nicht mehr wirklich erwarten kann, dass sie noch länger halten, auch wenn sie nur irgendwo gelegen haben. Es kann sein, es kann aber auch sein das sie bald ausfallen.

tiga05 · 16. April 2019

Hallo!

Könnt ihr euch mal anschauen, ob die Werte hier in Ordnung sind?

Danke!

Ein Kumpel hat aktuell Probleme, dass er nichts mehr klicken kann und der Bildschirm einfriert. Die Maus kann jedoch bewegt werden. Irgendwie habe ich das Gefühl, dass keine Lese und Schreiboperationen mehr möglich sind. Aber diese Analysen gehören dann in einen anderen Thread.

Holt · 17. April 2019

Die NANDs der 840er haben 133 P/E Zyklen runter, aber 89% der spezifizierten P/E Zyklen sind noch übrig. Auffällig sind die viel POR-Wiederherstellungen, also unerwarteten Spannungsabfälle und so einen Fall hatte ich schon einmal, da was der beQuiet Netzteil Schuld, die haben oft ein echt mieses Regelverhalten bei Lastwechseln und so eine GTX1080 kann extrem starke Lastwechsel erzeugen.

Die Werte der HDD sind in Ordnung, die ist aber sicher schon über die vom Hersteller geplante Nutzungsdauer von i.d..R. 5 (Kalender-)Jahren hinaus. Ein Backup ist sowieso immer Pflicht, ein Ersatz der HDD wäre auch irgendwann ins Auge zu fassen.

andi_sco · 17. April 2019

Hi in die Runde,

könnt Ihr etwas mit diesen Daten Anfangen und warum CDI "Vorsicht" anzeigt?
Die Platte lag viel in der Ecke und ist älter als 6 Jahre.

Holt · 17. April 2019

Vorsicht kommt, weil es einen schwebenden Sektor gibt. Die Platte ist uralt, die wird im Preisvergleich seit 2010 gelistet, HDDs haben aber nur eine vom Hersteller geplante Nutzungsdauer von i.d.R. 5 Jahren, die diese hier wohl schon hinter sich haben dürfte. Samsung hat früher die geplante Nutzungsdauer auch immer recht offen in die Datenblätter geschrieben, so wie hier:

Component Design Life: 5 years

Bei aktuellen HDDs steht das nur noch sehr selten so offen im Datenblatt, aber indirekt findet man es auch immer noch, so steht bei der ST1000VX005 im Product Manual auch noch

Contact start-stop cycles (25°C, 50% rel. humidity): 50,000
...
10,000 average motor start/stop cycles per year

Aus 50.000 insgesamt und 10.000 pro Jahr ergibt sich dann aber doch wieder der Hinweis auf die geplante Nutzungsdauer von 5 Jahren. Sind des Kalenderjahre, da HDDs auch altern wenn sie nicht benutzt werden und daher auch nur beschränkt lagerbar sind. Darüber schreibt Seagate z.B. hier und auch in einigen anderen Product Manuals:

The recommended storage period:
• 1 year under controlled conditions of 34°C 90%RH or less
• 90 days in uncontrolled storage conditions

Und außerdem:

Storage
The maximum recommended storage period for the drive in a non-operational environment is 90 days. Drives should be
stored in the original unopened Seagate shipping packaging whenever possible. Once the drive is removed from the
Seagate original packaging the recommended maximum period between drive operation cycles is 30 days. During any
storage period the drive non-operational temperature, humidity, wet bulb, atmospheric conditions, shock, vibration,
magnetic and electrical field specifications should be followed.

Wenn also die Lagerbedingungen nicht eingehalten werde, sind 90 Tage und zwar in der ungeöffneten Originalverpackung, sonst bestenfalls 1 Jahr. Nach dem Öffnen sollten HDD nicht länger als 30 Tage stromlos sein.

Bei der neuen Barracuda Pro 10TB mit Heliumfüllung schreibt Seagate:

2.10.2 Storage
Maximum storage periods are 180 days within original unopened Seagate shipping package or 60 days unpackaged within the
defined non-operating limits (refer to environmental section in this manual). Storage can be extended to 1 year packaged or
unpackaged under optimal environmental conditions (25°C, <40% relative humidity non-condensing, and non-corrosive
environment). During any storage period the drive non-operational temperature, humidity, wet bulb, atmospheric conditions,
shock, vibration, magnetic and electrical field specifications should be followed.

Also hier nur ein halbes Jahr in der ungeöffneten originalen Versandverpackung von Seagate und sonst 2 Monate, nur bei optimalen Bedingungen bis zu einem Jahr.

HGST schreibt für die meisten Modelle wie z.B. für die Megascale:

Maximum storage period within shipping package is one year

Das bedeutet nicht, dass die HDDs dann automatisch Schaden nehmen oder gar komplett kaputt sind, wenn man diese Vorgaben nicht einhält. Aber ganz ignorieren sollte man es nicht, denn im Thread Festplatten sterben wie die Fliegen - was mache ich falsch? sind jemandem der ein halbes Jahr im Ausland war, binnen 3 Monaten 4 HDDs gestorben. Die HDDs waren wohl in einem NAS im Keller, also nicht unter optimalen Bedingungen gelagert und natürlich müssen solche Angaben auch unter den ungünstigsten der erlaubten Bedingungen noch eingehalten werden. Unter optimalen Bedingungen dürften die Platten auch eine weitaus längere Zeit ohne Probleme überstehen.

Andererseits sind Schwebende Sektoren einfach nur Sektoren deren Daten nicht mehr zur ECC passen die hinter jedem Sektor steht und die mit deren Hilfe auch nicht mehr korrigiert werden können. Da die korrekten Daten nicht mehr feststellbar sind, gibt die Platte statt falscher Daten einen Lesefehler als Antwort wenn man versucht diese schwebenden Sektoren zu lesen. Das kann auch anderen Gründe als defekte Oberflächen haben, z.B. einen Stromausfall während eines Schreibvorgang der dazu führt, dass eben nicht die ganze Daten plus der neuen ECC geschrieben wurden oder wegen eines Stoßes oder Vibrationen ist der Kopf beim Schreiben aus der Spur gekommen und hat Daten auf der Nachbarspur überschrieben. Auch arbeiten HDDs nicht 100%ig und die Hersteller geben die Fehlerhäufigkeit auch in Form der UBER an, wobei eine UBER von 1:10^14 bedeutet, dass je 10^14 gelesener Bits was etwa 12TB gelesener Daten entspricht, ein Lesefehler und damit schwebender Sektor im Rahmen der Erwartungen liegt.

Die Controller merken sich die schwebenden Sektoren und prüfen die Daten nach dem erneuten Schreiben auf diese Sektoren, dann verschwinden diese einfach oder werden eben durch Reservesektoren ersetzt.

Von daher ist das also noch lange kein sicherer Hinweis auf ein baldiges Ende der Platte, zumal es mit 0x4C = 76 unerwarteten Spannungsabfälle bei 404 Einschaltungen durchaus einige gab, wer kann schon sicher sagen, ob bei einem nicht gerade geschrieben wurde? Die USB Platten sollte man eben immer vernünftig abmelden, nur so kann man verhindern, dass nicht doch gerade dann ein Zugriff passiert, wenn man sie abzieht.

C4rp3di3m · 18. April 2019

Was haltet ihr von der Platte, gekauft 2011. Läuft im 4bay HDD gehäuse, tausche sie heute gegen eine neue 4TB WD Blue aus. Weiter verwenden?

mfg

andi_sco · 18. April 2019

@Holt : "zumal es mit 0x4C = 76 unerwarteten Spannungsabfälle" - das kann damit zusammenhängen, das die Platte mal mit einem und mal mit zwei USB Anschlüssen betrieben werden muss.

Holt · 18. April 2019

USB2 Ports müssen nur 500mA liefern, was eigentlich keiner HDD zum Anlaufen reicht. Nun geben manche Ports mehr Strom als sie müssen, andere aber eben nicht. Sollte sie es aber gar nicht geschafft haben anzulaufen, so dürfte dies zumindest nicht zu einem schwebenden Sektor führen, auch wenn es vielleicht (k.A. ob dem bei dieser Platte so ist) als unerwarteter Spannungsabfall registriert wurde. Nimm in Zweifel besser einen aktiven Hub, also einen mit einem eigenen Netzteil.

Kettenhunt · 28. April 2019

Moin,

Hab da eine ältere M9T in Gebrauch, wo aber die Stunden nicht stimmen können, da die bei mir seit min. einem halbem Jahr im Dauerbetrieb am NAS läuft.

Bei Kauf:

jetzt:

was da los?

Eingebaut in einem externen Gehäuse, Raidsonic IB-245-C31-B.
Am gleichem NAS hab ich auch eine externe SSD hängen, da ist es plausibel, .

[Sammelthread] HDD-Probleme, SMART-Analysen

Banned

Commander

Banned

Commander

Commander

Banned

Commander

Lieutenant

Anhänge

Legende

Banned

Cadet 1st Year

Banned

Lt. Commander

Banned

Legends of Tomorrow

Banned

Captain

Legends of Tomorrow

Banned

Lt. Commander

Ähnliche Themen

Passend zum Thema