[Sammelthread] HDD-Probleme, SMART-Analysen

Du empfiehlst mir ein Windows-Programm, obwohl ich offensichtlich Linux verwende? :rolleyes:

Eines mit Bewertung des Zustandes was auf Debian läuft wäre mir lieber. :D
 
@riff
Die pending sectors sind Daten, die die Platte im Moment nicht lesen kann.
Heilung (ggf. durch remapping) ist nur möglich, wenn die entsprechenden Sektoren neu geschrieben werden.
Wie Du das hinbekommst, dass genau die Sektoren neu geschrieben werden und das auch noch unter Linux, ist sicher eine gute Frage.
Da müsste man mal ein entsprechendes Tool finden.

Wenn auf den nicht lesbaren Sektoren was liegt, was dein Linux gerne lesen würde, bekommt es bei dem Versuch natürlich immer einen Lesefehler.
Von verbrauchten Spare Sektoren ist nichts zu sehen.
 
Könnte ich das Raid degradieren, die Platte aus dem Verbund entfernen, komplett mit Nullen überschreiben und dann wieder einbinden, sodass ggf die defekten/nicht lesbaren Sektoren eine Auffrischung erhalten oder kann ich mir die Arbeit und Zeit für den Rebuild sparen?

Wie schaut es mit Tauschbedingungen bei WD aus? Sind nicht lesbare Sektoren ein RMA-Grund?
 
riff schrieb:
Mir spuckt eine WD Red 6 TB (WD60EFRX), Firmware ist 82.00A82 (ist das noch aktuell oder gibt es hier Handlungsbedarf?) eines Raid 5 folgende S.M.A.R.T-Werte aus:


Code:
Current_Pending_Sector  -O--CK   200   200   000    -    32
Offline_Uncorrectable   ----CK   200   200   000    -    32
Pending Sector oder Schwebende Sektoren sind Sektoren deren Daten nicht mehr zur ECC passen. Da die korrekten Daten nicht mehr feststellbar sind, gibt die Platte statt falscher Daten einen Lesefehler als Antwort wenn man versucht diese zu lesen. Das kann auch anderen Gründe als defekte Oberflächen haben, z.B. einen Stromausfall während eines Schreibvorgang der dazu führt, dass eben nicht die ganze Daten plus der neuen ECC geschrieben wurden oder wegen eines Stoßes oder Vibrationen ist der Kopf beim Schreiben aus der Spur gekommen und hat Daten auf der Nachbarspur überschrieben.

Die Controller merken sich die schwebenden Sektoren und prüfen die Daten nach dem erneuten Schreiben auf diese Sektoren, dann verschwinden diese einfach oder werden eben durch Reservesektoren ersetzt.

Mich wundert das bei einem RAID 5, denn da sollte ein Lesefehler von der Platte dazu führen, dass die Daten anhand der Parity wiederhergestellt werden und auf der Platte die den Fehler gemeldet hat wie überschrieben werden. Daher haben Platten in einem echten RAID eigentlich nie schwebende Sektoren, allenfalls wiederzugewiesene Sektoren! Was für eine RAID Lösung ist das?
riff schrieb:
Ein Prefail-Flag ist ja noch nicht gesetzt, allerdings gehe ich davon aus, dass 32 unkorrigierbare Sektoren schon alle Spare-Sektoren "gefressen" haben. Ist es empfehlenswert die Platte direkt zu tauschen?
Nein, gefressen haben sie daran nicht, sonst gäbe es wiederzugewiesene Sektoren, diese sind noch nicht überschrieben worden.

riff schrieb:
Desweiteren hab ich mittlerweile auf allen 3 Platten 16 "ATA error"/"Device Error Count". Gehe ich richtig in der Annahme, dass das Kommunikationsfehler zw. Controller und Platte sind? Wie sind diese zu behandeln?
Keine Ahnung, wo stehen die denn? Die Kommunikationsfehler stehen gewöhnlich unter "199 UDMA_CRC_Error_Count", aber der ist 0 bei Dir.
 
Ichinose, vergiss die automatische Bewertung, da gibt es nur die hysterischen Programme, die oft bei nicht vorhandenen Problemen schon Panik machen und solche, die grobe Fehler übersehen. Die Werte sind ja doch in Ordnung und die Angabe "Pre-fail " in der Spalte "TYPE" beschreibt nur das S.M.A.R.T. Attribut, es enthält eben nicht eine Aussage zum Zustand der Platte wie manche fälschlich meinen! Es bedeutet also nur, dass wenn diese Attribut schlecht werden hat, denn deutet das auf einen baldigen Ausfall hin, es sagt nichts darüber, ob der Wert nun gut oder nicht mehr gut ist, diese Informationen muss man aus dem Wert und dem Rohwert schon selbst auslesen.
 
@Holt: Ist ein mdadm Soft-Raid 5, Debian 7, Oberfläche OpenMediaVault. Raid wird als "Clean" klassifiziert.

Kann ich die Sektoren der "defekten" Platte durch ein Degradieren und neu Einbinden beheben? Durch den Rebuild sollte doch wieder alles auf der Spur landen wo es hingehört?

Die ATA-Fehler bekomm ich als Email vom SMART-Daemon geschickt:

The following warning/error was logged by the smartd daemon:

Device: /dev/disk/by-id/scsi-SATA_WDC_WD60EFRX-68_WD-XXXXXXXX [SAT], ATA error count increased from 18 to 19

Im Log taucht es dann hier auf:

Code:
SMART Extended Comprehensive Error Log Version: 1 (6 sectors)
Device Error Count: 19
	CR     = Command Register
	FEATR  = Features Register
	COUNT  = Count (was: Sector Count) Register
	LBA_48 = Upper bytes of LBA High/Mid/Low Registers ]  ATA-8
	LH     = LBA High (was: Cylinder High) Register    ]   LBA
	LM     = LBA Mid (was: Cylinder Low) Register      ] Register
	LL     = LBA Low (was: Sector Number) Register     ]
	DV     = Device (was: Device/Head) Register
	DC     = Device Control Register
	ER     = Error register
	ST     = Status register
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 19 [18] occurred at disk power-on lifetime: 4578 hours (190 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  04 -- 51 00 0b 00 00 00 00 00 00 00 00  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  b0 00 d5 00 01 00 00 00 c2 4f e1 00 08 20d+07:03:21.404  SMART READ LOG
  b0 00 d6 00 01 00 00 00 c2 4f e0 00 08 20d+07:03:21.404  SMART WRITE LOG
  b0 00 d5 00 01 00 00 00 c2 4f e0 00 08 20d+07:03:21.404  SMART READ LOG
  b0 00 d6 00 01 00 00 00 c2 4f e0 00 08 20d+07:03:21.403  SMART WRITE LOG
  b0 00 d5 00 01 00 00 00 c2 4f e0 00 08 20d+07:03:21.403  SMART READ LOG
 
Mach doch mal ein Scrubbing, das sollte man einmal im Monat machen, nicht öfter. Dabei müssten die schwebenden Sektoren eigentlich auffallen und die Sektoren überschrieben werden.

Die ATA Fehler dürfte einfach nur falsch Befehle sein, kommentiere mal in der in der /etc/smartd.conf die /dev/disk/by-id/scsi-... aus, die gleichen Platten sollte ja auch noch mal als /dev/disk/by-id/ata-...dort sehen.
 
Scrub läuft normal jeden 1. Sonntag im Monat. Ich hab jetzt mal einen manuell angestoßen, dauert etwas.

Die Mails kommen doppelt, einmal SCSI, einmal ATA, ist aber offensichtlich, dass es das gleiche Device ist.
 
Dann berücksichtigt OMV da offenbar die Featursets der Platten nicht und schickt denen Befehle die sie nicht verstehen und zurückweisen, die Meldungen müssten dann auch von den anderen Platten identischen Typs kommen. Das scheint ein Zähler für alle Fehlermeldungen von der HDD zu sein, die kommen eben vom Senden von Befehlen die die Platte nicht versteht oder die in dem aktuellen Zustand verboten sind, z.B. darf man bestimmte Befehle des ATA-Security-Command-Set nicht senden, wenn diese in den Frozen Zustand versetzt wurde, was eben gerade vor Missbrauch dieser Befehle durch Schadsoftware schützen soll. Außerdem liefert die Platten natürlich Fehlermeldungen beim Versuch die schwebenden Sektoren zu lesen und wenn dreimal versucht wird den gleiche schwebenden Sektor zu lesen, gibt es dreimal eine Fehlermeldung und damit dürfte der ATA error count eben um 3 steigen, was aber eben keine weiteren schwebenden Sektoren bedeuten muss, deren Anzahl kann und sollte man anhand der S.M.A.R.T. Werte prüfen.
 
Hi
hab hier zwei 2,5-zoll-HDDs (Seagate Expansion Portable, 1TB, externe Festplatte, STEA1000400, USB 3.0).
Beide sind ca. 8 Monate alt. Benutze sie 3-4 mal im Monat für Backups: somit sind sie kaum benutzt...
Wollte trotzdem (sicherheitshalber) nachsehen, ob sie OK sind. SMART-werte sind angehängt....

besten Dank and see yahhhhh....!!
 

Anhänge

  • SG_drv_B_xT.jpg
    SG_drv_B_xT.jpg
    246,5 KB · Aufrufe: 465
  • SG_drv_B_xV.jpg
    SG_drv_B_xV.jpg
    243,7 KB · Aufrufe: 466
Zuletzt bearbeitet:
Hallo Zusammen,
ich habe eine Festplatte mit einer Auffälligkeit:

HDD Typ WD 6.0 TB green Modell WD60EZRX
Die S.M.A.R.T-Werte sind alle ohne Befund. Zwischenzeitlich gab es einmal einen Hinweis "schwebende Sektor". Der ist dann aber nie wieder aufgetreten. Die Werte sind identisch wie nach dem ersten Einschalten. Sonderbar ist jedoch, dass in regelmäßigen Abstand, exakt 3 Sekunden, man ein Klack, Klack hören kann. Es kommt also genau 2 Mal und das in schneller Folge, dann ist wieder 2 Sekunde Ruhe, dann kommt wieder Klack, Klack. Die Platte ist zu 2/3 voll geschrieben. Es gibt weder Leser- noch Schreibfehler. Die Platte macht auch dann diese Geräusche wenn ich kein Datenkabel angeschlossen habe und wenn ich z. B. im BIOS bin. Man hört es allerdings nur dann wenn die Platte aus dem Gehäuse ausgebaut ist. Ist die Platte angeschlossen, Datenkabel verbunden, in Windows eingebunden, funktioniert sie ohne Probleme, CrystalDiskInfo wirft nichts aus und sogar der Energiesparmodus (Platte fährt runter) funktioniert. Es ist nur dieses KLACK, KLACK was mir Sorgen macht.

Ist das normal oder besser Gewährleistung in Anspruch nehmen (Kauf ist keine 3 Monate her).
 
NRJ, ja sind sie. Die eine hat 3 Schreib- und einen Lesefehler, aber die würde ich nicht als kritisch einordnen. Achte trotzdem auf ein Backup, also keine Daten zu verlieren, sollte eine der Platten ausfallen, denn das kann immer mal passieren, z.B. reicht es wenn eine HDD aus einigen cm Hähe reunterfällt und nur Backups schützen dann vor Datenverlust!

bop99, Schwebende Sektoren sind Sektoren deren Daten nicht mehr zur ECC passen. Da die korrekten Daten nicht mehr feststellbar sind, gibt die Platte statt falscher Daten einen Lesefehler als Antwort wenn man versucht diese zu lesen. Das kann auch anderen Gründe als defekte Oberflächen haben, z.B. einen Stromausfall während eines Schreibvorgang der dazu führt, dass eben nicht die ganze Daten plus der neuen ECC geschrieben wurden oder wegen eines Stoßes oder Vibrationen ist der Kopf beim Schreiben aus der Spur gekommen und hat Daten auf der Nachbarspur überschrieben. Wie viele HDDs sind im Gehäuse? Die Green haben keine Vibrationssensoren, die sind nur dafür gemacht als einige HDD im Gehäuse verbaut zu sein!

Die Controller merken sich die schwebenden Sektoren und prüfen die Daten nach dem erneuten Schreiben auf diese Sektoren, dann verschwinden diese einfach oder werden eben durch Reservesektoren ersetzt. Erstens ist offenbar bei Deiner Platte passiert. Das Geräusch dürfte vom Parken der Köpfe kommen, schau mal auf den Rohwert der Lade-Entladezyklen, wenn der sich nach dem Geräusch erhöht hat, ist es das. Bedachte das man bei CrystalDiskInfo F5 drücken muss um die Werte neu einlesen zu lassen. Abhilfe könnte das Tool WDIDLE3 bringen, aber das läuft richtig nur unter DOS, es funktioniert nicht korrekt in einer Eingabeaufforderung von Windows!
 
Hey,

kurze Frage an die Festplatten Experten: Schaden häufige Ein/Aus-Vorgänge der Festplatte?
Ich habe mehrere Festplatten, die nur als Datengrab dienen. Der Lautstärke wegen, schalten diese sich nach 5min Idle automatisch ab. Jetzt habe ich Festplatten mit 100 Betriebsstunden und 3000 Einschaltvorgängen...ist das ok, oder verschleiße ich die Platten damit zu schnell?
 
Ja, die schaden der HDD, die sind nur für eine bestimmte Anzahl von Start-Stopp Zyklen ausgelegt. Bei den Consumer HDDs sind es meist 50.000 geplante und wenn die Platten wegen eines unerwarteten Spannungsabfalls die Köpfe notparken muss, noch viel weniger, der Verschleiß ist dabei größer. Bei den Enterprise HDDs können es noch viel weniger sein, für die Constellation ES.2 gab Seagate im Product Manual sogar nur 250 im Jahr an, bei mehr kann die Zuverlässigkeit leiden.

Wenn Du nach 100 Stunden schon 3.000 oder meist 50.000 Start-Stop Zyklen verbraucht hat, kannst Du Dir ausrechnen, wann Du in den Bereich kommst wo Du hoffen musst, dass die Platten viel mehr aushalten als der Hersteller verspricht. Ich würde andere Maßnahmen gegen den Lärm wählen oder schauen warum die Platten so oft aufgeweckt werden. Aber ganz passen die Zahlen sowieso nicht, denn 3000 nach 100 Stunden wäre alle 2 Minuten!
 
Die relativ frisch eingebaute HSGT 7K6000 zeigt ein etwas merkwürdiges Verhalten bzgl. des C0 Power-off Retract Count.
Jeder C1 Load/Unload Cycle ist auch immer ein Power-off retract count.
Das der Wert irgendwie nicht ernst gemeint sein kann, sieht man daran, dass der 0C Power Cycle Count geringer ist.

Die Werte C0 und C1 gehen z.B. auch dann hoch, wenn man die Platte mittels dem japanischen HotSwap-Tool auswerfen lässt, das dabei auch einen Spindown per Befehl auslöst.
Ich habe die Platte dabei nicht mal abgezogen.

Irgendeine Idee/Meinung dazu?
HGST_PowerCycleaso.PNG
 
Zuletzt bearbeitet:
C0 Power-off Retract Count sind die Notparkungen der Köpfe, wenn also die Spannugnsversorgung untebrichen wird, ohne dass die HDD vorher informiert wurde und damit die Köpfe geparkt hat. Dafür kann die HDD nichts, da ist das System schuld. Entweder stützte es ab, wurde hart ausgeschaltet, z.B. wenn die Mehrfachsteckleiste ausgemacht wenn der Monitor ausgeht und nicht erst nachdem die Power-LED ausgegangen ist, am Besten macht man den Rechner erst aus wenn die Lüfter stehen. Es kann auch sein, dass der Rechner eben gar nicht runtergefahren, sondern so ausgemacht wurde oder ein Stromausfall vorlag, vielleicht werden die HDDs auch nicht für den Shutdown informiert, dann wäre es vielleicht ein SW-Problem. Vielleicht ist es auch ein Problem des Netzeils oder Kabelstranges, Molex-SATA Adapter sind auch gerne mal totaler Schrott, die sollte man meiden und denn es nicht das vorher beschriebene Verhalten ist, dann würde ich mal einen SATA Stecker von einem anderen Strang des Netzteil oder gar ein anderen Netzteil probieren, es gibt ja auch Netzteil bei denen das Power-Good Signal noch anliegt, wenn die Spannungen schon lange nicht mehr im Toleranzbereich sind.

Es sollte behoben werden, denn der Verschleiß ist bei diesem Notparken der Köpfe wegen einem Power-off Retract bedeuten deutlich erhöhten Verschleiß.
 
Zuletzt bearbeitet:
Ich habe hier auch 2 Hitachi/HGST Platten im USB Gehäuse, das eine ist von HGST selbst. Rechner wird normal heruntergefahren, die Platte schaltet sich dann auch aus.

Und dennoch... C0/C1 sind identisch.

Edit: C7 bei der einen stieg immer mal wieder, seit ich im Dezember mir einen neuen PC gekauft habe, nicht mehr.
 

Anhänge

  • Unbenannt2.PNG
    Unbenannt2.PNG
    132,8 KB · Aufrufe: 442
  • Unbenannt.PNG
    Unbenannt.PNG
    133,4 KB · Aufrufe: 444
Zuletzt bearbeitet:

Ähnliche Themen

Antworten
1.922
Aufrufe
256.572
J
Zurück
Oben