Synology kritischer Zustand einer Festplatte - SMART 184 End-To-End Error

SimoN.dth

Lt. Commander
Registriert
Jan. 2007
Beiträge
1.500
Hallo zusammen,

ich hoffe, dass dieser Thread in einem angemessenen Bereich angelegt wurde...
Ich habe mir vor einigen Tagen zwei HDDs mit 4TB hier im Forum gegönnt um mein NAS damit upzugraden. Das hat generell auch super funktioniert bis auf die Tatsache, dass eine der Festplatten laut Synology in einem "kritischen" Zustand ist. Der S.M.A.R.T. Test findet einen Fehler: "184 (end-to-end error)", was folgendes bedeutet:

"End-to-End error S.M.A.R.T. parameter is a part of HP's SMART IV technology and it means that after transferring through the cache RAM data buffer, the parity data between the host and the hard drive did not match. For detailed information see SMART IV Documentation from HP. Recommendations

This is a critical parameter. Degradation of this parameter may indicate imminent drive failure. Urgent data backup and hardware replacement is recommended."​

Leider (somit kann ich nicht reklamieren) war dieser Fehler auch auf dem CDI-Screenshot im Verkaufsthread zu sehen, allerdings wird der Zustand der Platte dort tortzdem als GUT angezeigt, da der entsprechende Fehler wohl nicht ausgewertet wird bzw. nicht in die Gesamtbewertung eingeht.

Anbei seht ihr auch die Screenshots meines Synology. Hat jemand Erfahrungen mit dem Fehler? Sollte man schnell handeln oder kann man getrost "abwarten" bis der Fehler zu weiteren Problemen führt?

Danke und viele Grüße!
 

Anhänge

  • Screen Shot 2018-07-28 at 22.33.08.png
    Screen Shot 2018-07-28 at 22.33.08.png
    96 KB · Aufrufe: 763
  • Screen Shot 2018-07-28 at 22.33.00.png
    Screen Shot 2018-07-28 at 22.33.00.png
    75,2 KB · Aufrufe: 793
Auf was willst du warten?
 
Naja, bewusst mit Fehler gekauft. Und die Toleranzgrenze wurde nun erreicht/ueberschritten.

Bring Deine Daten in Sicherheit falls welche auf den Platten sind, die nirgends anderswo hast und besorg Dir 2 neue Platten. Hoffe mal Du laesst da keinen RAID0 laufen.

BFF
 
Antwort von Seagate aus diesem Thread
seagate_surfer schrieb:
Hallo Holt,

ja gerne! Das Thema Ende-zu-Ende Fehler ist allerdings etwas tricky, daher kurz zum Hintergrund und warum diese Art Fehler auftritt:

Der "Ende-zu-Ende"-Wert ist vereinfacht gesagt Teil der IO-Fehlererkennung und -korrektur. Er beinhaltet Informationen darüber, welche bzw. wie viele Abweichungen auf dem Weg zum Medium über den Cache des Laufwerks auftreten.
Oder anders gesagt: unerwartete Ereignisse bei dem Vorgang Daten aus dem Cache tatsächlich auf das Medium zu schreiben!

Der "Ende-zu-Ende"-Fehler weist entsprechend die Daten-Unterschiede zwischen Controller/Cache und den tatsächlich geschriebenen Daten aus. Sollte dieser Wert zu hoch sein, liegt also ein Problem mit dem Controller/Cache des Laufwerks vor.

Entsprechend kann das ganze zwar relativ gut entdeckt aber nicht wirklich "korrigiert" werden. Wir haben aber auch schon Fälle von "Spontanheilungen" gesehen, bei denen die Werte über einige Messungen vorhanden waren und dann auf längere Sicht gar nicht mehr aufgetreten sind. Das lässt natürlich nur auf eine "externe" Verursachung dieses Fehlers schließen (der dann u.U. abgestellt wurde).

Noch eine Anmerkung zum Schluss: sollten diese Werte auf Dauer nicht signifikant ansteigen und das Laufwerk keine weiteren Probleme machen, gibt es keinen Grund, die HDD sofort zu entsorgen. Natürlich ist in einem solchen Fall das Laufwerk im Auge zu behalten und mehr denn je auf regelmäßige Backups zu achten...
 
Die Daten sind natürlich gespiegelt, selbst wenn sie ausfällt, habe ich auf der anderen Platte noch alles vorhanden. Außerdem werden kritische Daten auf einer externen Platte zusätzlich gesichert. Danke @Smily, das liest sich ganz nett!
 
RAIDs ersetzen keine Backups! HDDs mit Ende-zu-Ende Fehlern, also Fehlern auf den internen Datenraten sind Schrott und sollten ersetzt werden, die Toleranz ist da nicht umsonst so eng gefasst, dass der Aktuelle Wert den Grenzwert schon ab dem ersten Fehler erreicht, was dann einen kritischen Zustand bedeutet.
 
Seagate schreibt ja, es kann von der HDD selbst, oder von einem externen Gerät verursacht werden und der Wert muss beobachtet werden. Sollte es ein externer Fehler sein, sollte der Fehler bei dir weg sein und die "Spontanheilung" auftreten. Wenn nicht, ist die HDD nunmal defekt. Das Laufwerk ist nicht sofort Schrott, aber ... wirklich einsetzen würde ich sie nicht mehr. Als Neukauf macht es also keinen Sinn, man will sie ja benutzen und nicht ständig überwachen.
 
Der TE hat die Sachen doch schon so gekauft, also ist die Umgebung jetzt eine andere. Folglich wirds hier auch keine spontane Heilung mehr geben. Die Platte ist hinüber
 
Ich weiß nicht, wie lange es braucht, bis diese Selbstheilung eintritt. Seagate schreibt "auf längere Sicht", was das heißt, keine Ahnung.
Klar kann man sie benutzen, aber wohl wäre mir dabei nicht. Wer speichert schon unwichtige Sachen? Auch ein Backup oder Zweit-Backup ist ja wichtig und ärgerlich, wenn es weg oder defekt ist.
 
Das mit der Selbstheilung ist Blödsinn, diese Fehler können als Folge von gekippten Bits z.B. im DRAM Cache auftreten und solche passieren als Folge von hard-errors, also wirklichen Defekten des RAMs oder auch von soft-errors, also aufgrund von irgendwelcher Strahlung. Die Platte kann natürlich von der Quelle dieser Strahlung, sei es (natürliche) radioaktive, kosmische oder auch elektromagnetische Strahlung, weiter entfernt dann künftig ohne weitere Probleme arbeiten.
 
Je nach Controller ist die „selbstheilung“ bei fehlerhaften Festplatten (Blöcke/Sektoren) kein blödsinn. Die werden markiert und gesperrt. Das dauert seine Zeit, respektive, der Block/Sektor muss zuerst als defekt erkannt werden.
Trotzdem.... wenn s.m.a.r.t meldet, Platte doof, solltest du nicht warten. Auch bei einem raid1 können deine Daten geschrottet werden, wenn der Controller zu spät merkt das er die kaputten Daten kopiert.
 
Ich würde das eher nicht so beschreiben, weil die schwebenden Sektoren können nicht mehr geheilt werden.

Was für ein Trotz - diese Heilpädagogik und ausgerechnet wird im Gebrauchzustand darüber gesprochen.
 
Das die Aussage vom Seagate Support kommt ist euch aber bewusst?
 
  • Gefällt mir
Reaktionen: rg88
support von seagate, dahinter stecken keine Fachleute, nur Personen die eine liste abarbeiten und ihre fantasie einbringen.
trotzdem würde ich die platte wechseln.
 
chrigu schrieb:
Je nach Controller ist die „selbstheilung“ bei fehlerhaften Festplatten (Blöcke/Sektoren) kein blödsinn.
Erstens haben Ende-zu-Ende Fehler nichts mit den Sektoren zu tun, die beziehen sich auf die internen Datenpfade und zweitens ist die Frage was Du genau "mit fehlerhaften Festplatten (Blöcke/Sektoren)" meinst. Blöcke gibt es bei NANDs, also SSDs, aber nicht bei HDD, da gibt es nur Sektoren und wenn Du mit fehlerhaft schwebende meinst, so sind Schwebende Sektoren erstmal nur Sektoren deren Daten nicht mehr zur ECC passen die hinter jedem Sektor steht und mit deren Hilfe auch nicht mehr korrigiert werden können. Da die korrekten Daten nicht mehr feststellbar sind, gibt die Platte statt falscher Daten einen Lesefehler als Antwort wenn man versucht diese zu lesen. Das kann auch anderen Gründe als defekte Oberflächen haben, z.B. einen Stromausfall während eines Schreibvorgang der dazu führt, dass eben nicht die ganze Daten plus der neuen ECC geschrieben wurden oder wegen eines Stoßes oder Vibrationen ist der Kopf beim Schreiben aus der Spur gekommen und hat Daten auf der Nachbarspur überschrieben. Auch arbeiten HDDs nicht 100%ig und die Hersteller geben die Fehlerhäufigkeit auch in Form der UBER an, wobei eine UBER von 1:10^14 bedeutet, dass je 10^14 gelesener Bits was etwa 12TB gelesener Daten entspricht, ein Lesefehler und damit schwebender Sektor im Rahmen der Erwartungen liegt.

Die Controller merken sich die schwebenden Sektoren und prüfen die Daten nach dem erneuten Schreiben auf diese Sektoren, dann verschwinden diese einfach oder werden eben durch Reservesektoren ersetzt. Dies ist die einzige "Heilung" die es gibt, aber in dem Fall waren die Sektoren eben nicht selbst fehlerhaft, sondern nur die Daten die auf ihnen gestanden haben.

chrigu schrieb:
Trotzdem.... wenn s.m.a.r.t meldet, Platte doof
Doof habe ich noch bei keinen Tool und keinem Attribut gelesen.
dideldei schrieb:
Ich würde das eher nicht so beschreiben, weil die schwebenden Sektoren können nicht mehr geheilt werden.
Die Daten können nicht mehr rekonstruiert werden, wenn es nicht z.B. wegen eines RAIDs Redundanz gibt, aber schwebende Sektoren können wie beschrieben sehr wohl wieder verschwinden, mit Heilung hat dies dann aber nichts zu tun und in dem Fall war die Ursache für den schwebenden Sektor auch kein Fehler der Oberfläche des Platter.
 
  • Gefällt mir
Reaktionen: dideldei
Vielen Dank für die Bestätigung, Holt
 
Zurück
Oben