Koto schrieb:
Mag natürlich sein das die Platte so was heute selber korrigiert. Also den Sektor außer Dienst stellt.
Das mag nicht nur sein, wenn ein schwebender Sektor überschrieben wird, dann und nur dann prüfen die Platten die neu geschriebenen Daten und wenn sie korrekt sind, dann verschwindet der schwebende Sektor einfach wieder. Andernfalls wird ein Reservesektor aktiviert und der defekte Sektor nicht mehr benutzt, dann hat die Platten einen wiederzugewiesenen Sektor (mehr).
Racer11 schrieb:
Man kann aber nicht generell behaupten, dass schwebende Sektoren nicht auf einen Defekt hinweisen.
Man kann aber auch nicht behaupten, dass sie immer auf einen Defekt hindeuten, auch das ist definitiv falsch. Es kann neben einem Defekt eben auch andere Ursachen für schwebende Sektoren geben,
z.B. Vibrationen oder Stöße während eines Schreibvorgangs die dazu führen das Daten auf der Nachbarspur überschrieben werden oder Spannungsabfälle während Schreibvorgängen, so dass nicht mehr die kompletten Daten mit der ECC dahinter auf den Sektor geschrieben werden können. Beides ist kein Defekt der Platte. Ob ein Defekt vorliegt, sieht man erst nach dem Überschrieben und zwar daran ob ein (weiterer) Reservesektor aktiviert wurde oder nicht. Wenn nicht, lag kein Defekt vor!
Racer11 schrieb:
Meistens sogar ist es ein starkes Anzeichen für einen schon bestehenden Defekt.
Über Häufigkeiten liegt mir keine Statistik vor, aber wenn ich sehe wie oft bei den Fällen im Forum die schwebenden Sektoren nach dem Überschrieben wieder verschwunden sind, so würde ich das meistens eher nicht unterschreiben wollen. Wenn wirklich ein Defekt vorliegt, steigt die Zahl der schwebenden und i.d.R. auch die der wiederzugewiesenen Sektoren eigentlich immer recht schnell an, was dann wirklich ein Alarmsignal ist. Aber manche tauschen eben jede HDD schon beim ersten schwebenden Sektor und das ist nun wirklich übertrieben.
Racer11 schrieb:
Nur wenige mit schwebenden Sektoren hatten nach dem Wipen die gleiche Anzahl an schwebenden Sektoren oder tatsächlich weniger.
Nach dem Wipen sollte es keine schwebenden Sektoren mehr geben, wenn dabei wirklich alle Sektoren überschrieben wurden. Wenn doch, dann wurden entweder die S.M.A.R.T. Werte nicht wirklich neu eingelesen, von dem Controller der Platte nicht aktualisiert oder der hatte selbst einen Fehler, ggf. auch einen FW Bug.
Bogeyman schrieb:
Liefert eine Platten Daten die nicht mit den Prüfsummen von ZFS übereinstimmen läuft dort der Zähler hoch
Genau das passiert aber bei einem unkorrigierbaren Bitfehler nicht, die HDDs liefern eben keine korrupten Daten sondern einen Lesefehler an den Host zurück. Korrupte Daten gibt es nur, wenn entweder ein Fehler auf dem internen Datenpfad vorhanden ist und die Platte dagegen keinen Schutz hat oder wenn es einen FW Bug in der Platte oder dem Controller gibt, beides kommt selten vor. Bei SW-RAID wie ZFS kann noch das RAM hinzu kommen, zumindest sofern man kein ECC RAM (natürlich immer mit passendem System welches das auch unterstützt!) hat oder das OS auf unkorrigierbare RAM Fehler nicht entsprechend reagiert. Die Frage ist also, ob solche Lesefehler die auch jedes normale RAID (mit Redundanz) ausbügeln kann dort auch gezählt werden oder nur die eigentlich extrem unwahrscheinlichen Fälle in denen "HDDs" wirklich mal falsche Daten liefern. Keine Ahnung und wenn ich sowas lese habe ich auch keine Lust mehr mich da weiter durch die Doku zu wühlen:
Sowas gibt es bei SATA Platten nicht, außer bei Nutzung der ATA Streamingbefehle, aber die sind nur für Echtzeitvideoaufzeichnungen, die nutzt Windows von sich auch gar nicht und nur die Surveillance und Enterprise Nearline HDDs unterstützen diese Befehlserweiterung überhaupt. Das kann bei SAS Platten provoziert werden, denen kann man die Rohdaten abverlangen und genau das machen die SAS RAID Controller meist auch, nur sollte es nur gemacht werden, wenn die Sektorgröße auch entsprechend erhöht wird (z.B. auf 520 oder 528 Byte statt 512) damit der Controller dort eine eigene ECC ablegen und die Daten daher selbst prüfen kann. Wenn man da Fehler macht, sollte man sich über korrupte Daten nicht wundern und Fehler passieren immer wieder mal, auch den Entwicklern der FW von SAS HBAs/RAID Controllern.
Bogeyman schrieb:
Wenn man von diesen 12TB ausgeht und der Erwartungswert dort 1 ist, dann ist es imo sehr unwarscheinlich dass man davon überhaupt nichts sehen würde bei mehreren 100TB gelesenen Daten. Nicht unmöglich, aber doch eher unwarscheinlich sofern der UBER Wert stimmen sollte.
Der UBER Wert ist ein Worst Case, wie viel besser HDDs in der Regel sein werden, entzieht sich meiner Kenntnis, dazu habe ich auch keine Statistiken, aber ich möchte mich auch nicht darauf verlassen das eine Hardware um ein Vielfaches besser ist als es vom Hersteller angegeben wird.