Da ich keinen neuen Job brauche, habe ich seit Jahrzehnten keine Bewerbungen mehr geschrieben, Deine Kinderein kannst Du also für Dich behalten und wenn Du das was die da machen in Ordnung findest weil Du dort angestellt bist um die NAS Hersteller zu verteidigen, dann mache es und ich kritisiere es weiter. So behältst Du wenigstens Deine Job, Deine Schäfchen dürften wohl noch nicht im Trocknen sein.
Meine Motivation ist es einfach die User vor Schaden zu bewahren, die sollten halt wissen was sie da kaufen und was sie dann wirklich bekommen, gerade wenn sie auf mehr Sicherheit vor Datenkorruption als bei gewöhnlicher Heimanwender HW aus sind. Außerdem sollte sie lernen die Platten für ihre NAS eben nicht nur anhand der Freigabeliste der NAS Hersteller auszuwählen, da diese eben nicht Vorgaben der HDD Hersteller für den Einsatzzweck berücksichtigen, die manchen diese Vorgaben ja nicht zum Spaß, sondern weil HDDs bei falscher Nutzung eben nicht so lange durchalten wie es von den Nutzern erwartet wird und wie passende HDD es würden.
Cool Master, das Problem welches Filesysteme mit Prüfsummen bei der Fehlerkorrektur mit RAM Fehler bekommen, wird von denen die für die Verbreitung dieser Filesysteme eintreten klein geredet Die empfehlen durch die Bank ECC RAM zu verwenden, verlangen es aber nicht zwingend weil sie eben die Verbreitung fördern wollen und gerade Heimanwender HW eben praktisch nie ECC RAM bietet. Außerdem wird bei denen immer von etwas ausgegangen, was praktisch nie vorkommt:
Aber das es eben sehr unwahrscheinlich ist steht dort ja, dann muss es ja auch nicht das Filesystem beschädigen, das passiert nur, wenn Metadateien des Filesystems betroffen sind, die ja nur einen kleinen Teil des Platzes belegen. Sehr viel wahrscheinlicher werden einfach nur normale Dateien betroffen sein, wenn allerdings überhaupt irgendeine eine Datei korrupt wird, scheint schon ein "corrupt filesystem" gemeint zu sein.
Dazu fällt mir nur ein:
Leider wurde die Studie nur mit einer Disk gemacht, aber schon das reicht um das Filesystem zu zerstören, es zeigt leider nicht den Effekt den die Folgen die RAM Fehler dann bei einer Überprüfung der Daten auf den Platten haben, weil das nur getrennt betrachtet wurde.
Die Wahrscheinlichkeit von Harddiskfehlern anzugeben ist aber schwer, denn die Studien dazu beruhen meist auf großen Datacentern wo die Bedingungen nicht einfach auf Heimanwender übertragbar sind. So steht dort z.B:
Oder man hat eben Studien wie die von CERN, wo aber die Rahmenbedingungen total unklar sind, von den 3000 beobachten Rechner waren dort RAM Fehlerraten nur für 1300 angegeben, hatten die anderen 1700 also kein ECC RAM? Dann wären Aussagen über korrupte Dateien auf den Rechnern auch wertlos, weil man eben die Ursache nicht erkennen kann und außer einem FW Bug haben sie auch keine weiteren Ursachen für die Fehler erforscht bzw. genannt, was im Nachhinein auch sehr schwer bis unmöglich ist. Ohne ECC RAM und passendes System können RAM Fehler nie direkt erkannt werde, wenn die HDD nicht einmal eine Ende-zu-Ende Fehlerattribut in den S.M.A.R.T. Werte hat, gilt das für die Fehler auf den internen Datenpfade ebenso und wenn die SW eben bei Lesefehlern einfach bei Lesefehlern mit dem nächsten Sektor weitermacht um wenigstens die Daten noch zu lesen, etwa weil eine defekte HDD mit ddrescue geklont wurden, dann hat man hinterher korrupte Dateien, aber Slient ist diese Data Corruption dann nur, weil niemand das Log von ddrescue ausgewertet hat!
Meine Motivation ist es einfach die User vor Schaden zu bewahren, die sollten halt wissen was sie da kaufen und was sie dann wirklich bekommen, gerade wenn sie auf mehr Sicherheit vor Datenkorruption als bei gewöhnlicher Heimanwender HW aus sind. Außerdem sollte sie lernen die Platten für ihre NAS eben nicht nur anhand der Freigabeliste der NAS Hersteller auszuwählen, da diese eben nicht Vorgaben der HDD Hersteller für den Einsatzzweck berücksichtigen, die manchen diese Vorgaben ja nicht zum Spaß, sondern weil HDDs bei falscher Nutzung eben nicht so lange durchalten wie es von den Nutzern erwartet wird und wie passende HDD es würden.
Cool Master, das Problem welches Filesysteme mit Prüfsummen bei der Fehlerkorrektur mit RAM Fehler bekommen, wird von denen die für die Verbreitung dieser Filesysteme eintreten klein geredet Die empfehlen durch die Bank ECC RAM zu verwenden, verlangen es aber nicht zwingend weil sie eben die Verbreitung fördern wollen und gerade Heimanwender HW eben praktisch nie ECC RAM bietet. Außerdem wird bei denen immer von etwas ausgegangen, was praktisch nie vorkommt:
Eben, letztlich schützen die Prüfsummen nur vor den kaum einmal auftretenden Fehlern bei Harddisks, die vor allem durch Fehler der FW oder auf den internen Datenpfaden entstehen und ebensolchen Fehlern bei deren Host Controllern. Die Daten sind auf den Platten selbst und bei der Übertragung über SATA extrem gut geschützt, bei SATA gibt es pro FIS welches maximal 8192 Byte Nutzdaten überträgt eine CRC32 und das reicht um nur bei einer von etwa 10^40 fehlerbehafteten Übertragung einen Fehler unentdeckten zu lassen. Aber Übertragungsfehler sollte es gar keine geben, die HDDs haben alle ein S.M.A.R.T. welches solche Ultra-DMA CRC Fehler anzeigt und wenn es welche gibt, spürt man das meist schon an der Performance weil die Übertagungen ja widerholt werden und dann sollte die Ursache behoben werden, die eigentlich immer im SATA Datenkabel liegt.
Aber das es eben sehr unwahrscheinlich ist steht dort ja, dann muss es ja auch nicht das Filesystem beschädigen, das passiert nur, wenn Metadateien des Filesystems betroffen sind, die ja nur einen kleinen Teil des Platzes belegen. Sehr viel wahrscheinlicher werden einfach nur normale Dateien betroffen sein, wenn allerdings überhaupt irgendeine eine Datei korrupt wird, scheint schon ein "corrupt filesystem" gemeint zu sein.
Dazu fällt mir nur ein:
RAM Fehler gibt es, die sind auch nicht so selten:
Davor schützt ZFS auch nicht:
Wer da weiter liest, erkennt was da passiert, wie wahrscheinlich es ist und wieso ZFS dann mit hohe Wahrscheinlichkeit anfällig ist, wenn Daten im RAM durch RAM Fehler korrupt geworden sind.
Leider wurde die Studie nur mit einer Disk gemacht, aber schon das reicht um das Filesystem zu zerstören, es zeigt leider nicht den Effekt den die Folgen die RAM Fehler dann bei einer Überprüfung der Daten auf den Platten haben, weil das nur getrennt betrachtet wurde.
Die Wahrscheinlichkeit von Harddiskfehlern anzugeben ist aber schwer, denn die Studien dazu beruhen meist auf großen Datacentern wo die Bedingungen nicht einfach auf Heimanwender übertragbar sind. So steht dort z.B:
Mit Enterprise dürften dort die 2.5" Mission Critical SAS HDDs gemeint sein, aber wieso dort von den 400.000 Blöcken bei denen die ECC nicht stimmte nur 8% bei RAID reconstruction auffielen, ist mir unverständlich, die SAS HDDs in RAIDs werden ja meist mit 520 oder 528 Bytes pro Sektor formatiert und in diesen zusätzlichen 8 bzw. 16 Bytes stehen Prüfsummen des Controller, die diesem erlauben Fehler selbst zu erkennen. Bei SATA Platten wären das schwebende Sektoren, denn schwebende Sektoren sind Sektoren deren Daten nicht mehr zur ECC passen, da gibt die Platte dann statt der Daten einen Lesefehler als Antwort wenn man versucht diese zu Lesen und damit fallen die alle zu praktisch 100% auf, denn modernen Platten haben etwa so 100 Bytes ECC pro 4096 Byte in einem physikalischen Sektor, da bleiben eben mit einer Raten von so 1:10^14 bis 1:10^15 Bitfehler unkorrigierbar, aber noch viel weniger unerkannt. Bei einem Rebuild eines RAID 1 oder 5 wäre dies dann fehlgeschlagen, im normalen Betrieb oder beim Scrubbing eines solchen RAIDs würden die Daten auf der Parity rekonstruiert und neu geschrieben werden.
Oder man hat eben Studien wie die von CERN, wo aber die Rahmenbedingungen total unklar sind, von den 3000 beobachten Rechner waren dort RAM Fehlerraten nur für 1300 angegeben, hatten die anderen 1700 also kein ECC RAM? Dann wären Aussagen über korrupte Dateien auf den Rechnern auch wertlos, weil man eben die Ursache nicht erkennen kann und außer einem FW Bug haben sie auch keine weiteren Ursachen für die Fehler erforscht bzw. genannt, was im Nachhinein auch sehr schwer bis unmöglich ist. Ohne ECC RAM und passendes System können RAM Fehler nie direkt erkannt werde, wenn die HDD nicht einmal eine Ende-zu-Ende Fehlerattribut in den S.M.A.R.T. Werte hat, gilt das für die Fehler auf den internen Datenpfade ebenso und wenn die SW eben bei Lesefehlern einfach bei Lesefehlern mit dem nächsten Sektor weitermacht um wenigstens die Daten noch zu lesen, etwa weil eine defekte HDD mit ddrescue geklont wurden, dann hat man hinterher korrupte Dateien, aber Slient ist diese Data Corruption dann nur, weil niemand das Log von ddrescue ausgewertet hat!