Mihawk90 schrieb:
Mal abgesehen davon sind Bitflips im RAM extrem selten
Es gibt nur wenige Statistiken dazu, aber je mehr die Leute das RAM und die CPU hochtakten, umso wahrscheinlicher sind hard errors und schau mal im RAM Unterforum wie viele Leute Fehler beim Memtest86 bekommen. So selten sind RAM Fehler nicht und längst nicht jeder RAM Fehler macht sich bemerkbar, die meisten führen nicht zu Abstürzen wie landläufig geglaubt wird. Dafür haben die Rechner heute zu viel RAM und zu wenig davon ist mit wirklich wichtigen Daten oder Programmcode von Windows belegt. Das Problem bei RAM Fehler auf Storage Servern ist aber, dass diese die Daten auch noch lange im RAM cachen, denn jedes moderne OS nutzt sonst unbelegtes RAM als Diskcache und dann bekommt man ggf. eine Datei deren Daten schon lange im RAM stehen und daher eine entsprechend hoch Gefahr für Soft-Error (also spontane Bitflips aufgrund von Strahlungen) ausgesetzt waren. Es muss jeder selbst wissen wie viel ihm die Sicherheit seiner Daten wert ist, denn
Mihawk90 schrieb:
ECC ist eigentlich nur im Enterprise Segment unerlässlich
Und warum? Und warum sollte ein Heimanwender darauf verzichten, wenn er genauso viel Wert darauf legt das seine Daten nicht durch RAM Fehler verändert werden?
Mihawk90 schrieb:
i5 heißt übrigens nicht automatisch keine ECC Unterstütung, das ist modellabhängig.
Welche i5 unterstützt den ECC RAM? Der i5 4690 in der Signatur des TE ebensowenig wie das Asrock B85M mini itx Board.
Mihawk90 schrieb:
Die Platten können auch Daten zurückgeben die fehlerhaft sind, aber trotzdem für die Platte keinen Fehler aufweisen und daher kein ECC Fehler geworfen wird.
Ja, wenn man sie entsprechend ansteuert, so machen es die speziellen ATA Streamingbefehle für Echtzeitvideoaufzeichnungen, aber die verwendet ein Rechner nicht einfach so und eine normale NAS Platte unterstützt diese auch gar nicht. Oder wenn man eine SAS Platte hat und an einem SAS RAID Controller mit 520 oder 528 Byte pro Sektor formatiert, denn dann legt der RAID Controller selbst eine ECC auf diese zusätzlichen 8 bzw. 16 Byte ab und konfiguriert die Platte so, dass sie die Daten einfach roh ausgibt, weil er selbst prüft ob diese korrekt sind und sie bei Fehlern eben sofort aufgrund der Redundanz rekonstruiert, damit erspart er sich die Wartezeit bis der Controller der Platte es aufgibt die Daten doch nicht korrekt einzulesen. Diese kann man bei den Platten mit ERC/TLER zwar einstellen, aber auch dann versucht sie es noch eine Weile selbst und dies blockiert das RAID, was bei solchen Enterpriselösungen eben nicht gewünscht ist. Da ist es dann aber die Aufgabe des RAID Controllers dafür zu sorgen, dass die Fehler erkannt und die Daten korrekt an den Host weitergereicht werden.
Normale SATA Platten werden aber nicht einfach korrupte Daten liefern, die ECC auf den Platten ist so mächtig, dass die Wahrscheinlichkeit eines unerkannten Fehler noch mal um die gleiche Größenordnung (also so 1:10^15) unter der eines unkorrigierbaren Fehlers liegt. Auch die SATA Übertragung wird mit einer CRC32 über ein Datenpaket welches maximal 8192 Byte Nutzdaten enthält abgesichert und Du kannst gerne mal selbst googlen wie hoch die Wahrscheinlichkeit liegt, dass dabei ein Fehler unerkannt bleibt, es ist irgendwas um die 1:10^46 Übertragungen. Dies mal den 8192Byte ergibt ein Datenvolumen welches übertragen werden müsste, welches weit über der Kapazität aller jemals gefertigten HDDs liegt. Vergiss es also, die einzige realistische Fehlerquellen sind die FW und internen Datenpfade der Platte oder des Host Controllers.
Mihawk90 schrieb:
Dann weiß der RAID Controller auch nicht mehr welchen Daten er vertrauen soll. Die Dateisysteme können das anhand hinterlegter Checksummen erkennen.
Auch die stimmt nicht, denn wenn es wirklich vorkommen würde das statt eines Lesefehlers korrupte Daten geliefert würden, wird ein RAID Controller dies nicht bemerken, da er eben normalerweise aus Performancegründen die Partity gar nicht liest (das Linux md SW RAID macht es genauso und aus Performancegründen wird sich dies auch ändern, aber auch weil es eben Unsinn ist, wer es anderes möchte nimmt eben btrfs oder ZFS), sondern erst wenn er sie braucht oder eben bei einem Scrubbing, welches man ja auch nicht ohne Grund regelmäßig ausführt.