News Synology DS216+: Wechsel auf Intel-SoC und weniger LAN und USB 3.0

Holt · 12. Februar 2016

Da ich keinen neuen Job brauche, habe ich seit Jahrzehnten keine Bewerbungen mehr geschrieben, Deine Kinderein kannst Du also für Dich behalten und wenn Du das was die da machen in Ordnung findest weil Du dort angestellt bist um die NAS Hersteller zu verteidigen, dann mache es und ich kritisiere es weiter. So behältst Du wenigstens Deine Job, Deine Schäfchen dürften wohl noch nicht im Trocknen sein.

Meine Motivation ist es einfach die User vor Schaden zu bewahren, die sollten halt wissen was sie da kaufen und was sie dann wirklich bekommen, gerade wenn sie auf mehr Sicherheit vor Datenkorruption als bei gewöhnlicher Heimanwender HW aus sind. Außerdem sollte sie lernen die Platten für ihre NAS eben nicht nur anhand der Freigabeliste der NAS Hersteller auszuwählen, da diese eben nicht Vorgaben der HDD Hersteller für den Einsatzzweck berücksichtigen, die manchen diese Vorgaben ja nicht zum Spaß, sondern weil HDDs bei falscher Nutzung eben nicht so lange durchalten wie es von den Nutzern erwartet wird und wie passende HDD es würden.

Cool Master, das Problem welches Filesysteme mit Prüfsummen bei der Fehlerkorrektur mit RAM Fehler bekommen, wird von denen die für die Verbreitung dieser Filesysteme eintreten klein geredet Die empfehlen durch die Bank ECC RAM zu verwenden, verlangen es aber nicht zwingend weil sie eben die Verbreitung fördern wollen und gerade Heimanwender HW eben praktisch nie ECC RAM bietet. Außerdem wird bei denen immer von etwas ausgegangen, was praktisch nie vorkommt:

RAID (be it hardware or software), assumes that if a write to a disk doesn't return an error, then the write was successful. Therefore, if your disk corrupts data without returning an error, your data will become corrupted. This is of course very unlikely to happen, but it is possible, and it would result in a corrupt filesystem.

Eben, letztlich schützen die Prüfsummen nur vor den kaum einmal auftretenden Fehlern bei Harddisks, die vor allem durch Fehler der FW oder auf den internen Datenpfaden entstehen und ebensolchen Fehlern bei deren Host Controllern. Die Daten sind auf den Platten selbst und bei der Übertragung über SATA extrem gut geschützt, bei SATA gibt es pro FIS welches maximal 8192 Byte Nutzdaten überträgt eine CRC32 und das reicht um nur bei einer von etwa 10^40 fehlerbehafteten Übertragung einen Fehler unentdeckten zu lassen. Aber Übertragungsfehler sollte es gar keine geben, die HDDs haben alle ein S.M.A.R.T. welches solche Ultra-DMA CRC Fehler anzeigt und wenn es welche gibt, spürt man das meist schon an der Performance weil die Übertagungen ja widerholt werden und dann sollte die Ursache behoben werden, die eigentlich immer im SATA Datenkabel liegt.

Aber das es eben sehr unwahrscheinlich ist steht dort ja, dann muss es ja auch nicht das Filesystem beschädigen, das passiert nur, wenn Metadateien des Filesystems betroffen sind, die ja nur einen kleinen Teil des Platzes belegen. Sehr viel wahrscheinlicher werden einfach nur normale Dateien betroffen sein, wenn allerdings überhaupt irgendeine eine Datei korrupt wird, scheint schon ein "corrupt filesystem" gemeint zu sein.

Dazu fällt mir nur ein:

Unfortunately, the effects of
memory corruption on
data integrity have been largely ignored in file System
design.
...
The problem of memory corruption is critical for file
systems that cache a great deal of data in memory for
performance. Almost all modern file systems use a page
cache or buffer cache to store copies of on-disk data
and metadata in memory. Moreover, frequently-accessed
data and important metadata may be cached in memory
for long periods of time, making them more susceptible
to memory corruptions.

RAM Fehler gibt es, die sind auch nicht so selten:

2.2 Memory corruptions
..
In a recent measurement-based study of memory er-
rors in a large fleet of commodity servers over a period
of 2.5 years [46], Schroeder et al. observe DRAM error
rates that are orders of magnitude higher than previously
reported, with 25,000 to 70,000 FIT per Mbit (1 FIT
equals 1 failure in 10^9 device hours). They also find that
more than 8% of the DIMMs they examined (from mul-
tiple vendors, with varying capacities and technologies)
were affected by bit errors each year. Finally, they also
provide strong evidence that memory errors are domi-
nated by hard errors, rather than soft errors.
Another study [34] of production systems including
300 machines for a multi-month period found 2 cases of
suspected soft errors and 9 cases of hard errors suggest-
ing the commonness of hard memory faults.

Davor schützt ZFS auch nicht:

5 In-memory data integrity in ZFS

In the last section we showed the robustness of ZFS to
disk corruptions. Although ZFS was not specifically de-
signed to tolerate memory corruptions, we still would
like to know how ZFS reacts to memory corruptions, i.e.,
whether ZFS can detect and recover from a single bit flip
in data and metadata blocks. Our fault injection exper-
iments indicate that ZFS has no precautions for mem-
ory corruptions: bad data blocks are returned to the user
or written to disk, file system operations fail, and many
times the whole system crashes.

Wer da weiter liest, erkennt was da passiert, wie wahrscheinlich es ist und wieso ZFS dann mit hohe Wahrscheinlichkeit anfällig ist, wenn Daten im RAM durch RAM Fehler korrupt geworden sind.

Leider wurde die Studie nur mit einer Disk gemacht, aber schon das reicht um das Filesystem zu zerstören, es zeigt leider nicht den Effekt den die Folgen die RAM Fehler dann bei einer Überprüfung der Daten auf den Platten haben, weil das nur getrennt betrachtet wurde.

Die Wahrscheinlichkeit von Harddiskfehlern anzugeben ist aber schwer, denn die Studien dazu beruhen meist auf großen Datacentern wo die Bedingungen nicht einfach auf Heimanwender übertragbar sind. So steht dort z.B:

Disk corruptions are prevalent across a broad range
of modern drives. In a recent study of 1.53 million
disk drives over 41 months [7], Bairavasundaram et al.
show that more than 400,000 blocks had checksum mis-
matches, 8% of which were discovered during RAID re-
construction, creating the possibility of real data loss.
They also found that nearline disks develop checksum
mismatches an order of magnitude more often than enter-
prise class disk drives.

Mit Enterprise dürften dort die 2.5" Mission Critical SAS HDDs gemeint sein, aber wieso dort von den 400.000 Blöcken bei denen die ECC nicht stimmte nur 8% bei RAID reconstruction auffielen, ist mir unverständlich, die SAS HDDs in RAIDs werden ja meist mit 520 oder 528 Bytes pro Sektor formatiert und in diesen zusätzlichen 8 bzw. 16 Bytes stehen Prüfsummen des Controller, die diesem erlauben Fehler selbst zu erkennen. Bei SATA Platten wären das schwebende Sektoren, denn schwebende Sektoren sind Sektoren deren Daten nicht mehr zur ECC passen, da gibt die Platte dann statt der Daten einen Lesefehler als Antwort wenn man versucht diese zu Lesen und damit fallen die alle zu praktisch 100% auf, denn modernen Platten haben etwa so 100 Bytes ECC pro 4096 Byte in einem physikalischen Sektor, da bleiben eben mit einer Raten von so 1:10^14 bis 1:10^15 Bitfehler unkorrigierbar, aber noch viel weniger unerkannt. Bei einem Rebuild eines RAID 1 oder 5 wäre dies dann fehlgeschlagen, im normalen Betrieb oder beim Scrubbing eines solchen RAIDs würden die Daten auf der Parity rekonstruiert und neu geschrieben werden.

Oder man hat eben Studien wie die von CERN, wo aber die Rahmenbedingungen total unklar sind, von den 3000 beobachten Rechner waren dort RAM Fehlerraten nur für 1300 angegeben, hatten die anderen 1700 also kein ECC RAM? Dann wären Aussagen über korrupte Dateien auf den Rechnern auch wertlos, weil man eben die Ursache nicht erkennen kann und außer einem FW Bug haben sie auch keine weiteren Ursachen für die Fehler erforscht bzw. genannt, was im Nachhinein auch sehr schwer bis unmöglich ist. Ohne ECC RAM und passendes System können RAM Fehler nie direkt erkannt werde, wenn die HDD nicht einmal eine Ende-zu-Ende Fehlerattribut in den S.M.A.R.T. Werte hat, gilt das für die Fehler auf den internen Datenpfade ebenso und wenn die SW eben bei Lesefehlern einfach bei Lesefehlern mit dem nächsten Sektor weitermacht um wenigstens die Daten noch zu lesen, etwa weil eine defekte HDD mit ddrescue geklont wurden, dann hat man hinterher korrupte Dateien, aber Slient ist diese Data Corruption dann nur, weil niemand das Log von ddrescue ausgewertet hat!

computerbase107 · 12. Februar 2016

@Holt

Schade, dass Du nicht darauf eingegangen bist, ob Du denn auch schon mit den so gescholtenen Nas-Herstellern in Verbindung warst oder gar bist bezüglich der generellen ECC-RAM Austattung.

Auf die Kommentare der Nas-Hersteller diesbezüglich wäre wahrscheinlich nicht nur ich gespannt.

Entweder sitzen dort ja nur aus Deiner Sicht Ignoranten, die dieses ECC-Problem nicht erkennen wollen/dürfen oder es gibt eben doch Gründe generell keinen ECC-RAM und dies nur in bestimmten Modellen zu verbauen und ich meine jetzt nicht nur die eventuellen Kostengründe in der ECC-RAM-Hardware.

Holt · 13. Februar 2016

Mit den NAS Herstellern habe ich nichts am Hut, ich bin nicht einmal Kunden bei denen und werde so bald sicher keiner werden. Die sind mir schlicht ega und deren überteuertes Bling-Bling Kinderspielzeug interssiert mich nicht. Das die wissen was ECC RAM ist, zeigen ja einige Modelle die es haben und auf dieser Seite der Synology RAM Module sind welche zu finden und die Modelle für die sie gedacht sind. Auch der QNAP Accessories Store bietet ECC RAM an, aber ein QNAP NAS mit ECC RAM geht bei über 2000€ los, bei Synology etwa im gleichen Bereich.

Von Thecus (ab 720€), Netgear (ab 1200€) gibt es auch günstigere Angebote, wobei das günstigste immer noch ab 720€ kostet und auf dem uralten Pentium G850 basiert, also einer CPU von 2011 für ein NAS welches erst seit 2014 im Preisvergleich gelistet ist.

Von WD ist das Western Digital Sentinel DX4200 8TB, 2x Gb LAN (WDBRZD0080KBK) ab € 1399,-- nit 4GB ECC RAM gelistet, während das Western Digital My Cloud DL4100 8TB, 2x Gb LAN (WDBNEZ0080KBK) ab € 812,76 zu haben ist (für 460€ ohne HDDs) und beiden haben den gleichen Intel Atom C2338 der ECC RAM ja unterstützt. Das sind also 586,24€ mehr, laut diesem Review sind dort [URL=https://www.computerbase.de/preisvergleich/western-digital-se-2tb-wd2000f9yz-a957528.html?hloc=at&hloc=de]WD Se 2TB ab € 128,18 verbaut, in dem DL4100 sind es laut WD die Red, 2TB ab € 85,58, was 170€ rechtfertigt aber keine 586€, das kann auch der Unterschied zwischen 2GB DRR3 und 4Gb DDR3 ECC nicht, da der etwa 16€ ausmacht. Das DX4200 eben mehr als Server mit "Enterprise-class" HDDs und Win 2012R2 statt als NAS daher und auf dem Markt erwarten Kunden eben einfach ECC RAM, weil sie dessen Wert kennen und das zu schätzen wissen.

Die NAS Hersteller wissen also um ECC und verlangen dafür richtig Geld, weil es nur in den teuren Produkten vorhanden ist, der Heimanwender bekommen billig weil er billig will:

ECC makes the affordable NAS less affordable and home users have much more important things to spend money, time and planning on if they really want to protect their data!

Ansonsten sollen halt Backups schützen (klar die ersetzt auch ECC RAM, keine Frage), nur wird vergessen, dass eben Backups nichts bringen wenn die Daten RAM Fehlern schon korrupt geschrieben werden (Prüfsummen des Filesystems helfen dann übrigens auch nicht) und wenn die Daten dann mit der Zeit korrupt geworden sind, hat man vielleicht gerade die korrupte Version auf dem Backup, ersatzweise sind halt RAM Fehler einfach selten und manchen sich ja wenn, dann immer dürch Abstürze sofort bemerkbar

Wobei ich diese Fertig-NAS im Verhältnis zur verwendeten HW nur eben wirklich billig, aber keineswegs preiswert finden, die Serverhersteller bieten nicht selten für weniger Geld weitaus bessere HW ab, nur selten fertige NAS mit den Ganzen so heiß geliebten Apps drauf.

computerbase107 · 13. Februar 2016

An dieser Stelle mache ich von meiner Seite einen Break, denn Du hast Deine Meinung zu Fertig-Nas-Geräte und ich habe meine Meinung, die auch nach über 8 Jahren Nutzung von Qnap-Geräten positiv ist und mir ist bis heute noch keine beschädigte Datei durch Bit-Rot begegnet, geschweige denn ein Geräteausfall.

Die Argumente hierzu mit Pro und Kontra sind aus meiner Sicht sehr ausführlich ausgetauscht worden und Jeder hat spätestens jetzt die Möglichkeiten für sich abzuwägen und zu entscheiden.

Suche

News Synology DS216+: Wechsel auf Intel-SoC und weniger LAN und USB 3.0

Holt

Banned

computerbase107

Rear Admiral

Holt

Banned

computerbase107

Rear Admiral

Ähnliche Themen