News Backblaze-Studie: SSD-Ausfallraten über die Zeit geringer als bei HDDs

Joshua2go · 16. September 2022

Was mich ja mal interessieren würde....wie ist das eigendlich mit den Festplatten mit Heliumfüllung? Das Helium verflüchtigt sich ja mit der Zeit. Kommt es da zu einem plötzlichen Ausfall?

Magnifico · 16. September 2022

<NeoN> schrieb:
Zu den SSDs kann ich wenig sagen, da ist uns in 5 Jahren noch nichts abgeraucht. Aber bei denn HDDs kommt es ganz klar auf die Nutzung an. Wenn die Dinger durchlaufen sind bis zu 10 Jahre und mehr kein Problem - wir haben hier reichlich WD Raptor mit 50k - 100k Stunden in Regelschränken auf dem Tacho. Aber in den Büro-PCs, die regelmäßig an- und ausgeschaltet werden, wirds meist zwischen 10k - 20k Stunden kritisch.

Der entscheidende Unterschied bei deiner Geschichte ist nicht der Dauerbetrieb der relativ teuren Raptor Platten, sondern die Tatsache das dedizierte Desktop HDD wirklich miese Qualität aufweisen und alles eingespart wird, was die Lebensdauer verlängern kann.

Desktop HDD sind laut Spezifikation nur für acht Stunden Betrieb pro Tag ausgelegt 8-)

Chuuei · 16. September 2022

e33f5kh schrieb:
Diese hier aufgeführten „Statistiken“ haben keine Aussagekraft. Zu kurze Zeiträume und zu wenige Einzelfälle wurden getestet.

Die Ausfallverteilung von SSDs und HDDs folgt der typischen Ausfallkurve von Elektronik - der Badewannenkurve. Viele Ausfälle am Anfang durch Materialprobleme, Assemblyprobleme etc. , dann eine große Zeit mit annähernd keinen Ausfällen im normalen Betrieb und dann wieder stark ansteigende Zahl von Ausfällen durch Alterungserscheinungen am Ende der Lebenszeit.

Wenn die Statistik die Frühausfälle enthält (was sie nach ein paar Jahren natürlich macht) und dann nichts passiert, dann hat das nichts damit zu tun, dass man nicht lang genug gemessen hat. Es gibt halt einfach keinen technischen Grund warum diese ausfallen sollten und Aussagen zur Fehlerstatistik behalten auch in solchen Zeiten wo noch nichts passiert ist, ihre Gültigkeit.

Allgemein wundert es mich aber ein bisschen, dass für die Boot SSDs normale Consumerware verwendet wird. Die scheinen eher eine Philosophie zu verfolgen, diese jederzeit im Fehlerfall schnell ersetzen zu können, lokale Daten nicht wichtig sind da anderweitig gesichert und daher einfach Consumer Drives genutzt werden.

TrueAzrael · 16. September 2022

Chuuei schrieb:
Wenn die Statistik die Frühausfälle enthält (was sie nach ein paar Jahren natürlich macht) und dann nichts passiert, dann hat das nichts damit zu tun, dass man nicht lang genug gemessen hat. Es gibt halt einfach keinen technischen Grund warum diese ausfallen sollten und Aussagen zur Fehlerstatistik behalten auch in solchen Zeiten wo noch nichts passiert ist, ihre Gültigkeit.

Gute Frage üblicherweise macht man bei Serverplatten sowas wie einen "Burn-In" um genau diese anfänglichen Probleme ausschließen zu können und die fehlerhafte Hardware schon vor dem Betrieb auszusortieren. Ob man diesen Prozess in die Statistik mit aufgenommen hat oder nur jene Platten im Produktiveinsatz zählt?

Chuuei schrieb:
Allgemein wundert es mich aber ein bisschen, dass für die Boot SSDs normale Consumerware verwendet wird. Die scheinen eher eine Philosophie zu verfolgen, diese jederzeit im Fehlerfall schnell ersetzen zu können, lokale Daten nicht wichtig sind da anderweitig gesichert und daher einfach Consumer Drives genutzt werden.

Consumerware ist zwar wohl unüblich, aber grundsätzlich hat man auf einer Bootplatte meiner Erfahrung nach auch die optimalen Bedingungen für SSDs. Einmal beschrieben danach, abgesehen von Updates, nur noch lesende Zugriffe.

Bigeagle · 16. September 2022

Ich bin ja froh dass Backblaze diese Daten veröffentlicht

Macht ja sonst afaik keiner und weder kann man das zuhause selber machen, noch machts eine Uni.

Allerdings ist das schon ein Unterschied ob man große HDDs die laufend Zugriffe haben anguckt, oder Bootlaufwerke die ggf. mal bei updates oder ein paar neustarts im Jahr was zu tun haben.
Damit fällt doch praktisch der ganze Lastabhängige Verschleiß weg.
Auf der anderen Seite sind die kleinsten HDDs bei denen 4 TB groß, die Masse liegt bei 12-16 TB. Vermutlich haben die meisten auch etwas mehr zu tun als alle paar Tage mal updates einzuspielen.
Auch für SSDs dürfte es einen Unterschied machen ob gelegentlich mal ein paar GB geliefert werden müssen, oder häufig verteilte Zugriffe über einen großteil der Kapazität stattfinden.

Mein Homeserver verwendet eine uralte Samsung ecogreen 1,5 TB (HD154UI) als Bootplatte, das ist quasi das Kreuzworträtsel für den Rentner um Demenz vorzubeugen. Damit wird die vielleicht noch 18 bevor sie von einer Senior-SSD abgelöst wird. Im Normalbetrieb dürfte nach kurzer Zeit fast alles relevante im RAM liegen, das einzige was dann auf der alten Platte arbeitet sind BOINC WUs die ihre Snapshots dort ablegen.

Staubwedel · 16. September 2022

Ich hatte auch schon SSD-Ausfälle, aber anteilig gesehen weniger als mit HDD.

Bei Blackblaze werden aber garantiert mehr Schreibmengen generiert als bei mir

MountWalker · 16. September 2022

Das Bild mit den Ausfallraten im Artikel zeigt doch ganz gut, warum ich der von einigen hier schon angesprochene große böse HDD-Verteidiger, "Gegenwind" und angeblicher SSD-Schlechtreder bin: Nach 5 Jahren rund um die Uhr Dauernutzung sind 0,92% der SSD und 3,55% der HDD gestorben. Man kann sich jetzt daran festbeißen, dass 3,55 ca. das Dreieinhalbfache von 0,92 ist, man kann aber auch feststellen, dass auch bei der achso anfälligen und "Hilfe! Hilfe! Bloß nicht benutzen, die ist mechanisch, das kann kaputt gehen!1elf" HDD über 96 % nach 5 Jahren 24/7-Betrieb noch laufen.

Was ich in den anderen Threads gerne bemängle, ist, dass: "Aber Mechanik ist einfach immer anfälliger als Elektronik ohne Mechanik", imho Quatsch ist, weil es für Schrotthardware wie die OCZ Vertex II aber auch so einige andere SSDs verschiedener Hersteller, die vielleicht nicht unter den Top-Empfehlungen für Stablität sind, schonmal nicht gilt. Ich hatte in jenen Threads auch Amazon-Rezensionen von Transcend-M2-SSDs verknüpft, die darauf hindeuteten, dass es eventuell im Consumer-Einsatz (um den es bei Blackblaze nicht geht, aber für den immer Blackblaze für Empfehlungen rangezogen wird, weil die jährliche Blackblaze-Veröffentlichung ja die einzige verfügbare Statistik mit großen Zahlen ist) doch Probleme auftauchen könnten, die in Datenzentren nicht existieren, namentlich Kühlungsprobleme, weil Transcend im Kundenservice auf Hinweise von Kunden, die sich über die 89°C mit Infrarotthermometer gemessene Oberflächentemperatur anhören dürfen, dass der 3D-NAND-Chip ja dafür ausgelegt sei, was aber halt nicht in Rücksicht nimmt, ob die Abwärme, die da anfällt, auch ausreichend im Notebook-Gehäuse abgeführt wird und sich nicht staut und auf Dauer zu einer verkürzten Lebensdauer des Controller-Chips auf dem SSD-Modul führt - was nach den Rezensionen gelegentlich passiert gewesen zu sein scheint.

In den anderen Threads ging es mir immer um folgendes, was ich jetzt deshalb auch hier wieder reinschreibe: Es gibt viele Gründe für eine SSD und auch ich würde keinen Rechner mit HDD als Bootlaufwerk mehr bauen, aber "Hilfe Hilfe, weil das Mechanik ist, geht das kaputt", ist definitiv kein sinniger Grund für den Verzicht und wenn ich ein Datenarchiv von 10 TiB habe, dann sind zwei 14 TB HDDs dafür immernoch ökonomischer und ökologischer, als die gleiche Menge SSD-Speicher zu besorgen. Wenn ich soviel Daten nicht habe und mit einem TB vollends überglücklich bin, kann ich sicherlich auch die HDD sparen, aber jemandem, stellen wir uns mal beispielsweise vor, hier im Kaufberatungsforum, der solche Datenmengen hat, zu sagen: "Aber HDDs sind mechanisch, die können kaputt gehen, kauf dir lieber 22 (10 TiB = knappe 11 TB) Samsung 870 QVO SSDs" - das ist eben der Quatsch, für den die Blackblaze-Studie nicht hinreicht. Nicht wenn nach 5 Jahren Dauerlast in der Blackblaze-Studie auch die HDDs nur 3,55 % Ausfallrate haben.

P.S.
Und am Ende, damit man einfacher backuppen kann, dann noch von den 22 SSDs jeweils 12 (hmm, vielleicht von 24) in ein RAID0 oder StorageSpaces-Stripe oder LVM packen, weil man sonst mit seinen Ordnern auf 12 Live-Laufwerken die Übersicht verliert...

adretter_Erpel · 17. September 2022

Socke4321 schrieb:
@flatline1
Das man eine ältere SSD kaputtschreiben oder die TBW erreichen kann ist klar, es ging eigentlich nur um die Aussage von W0dan wo ich bzgl. der aktuellen SSDs nicht ganz seiner Meinung bin. Im Regelfall kauft ja keiner heute mehr SSDs mit 250 GB.

lorpel · 18. September 2022

Im privatem Bereich das selbe. SSD Null Ausfälle seit 11 Jahren. HDD in vorangegangenen 11 Jahren zu 50 % ausgefallen. Der IT Services in der Firma berichtete mir am Mittagstisch das gleiche für die Mitarbeiterlaptops.

Während bei sonstigen Techniken im Computerumfeld Stillstand oder Verschlechterung herrscht, ist die SSD der Lichtblick in den letzten 15 Jahren.

schmadde · 19. September 2022

TrueAzrael schrieb:
Gute Frage üblicherweise macht man bei Serverplatten sowas wie einen "Burn-In" um genau diese anfänglichen Probleme ausschließen zu können und die fehlerhafte Hardware schon vor dem Betrieb auszusortieren.

Wer macht sowas? ich hab in diversen RZ und Serverräumen ca. 5.000 Server laufen und wir haben noch nie so einen "Burn-In" gemacht - wozu auch? RAID braucht man eh und wenn was ausfällt tauscht es der Vertragspartner.

Und ohne jetzt harte Zahlen zu haben (die hat dankenswerterweise Backblaze veröffentlicht): wir haben in jedem Server mindestens zwei Bootplatten (in ein paar hundert auch BOSS-Karten mit SSDs) und in manchen bis zu 24 HDDs verbaut - die einzigen SSDs die bisher ausgefallen sind waren die Sandisks mit dem Firmware Bug. HDDs werden jede Woche welche getauscht - auch Bootplatten.

TrueAzrael schrieb:
Consumerware ist zwar wohl unüblich, aber grundsätzlich hat man auf einer Bootplatte meiner Erfahrung nach auch die optimalen Bedingungen für SSDs. Einmal beschrieben danach, abgesehen von Updates, nur noch lesende Zugriffe.

Auch das kann ich überhaupt nicht nachvollziehen. Bootplatten sind keineswegs besonders SSD-Freundlich. Da ist in der Regel der Swapspace drauf und da wird oft und viel geschrieben, Logfiles sind auch drauf und da gibts alle paar Sekunden irgendwas zu loggen und wenn man /tmp nicht in einer Ramdisk hat, wird auch da viel geschrieben und gelöscht, da unter Unix traditionell ganz viel über Files und Sockets in /tmp abgefackelt wird. Das ganze garniert mit Metadateupdates, die bei jedem Filezugriff (auch lesend) passieren, wenn man nicht mit noatime mounted.

Nicht umsonst hat Raspbian irgendwann mal /var/log in ne Ramdisk gepackt, denn die SD Karten sind bei normalen Betrieb als Bootdisk vorher reihenweise kaputtgegangen.

Ob Datenplatten nun mehr Schreiblast haben als Bootdisks kommt halt auch sehr darauf an was mit den Daten passiert. Da gibts auch viele Usecases wo hauptsächlich gelesen wird. Wir haben aber z.B. auch hunderte von Server wo SSDs als "Scratch-Platten" drin sind, also im Prinzip Caches mit sehr kurzlebigen Daten, wo wir extra SSDs verbauen weil so viel geschrieben wird, dass HDDs zu langsam wären. Da nehmen wir Modelle, die extra für write endurance spezifiziert sind. Wie wir bei Lieferschwierigkeiten festgestellt haben ist das aber die selbe Hardware wie die "read intensive" mit weniger TBW - nur dass weniger von dem NAND als Spare abgeknappst wird.

Keine von diesen Scratch Platten ist jemals ausgefallen, ausser den o.g. Sandisk SSDs, die nach einer festen Anzahl von Betriebsstunden defekt gingen (in der Presse als "HP-Bug" aufgetaucht)

Fast alle Applikationen haben bei uns aber ihre Daten auf SAN - auch und vor allem die mit extrem hoher I/O Last wie Datenbanken, Splunk etc. Das SAN ist all flash, da ist keine Platte mehr drin.

Ergänzung (19. September 2022)

AncapDude schrieb:
Nein war kein HPE. Aber identische SSD's (Marke, Charge, FW)

Das kenne ich - es waren die Sandisks, richtig? Dell hat damals ein Advisory rausgegeben, das hat uns aber nicht erreicht: https://www.dell.com/support/home/de-de/drivers/driversdetails?driverid=8H6HJ

Hat nicht geholfen, dass in der Presse immer "HP" überall dabei stand statt Hersteller und Modell zu benennen, die Dinger sind nämlich auch in anderen Servern verbaut worden. Ich konnte von den ca. 40 SSDs nur etwa 2/3 retten, denn einige sind gleichzeitig ausgefallen, manche sogar noch während ich sie updated habe.

Suche

News Backblaze-Studie: SSD-Ausfallraten über die Zeit geringer als bei HDDs

Joshua2go

Lt. Commander

Magnifico

Gast

Chuuei

Lieutenant

TrueAzrael

Commodore

Bigeagle

Lt. Commander

Staubwedel

Captain

MountWalker

Fleet Admiral

adretter_Erpel

Lt. Junior Grade

lorpel

Banned

schmadde

Lt. Junior Grade

Ähnliche Themen

Passend zum Thema

Corsair SSD Toolbox 2.0 Neuauflage erhält komplett neues Design

Terramaster D1 SSD Pro Passiv gekühltes SSD-Gehäuse für 7 GB/s via Thunderbolt 5

Speicherforschung SK Hynix über 5-Bit-NAND, 3D FeNAND und die fertige CTI-Technologie