News SSD-Totalausfall: Dell und HPE bringen Firmware gegen 40K-Stunden-Bug

davidzo schrieb:
Ich finde das ja nach wie vor frech dass Software Entwickler bzw. Coders sich "Engineers" nennen dürfen, dabei haben die meisten gar kein Ingenieursstudium hinter sich.
Der englische "Engineer" hat ja auch eine viel größe Bedeutungsbreite als der deutsche "Ingenieur", angefangen mit dem Maschinisten...
 
  • Gefällt mir
Reaktionen: jemandanders
deo schrieb:
Es sind ja auch keine NoName Marken, die man einfach so aufgeben kann.
Die weltbekannten Markennamen haben alleine schon einen hohen Wert, den es zu schützen gilt.
Eben.
Wenn das jetzt alle paar Monate passiert, würde ich mir schon Gedanken machen ob ich noch beim richtigen Hersteller einkaufe.
Im November konnte man noch sagen: Jo, da hat irgend so ein Trottel geschlampt.
Jetzt schon wieder? Da sollten sie sich vielleicht mal langsam Gedanken über ihre internen Abläufe und die QS machen?
 
Faszinierend ist daran auch dass dann nichtmal Datenrettung betrieben werden kann. Die ist bei SSDs sowieso Problematischer im Vergleich zu HDDs, da die Daten komplett anders verarbeitet sind, aber dennoch gab es Möglichkeiten. Solche Fehler dürfen einfach nicht passieren, schon garnicht in diesem Umfeld.
 
"Mit solchen Vorwürfen würde ich mich bei sowaszurückhalten."

Wieso? Da ist eine Software die nur eine einzige if Abfrage enthalten muss die die Arbeit verweigert weil eine Lebensdauervariable zu hoch ist. Das ist weder kompliziert zu implementieren noch nachvollziehbar für irgendeinen Kunden da die Firmware ja nicht quelloffen ist.

EDIT: Mir ist auch egal ob es im Consumer oder Profi Bereich auftritt. Das zeigt mir nur dass ihr in Klassengesellschaften denkt.
 
  • Gefällt mir
Reaktionen: noxiD
@Dr.Bondage

Man kann auch zitieren oder "Erwähnen", hätte den Beitrag glatt übersehen.


Deine Vorwürfe sind einfach haltlos. Du macht hier Vorwürfe ohne überhaupt einen Anhaltspunkt dafür zu haben, dass die erwähnten Firmen im großen still bescheißen. Man kann ja vieles hinterfragen, aber du ziehst direkt Schlussfolgerungen ohne überhaupt alles zu Wissen.

Das du alle über einen Kamm scherst und mit Klassengesellschaften daher kommst zeigt wie weit du vom Thema weg bist.

1. Warum sollten die Hersteller denn jetzt fixen wenn es so geplant war? Wenn es doch keiner merken kann?
2. Klar ist es einfach zu implementieren, aber wenn man es so plump macht wie du es hier darstellst dann fliegt es auf. Glaubst du nicht, dass wenn massenweise Hardware beim Kunden stirbt das keiner merkt?
 
PS828 schrieb:
Faszinierend ist daran auch dass dann nichtmal Datenrettung betrieben werden kann.
Es ist sowieso ein Glückspiel, wenn man Daten nur einem Datenträger anvertraut.
 
  • Gefällt mir
Reaktionen: PS828
deo schrieb:
Es ist sowieso ein Glückspiel, wenn man Daten nur einem Datenträger anvertraut.
Normalerweise kein Thema, weil es nicht passiert. Aber es braucht immer ein paar Sekunden Zeit um neue Daten zu sichern. Und diese jüngsten Daten sind, unabhängig von der Backupstruktur dann verloren. Nichtmal redundanz hilft wenn die Platten alle zugleich ausfallen.
 
Findus schrieb:
@evilhunter
fällt das da nicht auch unter "kein Backup, kein Mitleid"?

Also das Argument greift hier nun wirklich nicht:
1.) RAID10 als erster Schutz gegen Hardwareausfälle fällt hier schon einmal flach, weil alle SSDs gleichzeitig betroffen sind.
2.) Sämtliche logische Backups wie Snapshots einer virtuellen Maschine fallen auch weg, da die am selben Server liegen
3.) Das tägliche Backup auf den Backupserver fällt eventuell auch flach, wenn dieser zeitgleich mit denselben SSDs angeschafft wurde und annähernd zeitgleich eingeht.
4.) Cloud Backups fallen auch zum Großteil aus, da das Rücksichern der gesamten Datenmenge über die üblichen Internetleitungen einen sehr langen Ausfall bedeutet.
5.) Bleibt nur mehr das typische wöchentliche Backup außer Haus d.h. alle Buchhaltungsdaten einer Woche sind weg inkl. mindestens einem Tag Serverausfall (Ersatzhardware besorgen, Backup zurückspielen usw.)
 
andr_gin schrieb:
1.) RAID10 als erster Schutz gegen Hardwareausfälle fällt hier schon einmal flach, weil alle SSDs gleichzeitig betroffen sind.
2.) Sämtliche logische Backups wie Snapshots einer virtuellen Maschine fallen auch weg, da die am selben Server liegen
sind ja per se keine Backups, daher irrelevant für die Argumentation
andr_gin schrieb:
3.) Das tägliche Backup auf den Backupserver fällt eventuell auch flach, wenn dieser zeitgleich mit denselben SSDs angeschafft wurde und annähernd zeitgleich eingeht.
Sagt wer? logisch wäre hier anzunehmen das Backups auf klassische Harddisks gemacht werden, im geschäftlichen Umfeld ist zwar mehr Geld, aber zu verschenken hat wohl niemand etwas
außerdem wäre es logisch dass nicht alle Systeme zeitgleich online gingen und der Backupserver hat also ca. 12h mehr luft bevor er ausgeht :evillol:
andr_gin schrieb:
4.) Cloud Backups fallen auch zum Großteil aus, da das Rücksichern der gesamten Datenmenge über die üblichen Internetleitungen einen sehr langen Ausfall bedeutet.
wenn du solch großes Wissen um die weltweiten HPE Kunden hast, kannst du vielleicht noch die Lottozahlen aus dem Ärmel schütteln?
andr_gin schrieb:
5.) Bleibt nur mehr das typische wöchentliche Backup außer Haus d.h. alle Buchhaltungsdaten einer Woche sind weg inkl. mindestens einem Tag Serverausfall (Ersatzhardware besorgen, Backup zurückspielen usw.)
Ja, bei dem potentiellen Kundenstamm macht der Admin sicher das Backup mit der USB Festplatte - ganz bestimmt 🤪
 
Alle von Ihnen erstellten Snapshots werden auf unseren hochverfügbaren Speichersystemen abgelegt. Der Snapshot-Inhalt wird dort auf mehrere internen Server und Festplatten verteilt. Diese Verteilung sorgt dafür, dass auch beim Ausfall von 2 Festplatten der Snapshot noch intakt und verfügbar ist.
Aufgrund einer kürzlich aufgetretenen, sehr unglücklichen Reihe von Ereignissen in einem unserer Cluster fielen mehrere Festplatten kurz hintereinander aus und führten dazu, dass eine kleine Anzahl von Snapshots nicht mehr verfügbar war.
Wir haben umgehend alles versucht um die betroffenen Snapshots doch noch wiederherzustellen, leider war dies aber nicht möglich und die Daten sind verloren.

Heute von Hetzner erhalten, frage ich mich ob da eventuell sowas wie das hier beschriebene passiert ist, in dem Artikel geht es zwar um Oktober 2020 bei HPE,aber auch das das bei anderen auch so sein kann.
 
evilhunter schrieb:
1. Warum sollten die Hersteller denn jetzt fixen wenn es so geplant war? Wenn es doch keiner merken kann?
2. Klar ist es einfach zu implementieren, aber wenn man es so plump macht wie du es hier darstellst dann fliegt es auf. Glaubst du nicht, dass wenn massenweise Hardware beim Kunden stirbt das keiner merkt?

Aber es ist doch passiert.
Es ist doch ein Softwarebug ( mit tendenzieller Absicht, warum sollte sonst so eine Abfrage existieren )
Es ist doch "aufgeflogen" z.B. wegen zudreistgeringer Lebensdauer. Wenns weniger dreist wäre, wäre es dir nicht aufgefallen, trotzdem dreist.

evilhunter schrieb:
Das du alle über einen Kamm scherst und mit Klassengesellschaften daher kommst zeigt wie weit du vom Thema weg bist.

Ich habe nicht folgendes gesagt:

evilhunter schrieb:
Das sind keine Consumerprodukte.

Soll heissen bei Consumern ist es ok. Ich habe das aber nicht gesagt.

Vielleicht wurde ja die Consumerfirmware auf die ProfiSSD gespielt.
 
Forum-Fraggle schrieb:
Wie stellt man soetwas eigentlich fest vor Erreichen des Ablaufzeitraums?
Der Ingenieur hatte sich eine Notiz gemacht.

Meist entsteht Firmwareungefähr so:

Manager: Wir haben da bald so eine neue Hardware, fangt doch schonmal an einen Firmware dafür zu bauen.

Entwickler: Klar, aber ohne Hardware können wir das noch nicht testen, müssen wir können uns da was ausdenken, aber müssen noch mal ran sobald testhardware verfügbar ist.

Manager: Okay cool, hier ist die testhardware. Wieso läuft die Firmware noch nicht? Ich habe morgen ne Präsentation, da sind Industriekunden denen habe ich die neue Hardware versprochen.

Entwickler: Da müssen wir ne Nachschicht einlegen und löten das schnell mal als Prototyp zusammen. Wir machen uns ne Notiz dass wir das für die Serie nochmal in ordentlich bauen müssen.

Manager: Hier ist das neue Projekt, baut bitte eine Firmware für die kommende generation. Sobald wir Hardware haben muss ich die dem OEMKunden zeigen, sonst kriegen wir den Aufrag nicht.

Entwickler: Moment, was war mit der letzten Hardware?

Manager: Ist schon lange in produktion und ausgeliefert. Ist auch nicht so wichtig, das funktioniert doch gut, die Kunden waren zufrieden.

Entwickler: WTF?




Und insbesondere im Valley ist es ja mittlerweile auch so dass man alle 2-4 Jahre die Firma wechseln muss um eine Gehaltserhöhung oder in eine bessere Unternehmensposition zu bekommen. Da stehen dann nicht selten neue Entwickler vor dem Codehaufen und fragen sich was davon noch zu gebrauchen ist oder weg kann.
 
  • Gefällt mir
Reaktionen: LukS
Raucherdackel! schrieb:
Indem die Produkte schon vor dem Einsatz beim Hersteller eine Zeit lang laufen.
Die Frage hat mich auch umgetrieben wie die das herausbekommen. Könnten die nicht auch "an der Uhr drehen"? Sprich - die Systemzeit beschleunigen?
 
Dr.Bondage schrieb:
Soll heissen bei Consumern ist es ok. Ich habe das aber nicht gesagt.

Willst du es nicht verstehen?
Im Consumerbereich gibt es nicht annähernd vergleichbare Garantie- / Wartungsverträge. Da kann es den Herstellern dann in der Tat egal sein, ob ein Bauteil (gewollt oder ungewollt) vorzeitig aussteigt. Im Geschäftsumfeld sieht das aber anders aus, weil dann Verträge greifen. Und das kann bei so einem Ausmaß dann zum einen teuer werden für den Hersteller und zum anderen nachhaltig den Ruf schädigen.

Dr.Bondage schrieb:
Aber es ist doch passiert.
Es ist doch ein Softwarebug ( mit tendenzieller Absicht, warum sollte sonst so eine Abfrage existieren )

Hast du den Code vorliegen mit der Abfrage, oder woher stammt die Info?
Glaube kaum dass da steht if(Betriebsstunden > 40000) { selfDestruct(); } .
Würde aus den genannten Gründen für den Hersteller keinen Sinn machen hier soetwas einzubauen. Selbst wenn, wären sie mindestens so kreativ, die Zahl zufällig zwischen 35000 und 45000h festzulegen. Denn wenn alle SSDs in einem System nach 40000h auf einen Schlag ausfallen, kommt jeder Kunde hier ins grübeln und kauft danach keine SSDs von dem Hersteller mehr.
 
Ich habe vorhin mal ein stück software geschrieben um aus ILOs / redfish die verbauten physical disks zu sammeln.
Wenn hier jemand größere mengen HP o.ä betreibt kann ich gern den code teilen
 
Von Geplanter Obsoleszenz zu reden ist schon deswegen totaler Blödsinn, weil solche System auf eine Nutzungsdauer von 5 Jahren ausgelegt sind und dann auch meistens ein entsprechend langer Service-/Wartungsvertrag besteht. Da die im Dauerbetrieb laufen und ein Jahr 8760 Stunden hat, müssen sie also mindestens 5*8760 Stunden = 43800 Stunden durchhalten, wenn die also nach 40.000 Stunden und damit ein halbes Jahr vor dem Ende des Servicevertrags ausfallen, schneidet sich der Hersteller nur ins eigene Fleisch.
 
  • Gefällt mir
Reaktionen: LukS und Mr. Black
IBISXI schrieb:
SSD´s mit automatischer Selbstzerstörung gab es auch noch nicht.
Solche Bugs gabs doch schon öfter bei SSDs. War davon nicht auch die Crucial M4 betroffen?

andr_gin schrieb:
3.) Das tägliche Backup auf den Backupserver fällt eventuell auch flach, wenn dieser zeitgleich mit denselben SSDs angeschafft wurde und annähernd zeitgleich eingeht.
Sollte man eigentlich bei sowas darauf achten das man für den zweiten Server andere Hardware verbaut. Ich hab ja bei meinem privaten NAS schon darauf geachtet nicht die selben Chargen der Festplatten zu verbauen.
 
Zurück
Oben