Fehlerhafter Cluster SSD

Baumi87 · 1. Januar 2016

Hallo32 schrieb:
Garantiebedingung können in der Regel sehr frei vom Hersteller definiert werden. In den Fall wird es schwer etwas einzuklagen.

Entschulding, gestzliche Gewährleistung, alte Gewohnheit..

Hallo32 schrieb:
Der POR-Wiederherstellungszähler ist relativ egal. Dieser zählt nur die unsauberen Shutdowns, die die SSD erkannt hat.

Sag ich doch, aber es gibt einen Kollegen, der uns bei unkorrigierbaren ECC Schuldgefühle einreden möchte, weil wir angeblich ständig den Netzstecker ziehen.

LPS Lightweight
http://www.spi.dod.mil/lipose.htm
Diese CD hat gar keine Plattentreiber. Wie will die sich dann bei den Platten abmelden? Ich habe > 500 POR, natürlich ohne ECC.

Ich glaube, die Acronis-CD und tausend andere macht das auch nicht immer.

MikeMüller · 1. Januar 2016

Kann mir jemand sagen, was genau mit meiner SSD passiert ist?

Sind das defekte Chips, die da jetzt mit drauf sind?

Holt · 1. Januar 2016

Baumi87 schrieb:
SuperTalent

Die mit dem alten Indilinx Controller, aber wenigstens ist keine zu alten FW drauf. Das Problem bei denen ist bei der alten FW eine extrem hohe Write Amplification, der Controller drisst praktisch die P/E Zyklen im Idle auf. Dazu kommt, dass bei einem FW Update meist die Werte alle zurückgesetzt werden, also die SSD wie neu aussieht, aber die Zellen halt nicht neu sind. Hättest Du damals meine gelesen und befolgt, wärst Du bei einer Intel Postville gelandet, die funktionieren bis auf den sehr seltenen 8MB Bug der auch durch unerwartete Spannungsabfälle ausgelöst wird, durchweg sehr und haben sehr haltbare NANDs verbaut. Das waren damals die empfehlenswerten SSDs.

Baumi87 schrieb:
von MF oder so - vergessen. Beim Verkäufer reklamiert.

Wenn ich eine SSD zweimal beim Verkäufer reklamiert haben, weiß ich aber noch wer das war, sei ehrlich, die hast gebraucht gekauft als angeblich neu weil Du das mit dem Zurücksetzen der S.M.A.R.T. Werte beim FW Update nicht wusstest, stimmts?

Baumi87 schrieb:
Eine Plextor zickt auch rum. Die vergisst immer nach knapp 2 Jahren einfach die Bits.

2 Jahre im Betrieb oder ohne Benutzung im Schrank? Letztere wäre kein Wunder, sind werden nur 12 Monate Datenerhalt bei Lagerung bei 30°C für Consumer SSDs vorgesehen.

Meine M3S macht zwar keine Probleme, aber von Plextor bin ich auch abgewichen, diese M5Pro ist leider kein Einzelfall, Plextor stellt eben keine NANDs selbst her und kann auch mal Schrott einkaufen oder untergeschoben bekommen.

Bei der M6 Pro gibt es auch den batch Nummern 3C01110215, 3C01120268, 3C01120269 und 3C01140226 einen Bug der Datenverlust und Datenkorruption verursacht, hast Du vielleicht eine von denen?

Baumi87 schrieb:
Man beachte den POR-Wiederherstellungszähler!

Deswegen sieht sie auch noch so gut aus, denn jede POR-Wiederherstellung ist ein Risiko.

Hallo32 schrieb:
Der POR-Wiederherstellungszähler ist relativ egal. Dieser zählt nur die unsauberen Shutdowns, die die SSD erkannt hat.

Aber genau die sind ja die Gefahr, von relativ egal sollte man nicht reden, wenn man so genau auf die ECC Fehler achtet.

MikeMüller schrieb:
Kann mir jemand sagen, was genau mit meiner SSD passiert ist?

Sicher kann das keine sagen, vermutlich wurde während eines oder mehreren der unerwarteten Spannungsabfälle gerade geschrieben und dadurch stimmten die Schwellwerte für das Auslesen der Daten nicht mehr, die Daten können also nicht mehr korrekt gelesen werden. Defekt sind die Chips nur in dem Sinne das einzelne Blöcke nicht mehr nutzbar sind, aber dafür gibt es Reserven. Die NANDs sind aber nicht am Ende und es werden jetzt auch nicht weitere Blöcke deswegen ausfallen, zumindest nicht solange es keine weiteren unerwarteten Spannungsabfälle während Schreibvorgängen gibt. Dabei besteht immer ein Risiko, wenn man keine SSD mit Full-Power-Loss-Protection hat, was aber ein Enterprise Feature ist, welches bei den Consumer SSD nur die Intel 730 und 750 bieten. Consumer HW soll eben möglichst billig sein, auch wenn viele die 850 Pro nun wirklich nicht als billig ansehen werden, sie ist es im Vergleich zu Enteprise SSDs schon und Consumer-HW läuft eben nur meistens problemlos, aber eben ohne den Anspruch der 100% Perfektion so nahe wie möglich zu kommen.

Baumi87 · 1. Januar 2016

Samsung SSD 840 EVO 250GB (FAIL-Werte in Samsung Magician bedenklich ?)
https://www.computerbase.de/forum/t...ng-magician-bedenklich.1539469/#post-18218101

Papa Schlumpf schrieb:
]Ganz wichtig, ich sollte mein Betriebssystem sichern, oder aber es neu aufspielen, da nicht auszuschließen wäre das Daten defekt sein könnten und bei einer 1 zu 1 Kopie (mit einer Imagesoftware von den Festplattendaten) auf eine neue SSD die Fehler mit auf die neue Platte kopiert werden und somit weiter noch mit vorhanden wären, daher wäre es eher ratsam alles neu aufzuspielen dann auf eine neue SSD.

Bei einer Samsung 850 Pro dürfte es Samsung noch viel peinlicher sein, und die möchten bestimmt sehr dringend, dass so ein Ausreißer aus der Öffentlichkeit verschwindet und nicht noch jahrelang darüber berichtet wird - so wie ich das mache mit Plextor und Supertalent.

https://de.wikipedia.org/wiki/Selektive_Wahrnehmung

PS
Auf der Plextor habe ich in einer extra Partition ein Image mit Acronis angelegt. In 6 Monaten werde ich dann mal die MB/s beim Kopieren melden, und in 18 Monaten was noch vom Image übrig ist. Die SSD ist im PC und ständig an.

Auf der Supertalent läuft Suse Linux mit BtrFS, was jeden Bitfehler sofort melden sollte. Seit dem traut die sich keine unkorrigierbaren ECC-Fehler mehr neu. Und dieses Ubuntu hier hat auch BtrFS auf einer bisher prima Toshiba Q 300 THNSNJ12 oder so.

Also wende Dich vertrauensvoll an den super Support von Samsung und lass Dir hier keinen Bären aufbinden. Wenn Samsung die Horrogeschichten mit dem Stromausfall lesen würde, wäre denen das bestimmt peinlich. Du solltest sie aber mal fragen, ob ECC-Fehler mit Spannungsabfällen zusammen hängen, und ob sie einen Holt kennen (wollen).

Transaktionale Programmierung zur Kenntnis zu nehmen, weigert sich ja dieser Holt mit allen Mitteln.

Hallo32 · 1. Januar 2016

Holt schrieb:
Aber genau die sind ja die Gefahr, von relativ egal sollte man nicht reden, wenn man so genau auf die ECC Fehler achtet.

Was dürfte viel passieren?
Wenn die SSD sich an den Flush Befehlen hält, dürften keine Daten mehr ungespeichert innerhalb der SSD vorliegen und somit kein Datenverlust für den Anwender auftreten.

Der FTL scheint bei Samsung immer redundant vorhanden zu sein und dürfte beim Flush auch einmal gesynct werden. Das POR scheint mir "nur" die Erkennung eines Dirty Bits zu sein und eine Verifikation des FTL.

Baumi87 · 1. Januar 2016

Hallo32 schrieb:
"nur" die Erkennung eines Dirty Bits zu sein

So wirds wohl sein. Übrigens tritt dieser Effekt auch beim ersten Boot nach dem Restore eines im laufenden Windows erstellten Backups auf, mal ins Eventlog gucken.

Hallo32 · 1. Januar 2016

MikeMüller schrieb:
Kann mir jemand sagen, was genau mit meiner SSD passiert ist?

Sind das defekte Chips, die da jetzt mit drauf sind?

Im Prinzip hat die SSD beim Lesen von Daten einen Fehler erkannt und diesen versucht selbständig zu beheben. (ECC-Fehlerrate)
Dieser konnten in deinen Fall aber nicht behoben werden. (Nicht korrigierbare Fehler)
Als Folge dessen hat die SSD die Blöcke, in denen die Daten standen, als defekt markiert. (Laufzeit schlechter Blöcke)

In der Regel sollten solche fehlerhaften Blöcke nicht beim Kunden bei einer so geringen Nutzung der SSD auftreten.

Absolut fehlerfrei Chips sind selten und teuer. In der Regel werden die fehlerhaften Teile eines Chips deaktiviert (z.B.: GPUs) oder durch fehlerfreie Ersatzteile innerhalb eines Chips ersetzt. (Flash, Ram) Dieses erfolgt in der Regel vor der Auslieferung an den Kunden.

Bei dir ist dieses jetzt beim Kunden aufgetreten. Man könnte jetzt spekulieren ob die Anzahl der defekten Blöcke noch steigt, aber für eine sachliche Interpretation bräuchte man mehr Informationen, die Samsung nicht teilen wird.

Kurzform: Versuche für die SSD einen Austausch zu erhalten.

Holt · 1. Januar 2016

Baumi87, es reicht! Ich bin kein Mitarbeiter von Samsung, Intel, Crucial oder sonst einer Firma die mit SSDs zu tun hat, außer das sie in den Rechnern stecken. Daher kann mich Samsung auch wenn, dann n nur aus den Foren kennen, aber das irgendwelche Mitarbeiter im Callcentrer hier lesen halte ich für unwahrscheinlich und viel Ahnung darf man von den Supportleuten leider meist auch nicht erwarten. Die sollte Kunden beruhigen und bieten daher meist den Austasuch an, damit kein Shitstorm losgetreten wird. Wenn die SSD in Ordnung ist, werden die S.M.A.R.T. Werte zurückgesetzt und sie geht als Refurbished wieder als Ersatz für den nächsten Garantiefall raus.

Hallo32 schrieb:
Wenn die SSD sich an den Flush Befehlen hält, dürften keine Daten mehr ungespeichert innerhalb der SSD vorliegen und somit kein Datenverlust für den Anwender auftreten.

Du hast die Idle-GC vergessen, die Daten werden ja immer auch mal intern im Idle umkopiert und wenn die SSD eben nicht vorher erfahren hat das gleich die Spannung weg sein wird, dann kann es jederzeit passieren das gerade in NANDs geschrieben wird, obwohl der Rechner gar nicht auf sie zugreift, ja sogar gerade deswegen!

Hallo32 schrieb:
Der FTL scheint bei Samsung immer redundant vorhanden zu sein und dürfte beim Flush auch einmal gesynct werden.

Auch wenn der FTL redundant ist, müssen nicht beide Kopien zeitgleich die gleichen Daten haben und schon sind u.U. die Daten korrput, wenn der Strom plötzlich fehlt.

Hallo32 schrieb:
Das POR scheint mir "nur" die Erkennung eines Dirty Bits zu sein und eine Verifikation des FTL.

Aber auch das beste Filesystem kann bei gesetztem Dirty Bit mal korrupt geworden sein und deswegen macht der Rechner dann gewöhnlich auch eine Überprüfung des Filesystem wenn er eines mit gesetzem Dirty Bit gemountet werden soll oder mountet es nur RO. Auch wenn es meinstens gut geht, wie bei den Journaling Filesystemen üblich, muss das ja nicht immer der Fall sein und ab und an geht es auch mal schief, genau wie bei einer SSD. Um das zu vermeiden haben Rechenzentren Notstromversorgungen, ggf. werden SAS Platten mit Dual-Port genommen um sie auch noch redundant an zwei RAID Controllern zu betreiben um selbst bei Ausfall eines RAID Controllers kein Risiko einzugehen, denn das ist ja mindestens so gefährlich für das Filesystem, zumal die RAID Controller in Enterpriseservern immer auch einen DRAM Cache mit BBU haben und die sync faken, also flush Befehle sofort beantworten ohne ihren Cacheinhalt wirklich auf die Platte zurückzuschrieben. Daher gibt es jauch extra Befehle um auf das bevorstehende Ausschalten des Server hinzuweisen, sonst würde ein flush ja reichen.

Hallo32 · 2. Januar 2016

Holt schrieb:
Du hast die Idle-GC vergessen, die Daten werden ja immer auch mal intern im Idle umkopiert und wenn die SSD eben nicht vorher erfahren hat das gleich die Spannung weg sein wird, dann kann es jederzeit passieren das gerade in NANDs geschrieben wird, obwohl der Rechner gar nicht auf sie zugreift, ja sogar gerade deswegen!

Wir sind lange nicht mehr bei der ersten Generation von SSDs und entsprechend optimierter Firmware. Die Entwickler bei den Hersteller dürften entsprechende Algorithmen entwickelt haben, dass ein Spannungsabfall in so einen Fall nicht zu Problemen führt.
Ansonsten müssten hier im Forum auch schon einige Leute von Problemen posten, die ihre zu kleine SSD jetzt als "USB SSD" nutzen und vielleicht nicht immer vom System abmelden.

Holt schrieb:
Auch wenn der FTL redundant ist, müssen nicht beide Kopien zeitgleich die gleichen Daten haben und schon sind u.U. die Daten korrupt, wenn der Strom plötzlich fehlt.

Nein, die Daten selbst sind nicht korrupt. Notfalls verifiziert man die Backup FTL gegenüber den Verwaltungsdaten der Pages.

Hast du dir mal überlegt, warum die MX100 Serie nach einen harten Power Off länger für den Abschluss der Initialisierung braucht?

Holt · 2. Januar 2016

Natürlich haben die Entwickler einiges getan um Probleme bei unerwarteten Spannungsabfällen zu vermeiden und in den allermeisten Fällen reichen die auch. Crucial musste aber bei der m500 Stützkondensatiren verwenden um die doch recht gehäuft aufgetretenen Probleme der m4 zu lösen und macht es bis heute bei seinen SSDs mit Marvell Controllern. Sowas verursacht Kosten und wird möglichst vermieden, Consumer SSD sollen eben vor allem billig sein, aber wenn es zu oft Probleme gibt, muss man eben was machen. Consumer-HW hat eben nicht auf die Perfektion ausgelegt, wie manche Leute sie verlangen, es gibt auch kein Schwarz-Weiß, sondern viele Grautöne und je perfekte die HW funktionieren soll, umso mehr Aufwand muss getrieben werden und umso teurer wird es. Das können und wollen Heimanwender aber eben nicht bezahlen, also bliebt nur der Mut zur Lücke und solange die Probleme nicht überhand nehmen, wie z.B. anfangs bei SF-1222 und SF-2281 oder eine zeitlang bei OCZ, reicht das meist auch.

Die MX100 hat nur eine Client-Power-Fail Protection, also nicht die nötige Kapazität der Kondensatoren um garantiert immer alles aus dem Cache zurückschreiben zu können, dabei kann es auch zu Datenkorruption kommen. Die MX100 wird nach einem unerwarteten Spannungsabfall auch immer die Metadaten auf konsistrenz prüfen und es gab schon Fälle wo sie sich danach nicht mehr gemeldet hat und mit der Power Cycle Methode wiederbelebt werdeen konnte, da war also offensichtlich der FTL korrupt, denn die Power Cycle Methode animiert den Controller dese auf den LBAs die Micron/Crucial auch noch einmal bei den Daten selbst ablegt, zu rekontruieren.

MikeMüller · 8. Januar 2016

Wenn ich solche Fehler auf meiner Platte hatte, wie in diesem Fall hier, habe ich dann schon irgendwelche Daten verloren?

Oder erkennt Windows diese Fehler vor dem schreiben schon und bessert die automatisch aus?

Hallo32 · 8. Januar 2016

Worst Case und sehr wahrscheinlich ja.

Im Idealfall erwischt es Daten, die selbst ebenfalls eine Checksumme integriert haben und somit auch ein Recovery durch die Anwendung ermöglichen. Dann trat kein Verlust auf.

Ob die SSDs aktuell die Daten nach einen Schreibvorgang einmal lesen und mit den Daten, die geschrieben werden sollten, vergleichen, ist mir aktuell nicht bekannt. Das Ganze könnte auch im Flash selbst realisiert werden.

MikeMüller · 8. Januar 2016

Mir gehts jetzt darum, dass ich nicht Gefahr laufe, irgendwelche Daten zu verlieren, die mir vielleicht gar nicht sofort auffallen.

Ich habe z.B. einen SQL Server auf der Platte am laufen.

Nicht dass mir dann mal eine Kunde oder so fehlt.

Hallo32 · 8. Januar 2016

Datenbank sind nicht mein Gebiet.

Holt · 9. Januar 2016

MikeMüller schrieb:
Wenn ich solche Fehler auf meiner Platte hatte, wie in diesem Fall hier, habe ich dann schon irgendwelche Daten verloren?

Möglich, das hängt davon ab was genau passiert ist und wann der Controller das Problem mit den NANDs hatte. War es beim Löschen bzw. beim ersten Schreiben danach, so waren ja sowieso keine gültigen Daten mehr in dem betroffenen NAND Block und damit ging auch nichts verloren.

MikeMüller schrieb:
Oder erkennt Windows diese Fehler vor dem schreiben schon und bessert die automatisch aus?

Nein, Windows kann das nur erkennen, wenn der Controller einen Schreibfehler meldet und NTFS hat keine Prüfummen um die Dateien abzusichern oder gar zu reparieren. Das ist ein Feature für Server-Filesysteme und die Server haben dann auch ECC RAM und damit besteht auch keine Gefahr durch RAM Fehler das ganze Filesystem kaputt zu reparieren. Wenn Du wirklich auf gesteigerte Datensicherheit Wert legst, solltest Du ebenfalls auf entsprechende HW setzen.

MikeMüller schrieb:
Mir gehts jetzt darum, dass ich nicht Gefahr laufe, irgendwelche Daten zu verlieren, die mir vielleicht gar nicht sofort auffallen.

Diese Gefahr hast Du bei einem normalen Desktop immer.

MikeMüller schrieb:
Ich habe z.B. einen SQL Server auf der Platte am laufen.

Nicht dass mir dann mal eine Kunde oder so fehlt.

Wenn Du das Enterpriseanwendungen hast, solltest Du hoffentlich auch Enterprise HW haben, die 850 Pro ist keine Enterprise SSD und damit schon mal nicht für ein solches System mit wichtigen Geschäftsdaten gedacht. Klar geht das alles auch auf Consumer HW, die ist auch billiger bzw. fürs gleiche Geld schneller, aber eben auch unsicherer.

MikeMüller · 9. Januar 2016

Die 850 Pro ist in einem HP ProLiant DL320e Gen8 v2 mit ECC Ram verbaut.

Holt · 9. Januar 2016

Das ist doch schon mal gut, aber es macht aus der 850 Pro keine Enterprise SSD und Samung empfiehlt ja auch ausdrücklich die Nutzung von Enterprise SSDs für geschäftliche Anwendungen, eben weil die neben der Full-Power-Fail-Protection auch noch eine Interal-Data-Path-Protection haben, also ein ECC über das Cache RAM um eben die Sicherheit vor Datenverlust zu erhöhen. Solche Features sind eben auch ein Grund, warum Enterprise SSDs teurer sind.

Fehlerhafter Cluster SSD

Banned

Banned

Banned

Banned

Commodore

Banned

Commodore

Banned

Commodore

Banned

Banned

Commodore

Banned

Commodore

Banned

Banned

Banned

Ähnliche Themen

Passend zum Thema