QNAP NAS Rebuild nicht möglich

CD

Rear Admiral
Registriert
Mai 2010
Beiträge
5.733
Hallo,

Ich habe ein QNAP TS-412 NAS. Darin befinden sich vier identische Festplatten in einem RAID5 Verbund.

Die Disk in Bay 3 hat im SMART-Test immer mehr Fehler entwickelt und der Status wechselte von "Good" auf Warning.

Also habe ich eine Ersatz-Festplatte beschafft und in Bay 3 eingebaut.

Zunächst sah alles ganz gut aus, und das NAS hat einen Rebuild des Raid5 begonnen.

Dann, nach wenigen Minuten hat eine der alten Disks in Bay 2 versagt und das ganze NAS ist abgestürzt.

Mit der Ersatz-Festplatte in Bay 3 startet das NAS garnicht mehr.

Ohne Festplatte in Bay 3 startet das NAS, aber beklagt sich, dass dem RAID5 eine Disk fehlt (die in Bay 3) und eine weitere Disk schwere Lesefehler hat (die in Bay 2).

Mein Problem ist jetzt, dass ich das NAS nicht zu einem Rebuild überreden kann.

Egal ob ich die alte oder die neue Platte in Bay 3 einfüge, es erscheint immer "Could not add Disk 3 to array".

Der aktuelle Zustand des Arrays sieht so aus:

Overview.png

Die Disk in Bay 3 wird zwar erkannt, kann dem Array aber nicht mehr hinzugefügt werden. Das Array selbst ist auf "Read only" und es werden nur noch die Disks aus Bay 1, 2 und 4 verwendet.

Gibt es sonst noch etwas das ich probieren kann?

Von den Daten gibt es ein aktuelles Backup, das ist also nicht das Problem...


Zusammengefasst der zeitliche Ablauf:

1) Bay 3 alte Disk war am abnippeln
2) neue Disk gekauft und in Bay 3 gesteckt
3) NAS hat Rebuild gestartet
4) NAS meldet Fehler auf einer weiteren Disk in Bay 2
5) NAS stürzt komplett ab
6) Mit der Bestückung "Alt - Alt - Neu - Alt" lässt sich das NAS garnicht starten
7) Mit der Bestückung "Alt - Alt - Leer - Alt" kann das NAS gestartet werden
8) Weder die neue noch die alte Platte können nach der Installation in Bay 3 dem Array hinzugefügt werden

Bereits vor dem Rebuild-Versuch fanden keine Schreibzugriffe mehr auf das NAS statt, die alte Disk von Bay 3 müsste also noch in einem Zustand der zum Array passt. Trotzdem will das Array die Disk nicht mehr aufnehmen. Liegt das daran, dass inzwischen Disk 2 auch Alarmstufe Rot hat und das ganze Array nur noch Lesezugriff hat?
 
Zuletzt bearbeitet:
CD schrieb:
Von den Daten gibt es ein aktuelles Backup, das ist also nicht das Problem...

Und warum dann damit herum ärgern? Selbst wenn es geht, das dauert sehr lange. Raid neu einrichten und Backup zurück spielen.

Wenn bei einem Rebuild eines Raid 5 eine weitere HDD ausfällt, dann ist das das Ende des Raids.
 
selbst ich habe bei meinem NAS ein externes Backup
und RAID ist kein Backup es ist und bleibt nur eine Ausfallsicherung

du kannst ggf. die neue Disk 3 noch einmal am PC alle Partitionen entfernen und neu formatieren
 
Raid zerlegen und ein Neues aufbauen, Backup einspielen, fertig. ggf über Raid 6 nachdenken.
 
"aktuelles backup" = vier Tage alt. Wenn möglich, dann würde ich gerne noch an die Daten kommen, die in der Zwischenzeit dazugekommen sind.

Im Storage Manager wird das Raid als "Degraded, Read only" aufgeführt, und gemäss QNAP Website ist der Read only mode gerade dazu da, um die Daten im Falle von zwei Disk Fails noch zu retten.

Aber wie kommen ich an die Daten heran? Die QNAP Website sagt nur "Rebuild Array". Und die ganzen Fileshares sind aus dem Netzwerk verschwunden, d. h. so komme ich auch nicht dran...

Anstatt eines Rebuilds würde ich dann schon ein neues Array aufsetzen, entsprechend mit neuen Platten.
Ergänzung ()

Nachtrag: Die SMB-Shares sind zwar weg, aber die NFS-Shares sind noch da. Die Daten sind also noch übers Netzwerk zugänglich. Werde das Backup nochmal mit dem aktuellen Zustand abgleichen und danach wird dann alles plattgemacht und zurückkopiert.
 
Da hast Du wohl Pech gehabt, denn die WD Purple sind nur mit einer UBER von 1:10^14 angegeben und dies bedeutet, dass man pro 12TB gelesener Daten mit einem Lesefehler rechnen muss ohne das die HDD ihre Spezifikation verletzt und dann bricht das Rebuild des RAIDs eben mit der Fehlermeldung ab die Du erhalten hast. Die theoretische Chance auf ein erfolgreiches Rebuild eines RAID 5 mit 4 x 4TB HDD mit einer UBER von 1:10^14 beträgt eben keine 30%, bei HDDs mit einer UBER von 1:10^15 wären es hingegen über 90%. Achte also das nächste mal auf die Spezifikationen der Platten und lass Dich nicht von Angaben wie 10:10^15 in verwirren, denn das sind auch nur 1:10^14.

Das das RAID ja R/O ist, solltest Du die Daten retten die nicht im Backup stehen und dann das RAID neu aufsetzen und die Daten zurückspielen.
 
Es ist trotzdem irgendwie kurios... angefangen hat mein Raid vor vielen Jahren mit 4x 500 GB, anschliessend wurde es vergrössert auf 4x 1 TB und dann auf 4x 2 TB. Jeweils mit schnöden Desktop Western Digital Platten (WD Greens).

Bei jedem Expand wurde jeweils 4x ein Rebuild durchgeführt (1x pro neuer Platte). Nie ist irgendwas passiert. Erst als ich von den Western Digital Greens auf Purples gewechselt hab gingen die Probleme los. Letzten Herbst das Upgrade auf 4x 4 TB:

Erster Plattentausch und Rebuild gut
Zweiter Plattentausch und Rebuild gut
Dritter Plattentausch und Rebuild gut
Vierter Plattentausch -> Neue Platte wird nicht vom NAS erkannt. Platte an den PC angeschlossen -> Wird auch nicht vom PC erkannt. Platte probeweise nochmal ins NAS gesteckt -> Wurde erkannt und Rebuild erfolgreich durchgeführt.

Keine drei Monate später ist dann die erste Purple kaputt gegangen. So richtig Totalausfall. RMA und neue Platte bekommen.
Und jetzt, etwas über ein Jahr später, sind nochmal zwei von den ursprünglichen Platten ausgestiegen. Eine mit abartig vielen SMART-Lesefehlern und die andere so richtig hart mit IO-Errors.

Es kommt mir eher so vor als wären die Purples einfach scheiss Platten und nicht besonders zuverlässig. Das nächste Upgrade wird wahrscheinlich WD REDs beinhalten...
 
Das ist eben das blöde an der UBER, die Wahrscheinlichkeit eine HDD komplett ohne einen Lesefehler lesen zu können, fällt umso mehr je größer deren Kapazität ist. Bei einer UBER von 1:10^14 muss eben pro etwa 12TB gelesener Daten mit einem Lesefehler gerechnet werden und bei einer HDD mit 500GB Kapazität ist damit das Risiko 1:24 oder umgekehrt die Chance 0,958 bzw. 95,8% Für ein Rebuild eines RAID 5 aus 4 dieser HDDs müssen 3 komplett fehlerfrei gelesen werden, die Chance dafür ist also 0,958^3, also 0,88 oder 88%. Bei 1TB HDDs sind die Zahlen schon 0,9167 für eine und 0,77 für alle 3 HDD, bei 2TB pro HDD dann aber nur noch 0,8333 und 0,579, also immer noch über 50%. Bei 4TB HDDs sind es dann aber eben keine 30% mehr und bei einer Chance unter 50% braucht man eben richtig Glück damit es klappt, dies war Dir aber eben nicht gegeben.

Ob die Purple Mist sind oder nur misshandelt wurde, von HGST gibt es dieses Video über die Empfindlichkeit und korrekt Handhabung von HDDs, mit dem Empfehlung wie die Umgebung aussehen sollte auf denen mit HDDs gearbeitet wird und sie weisen darauf hin, dass die Schäden sich auch erst später bemerkbar machen können, kann ich nicht beurteilen, aber ich wäre bei einem RAID 5 mit 4 x 4TB und HDDs mit einer UBER von 1:10^14 immer vorsichtig und würde mir sowas nicht zusammenstellen, sondern entweder auf ein RAID 6 oder HDDs mit einer UBER von 1:10^15 setzen.
 
Also verstehe ich das richtig, ein 1:10^14 Rating bedeutet, dass man nur eine 74% Chance hat, eine einzelne 4 TB Festplatte 1x komplett zu beschreiben und hinterher dann alle geschriebenen Daten erfolgreich auszulesen?
 
Es geht aber nur um Lesen der Daten und wie sehr der zeitliche Abstand des Schreibens vor dem Zeitpunkt des Lesens eine Rolle spielt, kann ich nicht sagen. Da aber 10^14 Bit etwa 12TB sind und die UBER in Sektoren pro gelesener Bits angegeben wird, hat man bei einer 4TB HDD mit einer UBER von 1:10^14 dann nur eine Chance von etwa 66,7% diese einmal komplett auszulesen ohne dabei eine Lesefehler zu bekommen. Die Wahrscheinlichkeit errechnet sich: (12TB - 4TB)/12TB = 0,667, wobei die 12TB sich aus den 10^14 Bit ergeben die statistisch fehlerfrei gelesen werden können und die 4TB die Kapazität der Platte sind.

Wie realistisch diese Herstellerangaben von 1:10^14 oder 1:10^15 sind, steht auf einem anderen Blatt, die Angaben sind ja meist auch < oder <=, die Fehler kommen also nicht garantiert und schon gar nicht genau nachdem jeweils 12TB gelesen werden, aber man muss eben gemäß den Angaben der Hersteller damit rechnen und wenn sie mit der Häufigkeit kommen, verletzt die HDD ihre Spezifikationen noch nicht. Wie immer bei statistischen Daten gibt es Leute die dies alles für Blödsinn halten und dann gerne anführen, dass es bei ihnen trotz einer geringen theoretischen Wahrscheinlichkeit eben doch geklappt hat. Dabei übersehen sie, dass man auch bei einer geringen Wahrscheinlichkeit natürlich Glück haben kann, eine 6er im Lotto zu haben ist auch extrem unwahrscheinlich und dort gelingt es fast jede Woche jemandem, dies beweist ja auch nicht, dass die berechnete Wahrscheinlichkeit deswegen falsch wäre.

Die Frage die man sich stellen muss ist, auf wie viel Glück will man vertrauen? Bei Deinem RAID war die Wahrscheinlichkeit eben 0,667³ und damit knapp unter 30% und die zu 70% wahrscheinliche Option das es wegen einer Lesefehlers schief geht, ist dann auch eingetreten. Zuweilen passieren eben doch die Dinge für die es auch theoretisch aufgrund der Herstellerangaben einer größere Wahrscheinlichkeit gibt.

Die Lösungen sind:
1.) Natürlich Backup, dies muss man sowieso immer haben! Zum Glück kann man meist die neusten Daten die noch letzten Backup fehlen auch vom degraded RAID ziehen, hier war es ja auch Read Only. Die Daten auf dem Sektor des den Lesefehler geliefert hat, sind aber verloren und mit Pech sind das Metadaten und dann ist ein ganzes Verzeichnis oder schlimmstenfalls das ganze Filesystem betroffen!
2.) RAID 6, was bei 4 Bays aber wenig attraktiv ist, da die Nutzkapazität dann auch 50% der installierten Kapazität abfällt.
3.) HDDs mit einer UBER von 1:10^15 verwenden, dies wäre in 4TB von WD statt der Red die Re oder besser deren Nachfolger Gold und bei Seagate z.B. die Enterprise Capacity oder die IronWolf Pro, die aber wegen des +Rescue sogar teurer ist. Da würde ich eher zu Ironwolf 6TB greifen, die kostet sogar minimal weniger und ab 6TB haben die Ironwolf dann auch eine UBER von 1:10^15, bei den Kapazitäten darunter haben sie nur 1:10^14, während die Ironwolf Pro alle 1:10^15 haben.
 
Dass eine 4 TB Consumer-HDD nur mit einer Wahrscheinlichkeit von ca. 70% komplett erfolgreich ausgelesen werden kann ist eigentlich sogar noch erschreckend schlecht, um ganz ehrlich zu sein. Da muss ich in Zukunft wohl etwas besser drauf achten.

Das vorhandene (ein paar Tage alte) Backup und die Tatsache, dass das NAS in einen Read-Only Modus gegangen ist, haben mir da echt den Arsch gerettet. Und manche Leute sagen, NAS + trotzdem Backup wäre übertrieben...
 
Wobei für die WD Red 10TB ja auch nur mit einer UBER von 1:10^14 im Datenblatt angegeben ist und damit nur noch eine Wahrscheinlichkeit von 16,7% hat, einmal komplett fehlerfrei gelesen zu werden. Wieso WD hier nicht dem Beispiel von Seagate folgt bei denen die Ironwolf ab 6TB eben 1:10^15 haben und noch nicht einmal für die teuere Red Pro 10TB eine bessere UBER bietet, sondern stattdessen im Datenblatt "<10 in 10^15" schreibt, was total Verarschung ist und nur auf den ersten Blick besser aussieht, aber in Wahrheit eben auch nur 1:10^14 ist, kann ich auch nicht nachvollziehen. Aber ich habe es eben bei meiner Kaufentscheidung berücksichtigt und die Ironwolf 10TB statt der Red 10TB für meinen neuen Heimserver angeschafft.
 
Die Diskussion war auf jeden Fall sehr erleuchtend, und mittlerweile ist mein Backup auch fast vollständig wieder hergestellt.
 
Das freut mich!
CD schrieb:
manche Leute sagen, NAS + trotzdem Backup wäre übertrieben...
Auf die solltest Du übrigens nicht hören, denn ein NAS alleine ist kein sicherer Ort für die Daten (auch wenn die Werbung dies gerne anderes vermitteln würde) und RAIDs ersetzen keine Backups! Wer das Gegenteil behauptet, hat schlicht keine Ahnung und sollte sich überlegen warum Profis immer Backups machen und die NAS Hersteller selbst den billigen Consumergeräte Backupfunktionen und USB Host Ports zum Anschließen der externen HDDs für Backup verbauen.
 
Zurück
Oben