HDD Ausfall im NAS

micjun18

Lt. Commander
Registriert
Aug. 2005
Beiträge
1.085
ich wollte nochmal abchecken, dass ich alles in der Richtigen Reihenfolge mache ohne vollständiges offsite Backup zurückspielen zu müssen.

QNAP NAS 6x WD Red 8TB mit RAID6 Storagepool (Thin Volume), eine Platte ist heute Nacht beim monatlichen RAID-Check ausgefallen. (Beim letzten HDD-Ausfall vor 2 Jahren war es RAID5 und während Rebuild ist dann die 2.Platte ausgefallen, somit sind ein paar Daten verloren gegangen)

Das erste was ich gemacht hab war die Backups zu aktualisieren somit sind erstmal die wichtigen Daten gesichert, habe aber auch Daten drauf, die ich notfalls anderweitig mit gewissem Aufwand wiederbeschaffen kann (hier existiert absichtlich kein Backup)

Ziel wäre das Raid rebuilden ohne wiedereinspielen des Backups.

Das RAID Volume ist relativ leer siehe Screenshot. Im Speichermanager wird eine HDD, die im Verbund ist als "leer" angezeigt.

Nun zu den Fragen:
die HDD im Verbund kann ich wahrscheinlich nicht zum rebuilden benutzen oder?
also defekte Platte austauschen und sobald die da ist rebuild anstoßen und solange möglichst wenig am NAS machen oder?
 

Anhänge

  • nas1.jpg
    nas1.jpg
    110,9 KB · Aufrufe: 400
  • nas2.jpg
    nas2.jpg
    332,6 KB · Aufrufe: 370
  • smart8.jpg
    smart8.jpg
    267,5 KB · Aufrufe: 272
  • smart6.jpg
    smart6.jpg
    215,6 KB · Aufrufe: 261
  • smart5.jpg
    smart5.jpg
    207,1 KB · Aufrufe: 270
  • smart3.jpg
    smart3.jpg
    211,2 KB · Aufrufe: 263
  • smart2.jpg
    smart2.jpg
    201,5 KB · Aufrufe: 265
  • smart1.jpg
    smart1.jpg
    187,8 KB · Aufrufe: 260
  • nas3.jpg
    nas3.jpg
    502,3 KB · Aufrufe: 268
  • smart4.jpg
    smart4.jpg
    214,7 KB · Aufrufe: 261
Hast Du eine Spare-Platte eingerichtet oder warum ist da eine "leer"?
Wäre dem so, könntest Du darauf einen Rebuild machen.
 
Beim Raid 6 ist der Ausfall einer Platte unkritisch. Würde mir jetzt eine neue Platte kaufen und die defekte austauschen. Sorgen solltest du dir machen sobald die zweite ausfällt.
 
ist dem Verbund zugefügt aber wahrscheinlich wegen dem thin provisioning noch nicht genutzt
Ergänzung ()

screenshot im startpost hinzugefügt
 
Zuletzt bearbeitet:
Da du vor zwei Jahren bereits Daten verloren hattest mit RAID 5 (und RAID 6 ist jetzt nicht viel besser), würde ich dir RAID 1+0 empfehlen. Das hat ein wesentlich kleineres Risiko Daten zu verlieren und ist einfacher zu händeln bei Ausfällen.
 
  • Gefällt mir
Reaktionen: Asghan
Natürlich ist Raid 6 viel besser als Raid 5. Es erlaubt im Array den Ausfall von 2 Platten anstatt einer. Beim Raid 0+1 kann ein Ausfall von 2 Platten zum totalen Datenverlust führen.
 
@Humptidumpti Viel besser ist es nicht, da es nach Ausfall einer Platte dieselben Probleme hat wie RAID 5. Nämlich das beim Austausch der defekten Platte mal ganz fix ein Fehler auftritt und dadurch die nächste ausfällt.
Bei Raid 10 müssten soweit ich weiß 3 Platten ausfallen für den kompletten Datenverlust. Korrigiere mich wenn ich falsch liege.
 
bei raid 6 müssen auch 3 Platten ausfallen für Datenverlust. Darum soll es jetzt aber hier nicht gehen.
 
  • Gefällt mir
Reaktionen: LukS
Raid 0+1 oder Raid 10 haben beide das gleiche Problem. Bei einem werden 2 Raid 1 gestriped und beim anderen werden 2 Raid 0 gemirrort. Und hier kann in beiden Systemen ein Ausfall von 2 Platten zum totalen Verlust führen.

Beim Raid 6 kann im Rebuild ruhig eine Platte ausfallen, da ja ein degradedes Raid 6 praktisch ein Raid 5 ist.
 
  • Gefällt mir
Reaktionen: Mar1u5
Bei Raid 10 sind die selben Daten auf zwei unabhängigen Raids gespeichert. Dadurch ist selbst beim Wegfall eines Raids immer noch alles da. Nicht vergessen: Ein Raid 10 muss nicht nur mit 4 Platten betrieben werden. Der Vorteil hier gegenüber dem Raid 6 ist (wie der TE bei Raid 5 bereits feststellen musste), dass sich ein Raid 1 ohne Probleme wiederherstellen lässt. Bei Raid 5 und 6 fängt man beim Ausfall einer Platte sofort das Schwitzen an, da es beim Austausch immer wieder zu weiteren Fehlern führen kann.

Ich hatte es nur vorgeschlagen, da der TE anscheinend seinem viel besseren Raid 6 wohl doch nicht so traut.
 
Das Rebuild eines Raids ist immer eine kritische Phase in der eine weitere Platte ausfallen kann. Deshalb ersetzt kein Raid ein Backup.
Wenn man 2 Raid 0 zu einem Mirror zusammensetzt bedeutet das das dann 2 Platten ausfallen dürfen wenn sie in dem gleichen Raid 0 sind, Wenn aus jedem Raid 0 eine Platte ausfällt ist der Mirror futsch.
der grösste Nachteil von Raid 6 ist die Schreibperformance. Wenn die nicht wichtig ist ist es von den genannten das sicherste Raid.
 
cscmptrbs schrieb:
der grösste Nachteil von Raid 6 ist die Schreibperformance

Bei einem Raid6 mit 6 Platten liegt die ungefähr auf Niveau von einem Raid5 mit 5 Platten. Hab gerade nur die Werte von Raid6 mit 8*2 TB zur Hand, da liegt die bei ca. 650 MB/s.
 
Bleibt mal bitte am Thema. Ich will hier keine allgemeine Diskussion welches raid „besser“ ist. Bin ambitionierter Hobby-ITler und ein raid rebuild ist für mich kein Tagesgeschäft. Daher wollte ich zur Sicherheit nen Post machen um vermeidbare Probleme im Zusammenhang mit dem rebuild zu diskutieren.

OT: mein Speed auf dem RAID6 ist auch so in dem Bereich 600mb/s völlig ausreichend bei 1GBit Anbindung
 
  • Gefällt mir
Reaktionen: LukS
@micjun18
Ich würde die aus dem Raid gefallenen HDD nicht sofort wieder ins Raid nehmen. Aus irgend einem Grund ist sie ja raus gefallen.

Ausbauen und testen. Gggfls. als Spare einsetzen. Ansonsten ist deine Vorgehensweise im ersten Post korrekt.
 
  • Gefällt mir
Reaktionen: micjun18
Es kann schon mal vorkommen das eine Platte etwas zu lange braucht und dadurch aus dem Raid fällt. Lasse sie einen kompletten SMART Test machen. Wenn der durchläuft kannst du versuchen sie wieder ins Raid zu nehmen, ansonsten austauschen.
 
Humptidumpti schrieb:
@micjun18
Ich würde die aus dem Raid gefallenen HDD nicht sofort wieder ins Raid nehmen. Aus irgend einem Grund ist sie ja raus gefallen.

Ausbauen und testen. Gggfls. als Spare einsetzen. Ansonsten ist deine Vorgehensweise im ersten Post korrekt.
Hab mir ne ersatzplatte bestellt. Die ist morgen da. Die alte werd ich dann erst testen
Ergänzung ()

Muss auch schauen ob es eine von den Platten ist, die vor 2 Jahren nachgekauft wurden...dann ist noch Garantie drauf.
 
Viel Erfolg beim Rebuild. Wenn der fehlschlagen sollte kannst du deine Daten wahrscheinlich trotzdem mit ddrescue retten. Erst wenn die Platten komplett tot/unleserlich sind, ist auch das RAID tot.

Wenn du die Festplatten regelmäßig testest ( SMART Werte überwachen & SMART-Selbsttest oder RAID-Scrub ) dann sollte da im Rebuild normalerweise gar nichts ausfallen. Ein Rebuild ist an sich stinklangweilig, stumpf von Anfang bis Ende eine Platte beschreiben was von allen anderen Platten gelesen wurde. Wenn es da zu einem Ausfall kommt, dann hast du entweder ein riesengroßes Pech gehabt. Oder monate/jahrelang fehlerhafte Platten nicht entdeckt und weiterlaufen lassen.

Wenn du Festplatten nie testest, dann ist es kein Wunder, wenn der Rebuild in bislang unentdeckte Fehler rennt. Festplatten sind leider gut darin, ihre Fehler zu verheimlichen. Ohne aktives Festplattenmonitoring mit regelmäßigen Tests geht gar nichts. Den Rebuild nicht den ersten Test seit Jahren sein lassen ist die halbe Miete.

Mit RAID6 (oder "RAID7", Z3 bei ZFS) kann man klar mehr Festplattenausfälle ausbügeln, aber bei so wenigen Festplatten ist das nicht sinnvoll bzw. du verlierst dann eben einen hohen Anteil an Speicherplatz. Eigentlich lohnt sich RAID6 erst ab 8+ Festplatten. Und wenn du Festplatten nie testest oder Probleme wie Reallocated Sectors etc. ignorierst, dann stirbt dir eben auch ein RAID6. Um den Austausch defekter Festplatten kommt man bei keinem RAID-Level drum herum.
 
@kieleich
RAID-Scrub läuft 1x monatlich
SMART-Test einmal pro Woche der Schnelltest (gerade nochmal gecheckt, leider war der SMART-Test nicht bei allen Platten aktiviert),

Was würdet ihr empfehlen für die Zukunft? 1x/Woche SMART schnell und 1-2 Tage vor dem RAID-Scrub nen Intensiv-Test monatlich?

E-Mail-Benachrichtigungen sind aktiviert für die Backups, Virenscan, RAID-Scrub

hier mal die SMART-Werte der restlichen Platten ...die Nummer 4 ist die ausgeworfene ...die rühr ich nicht an bis die ersatzplatte da ist. Inzwischen weiß ich dass es eine der "alten" Platten ist, die auch knapp 4,5 Jahre auf dem Buckel hat. Platte 4 Wurde komischerweise Anfang August das letzte mal SMART gecheckt
Ergänzung ()

Das nervige ist dass die Oberfläche vom NAS mit dem degraded RAID ziemlich träge ist ...deshalb überleg ich jede aktion, die ich mache
 

Anhänge

  • smart1.jpg
    smart1.jpg
    187,8 KB · Aufrufe: 268
  • smart2.jpg
    smart2.jpg
    201,5 KB · Aufrufe: 271
  • smart3.jpg
    smart3.jpg
    211,2 KB · Aufrufe: 263
  • smart5.jpg
    smart5.jpg
    207,1 KB · Aufrufe: 280
  • smart6.jpg
    smart6.jpg
    215,6 KB · Aufrufe: 280
  • smart8.jpg
    smart8.jpg
    267,5 KB · Aufrufe: 274
Zuletzt bearbeitet:
im 4. driveslot wollte er die platte nicht mehr starten ...habe dann die Platte in den freien Slot 7 gepackt und da lief der kurze SMART-Test durch
 

Anhänge

  • smart4.jpg
    smart4.jpg
    214,7 KB · Aufrufe: 268
es läuft jetzt der ausführliche SMART Test auf der ausgeworfenen Platte. Kann mir jemand erklären was da passiert sein kann? Die Werte sind für mich nicht auffällig?!

im Startpost SMART Werte für ausgeworfene Platte und Syslogscreenshot hochgeladen
 
Zuletzt bearbeitet:
Zurück
Oben