crossblade
Lt. Junior Grade
- Registriert
- Mai 2010
- Beiträge
- 379
Vor einiger Zeit hat es auch mich (leicht) erwischt und eine der Seagate IronWolf 8TB Festplatten war defekt. Das ist statistisch gesehen (laut Backblaze) bei 1,3% der Festplatten pro Jahr der Fall. Bei mehreren Festplatten und Jahren dann natürlich entsprechend mehr. Zum Beispiel bei 10 Festplatten im Durchschnitt alle zehn Jahre… Außergewöhnlich genug, dass es nicht bei jedem Auftritt; Häufig genug, dass es sich lohnt zu wissen wie so etwas abläuft.
In diesem Artikel möchte ich kurz meine Erfahrung von der Ersten Diagnose des Fehlers bis zur wieder in betriebsnahe des Systems beschreiben. Dieser Artikel ist weder direkt noch indirekt gesponsert und ich habe alle erwähnten Produkte auf eigene Kosten erworben.
Kurzfassung (TLDR):
8TB IronWolf Festplatte im NAS verliert regelmäßig die Verbindung, dadurch degradiert das RAID. Diagnose ergibt seltsamen Festplattenschaden. Austausch durch Seagate auf Garantie ist schnell (eine Woche). Anschließender Rebulild des RAID5 dauert 3 Tage. Keine Probleme, kein Datenverlust: Alles wieder einsatzbereit
Der Fehler:
Es war am späten Abend vor gut einem Monat, meine Frau und ich sitzen gemütlich vor dem Fernseher als völlig unverhofft und ohne Anlass das NAS (QNAP TS451A) anfängt zu piepsen. Nach gut 10 Minuten und gut drei dieser Piep-Orgien hört es auf. Ich schaue kurze Zeit später auf die LEDs am NAS. Also gut wohl ein Fehlalarm gewesen – oder so dachte ich es...
Etwas mehr als eine Stunde später fängt das NAS schon wieder an zu piepsen aber dieses Mal blinken die LED rot was auf einen Fehler hindeutet. Ich logge mich schnell auf dem NAS ein und werde gleich mit der Warnmeldung „RAID group 1 degraded“ begrüßt. Eigentlich dank RAID5 kein Drama, aber man sollte schon bald handeln. Ein Blick ins Log zeigt sofort woran es liegt: Wie auch beim ersten Mal ist die Festplatte Nummer 3 aus dem RAID Verbund geflogen. Kurze Zeit später wurde sie wieder gefunden das RAID Rebuild gestartet und anschließend war das NAS wieder fehlerfrei. Dank aktivierten RAID Bitmaps und kaum Schreibzugriffen geht das wiederherstellen bei gleichem Datenträger sehr schnell. Aber drei mal an einem Abend: Da ist was faul!
Diagnose:
Bevor man einen Garantiefall auslöst sind natürlich erst einmal einige andere mögliche Fehlerquellen aus zu schließen. Zumindest im Rahmen dessen was möglich ist Dadurch erspart man sich nicht nur ggf. die Wartezeit im Umtausch, sondern kann auch der Sache wirklich auf den Grund gehen.
Also eine etwas ausführlichere Diagnose muss her:
Fast eine Woche läuft das NAS ohne Fehler durch. Doch dann plötzlich fängt es wieder an zu piepsen. Es kommt wie es kommen muss: Beim Einloggen zeigt sich, dass Festplatte Nummer 3 wieder ärger macht. Ich starte diverse Selbsttests: Die kurzen laufen durch die Langen werden immer wieder von einem Verbindungsverlust unterbrochen.
Weder die SMART Werte noch das IronWolf Health Management zeigen etwaige Fehler an. Das einzige auffällige ist, dass die Festplatte nach jedem herausfliegen die alten Tests „vergessen“ hat. Die IOPS der Platte wie auch der Durchsatz sind allerdings normal und im Rahmen der Messgenauigkeit gleich zu den anderen verbauten IronWolf Festplatten.
Es ist jedoch reproduzierbar, dass die Festplatte unter 1-5h Last plötzlich aus dem RAID fliegt – irgendwo muss also etwas faul sein. (Die Temperaturen sind mit ~40°C allerdings im grünen Bereich).
Einmal gelingt mir sogar ein interessanter Screenshot, dass die Festplatte sich einmal Unpartioniert, ohne Modell und Hersteller aber mit einer Kapazität von 128PB meldet. Diese exakte Zahl (2^64Bits) ist schon Komisch: da stimmt wohl etwas mit dem Controller nicht.
Backups!
Hier gilt der Grundsatz: RAID ersetzt kein Backup!
Zunächst einmal Sichere ich alle Daten von NAS zuhause auf eine externe Festplatte und fahre es anschließend herunter. So kann ich sicherstellen, dass ich ein aktuelles Backup (auch der unwichtigen Daten) habe und nicht noch eine weitere Festplatte den Geist aufgibt. Natürlich existiert auch immer ein Daten der „Kritischen“ Daten: Mindestens 3 Kopien an zwei unterschiedlichen Orten! RAID 5 hat mir also hier zumindest genug Zeit verschafft sicher zu stellen, dass alle Daten aktuell gesichert sind.
Gegentest:
Ich baue die Festplatte in einen freien Schacht von einem anderen NAS ein. Nach einer Woche Test im zweiten NAS ist das Ergebnis klar. verliert die Festplatte immer mal wieder die Verbindung. Manchmal läuft sie einen Tag durch – manchmal verliert sie aber auch 5x innerhalb eines Tages die Verbindung – es muss also an der Platte liegen.
Garantie:
Also Schwups die Platte wieder ausgebaut und Garantiestatus geprüft. Etwas überrascht bin ich schon als der Garantiestatus nur bis Ende Mai 2020 geht. Ich hatte die Platte vor gut zwei Jahren im Dezember bei Amazon gekauft. Da ist sie wohl noch 6 Monate im Lager herum gelegen! Egal alles innerhalb der 3 Jahren Garantie von Seagate.
Zunächst einmal muss man Zwangsweise ein Kundenkonto bei Seagate anlegen. Dann noch ein zweites Mal zur Garantieüberprüfungswebseite ich gehe auf „Anspruch einreichen“ und lande in einem etwas verwirrenden Bereich. Man kann anscheinend nicht so einfach eine Rücksendung einleiten. Ich erstelle also einen Support-Fall bei Seagate und kann dort einen (ausführlichen) Fehler Bericht hochlanden. Leider wird weder eine Rücksendeadresse noch ein weiteres Vorgehen erläutert. Mir kommt es mittlerweile ein bisschen so vor als würde man es bewusst so kompliziert gestallten um die Anzahl der möglichen Reklamationen gering zu halten
Ich rufe also bei der angezeigten Seagate Hotline an. Nach geschlagenen 15 Minuten (Verbesserunsgwürdig) komme ich durch und habe gleich einen kompetenten Techniker an der anderen Seite. Er erklärt mir die Modalitäten des Austausches und sagt er schreibe mir gleich eine Email mit der Rücksendeadresse in München und GANZ wichtig RMA Nummer die außen auf das Paket muss. Die Email kommt eine Stunde Später mit einem Zeitstempel der einen halben Tag in der Zukunft liegt – da liegt das Callcenter wohl mal wieder irgendwo in Asien…
Rücksendung:
Es ist Dienstag vergangene Woche: Ich packe die Festplatte sehr gut ein (Festplatte -> Antistatikfolie -> HDD Schachtel -> 1m² Luftpolstefolie -> Paket) und Maschiere zu DHL. Leider wird mir dort erklärt, dass der von Seagate Geschicket Adressettiket so nicht zulässig ist (Fehlende Angaben). Also muss ich im Ladengeschäft nochmal händisch einen Aufkleber von DHL ausfüllen und dann 7,49€ Bezahlen.
Ergänzung: Wie @ekin06 hier richtig anmerkt sollte man die Festplatte wenn möglich löschen (also z.B. mit Nullen überschreiben). Trotz Stripping können sonst ggf einige Inhalte für unberechtigte lesbar sein. Dies habe ich automatisch bei dem (leider teilweise nicht beendeten) BadBlock Scan gemacht. Außerdem bin ich mir relativ sicher keine sensiblen Daten dort abgelegt zu haben, so das dies in diesem Fall gut genug ist.
Ersatz:
Schon Am Freitag erhalte ich die Erste Mail von Seagate, dass das Paket angekommen ist und etwas über eine Stunde später eine Zweite, dass der Ersatz unterwegs ist. Die Ersatzfestplatte trifft dann auch schon am Montagmittag per UPS aus den Niederlanden bei mir ein. Dort Drinnen Befindet ordentlich Verpackt die lange ersehnte Festplatte.
Bei der Festplatte handelt es sich um ein „Recertified Product“ also um ein repariertes Modell mit Garantie bis 6. August 2020 (das sind nur 3 Monate also mehr als knapp bemessen!).
Rebuild:
Ich baue gleich am Nachmittag die Festplatte ins NAS ein. Sie meldet sich sogleich und das NAS fängt gleich mit dem Rebuild an – Eigentlich hätte ich die Platte zunächst gerne einmal getestet aber OK. Natürlich schaue ich mir zunächst einmal die SMART Daten an und starte trotz Rebuild einen kurzen Selbsttest Ich rechne einmal kurz durch 8TB / 200MB/s ergibt eine theoretische Rebuild Zeit von ca. 12h. In Wahrheit hat es deutlich länger gedauert. In Wahrheit lag die Rebuild Geschwindigkeit bei ~40MB/s: Deutlich weniger als die Platten eigentlich könnten. Der Grund war auch gleich ausgemacht: Die CPU war die ganze Zeit bei 100% - wohl etwas schwach für die ganze XOR-Rechnerei ausgelegt bzw. keine offload-engine für IO und XOR…
Zwei Tage später ist das RAID schon wieder hergestellt und ich kann die Platte auf Herz und Nieren prüfen. Also zunächst ein Speed Test, dann langer selbst Test und zuguterletzt ein Bad Block Scan (der im Moment wo ich dies schreibe noch läuft(.
Fazit:
Insgesamt war das natürlich viel Aufwändiger als man es hätte machen können. Ich glaube nicht, dass sich die meisten Heimanwender oder gar Rechenzentren solch eine mühe bei der Diagnose geben. Auch ist das natürlich ein Einzelfall, sowohl im Fehlerbild wie auch von der ausgefallenen Komponente und lässt keinen Schluss auf Hersteller usw. zu. Trotz alledem habe ich einiges dadurch gelernt, was ich hier mit allen Forenlesern Teilen möchte
Was ich gelernt habe / was sich bestätigt hat:
Ich hoffe der Artikel Hat euch gefallen. Falls noch Fragen sind postet sie einfach unten. ich schaue bestimmt regelmäßig rein
In diesem Artikel möchte ich kurz meine Erfahrung von der Ersten Diagnose des Fehlers bis zur wieder in betriebsnahe des Systems beschreiben. Dieser Artikel ist weder direkt noch indirekt gesponsert und ich habe alle erwähnten Produkte auf eigene Kosten erworben.
Kurzfassung (TLDR):
8TB IronWolf Festplatte im NAS verliert regelmäßig die Verbindung, dadurch degradiert das RAID. Diagnose ergibt seltsamen Festplattenschaden. Austausch durch Seagate auf Garantie ist schnell (eine Woche). Anschließender Rebulild des RAID5 dauert 3 Tage. Keine Probleme, kein Datenverlust: Alles wieder einsatzbereit
Der Fehler:
Es war am späten Abend vor gut einem Monat, meine Frau und ich sitzen gemütlich vor dem Fernseher als völlig unverhofft und ohne Anlass das NAS (QNAP TS451A) anfängt zu piepsen. Nach gut 10 Minuten und gut drei dieser Piep-Orgien hört es auf. Ich schaue kurze Zeit später auf die LEDs am NAS. Also gut wohl ein Fehlalarm gewesen – oder so dachte ich es...
Etwas mehr als eine Stunde später fängt das NAS schon wieder an zu piepsen aber dieses Mal blinken die LED rot was auf einen Fehler hindeutet. Ich logge mich schnell auf dem NAS ein und werde gleich mit der Warnmeldung „RAID group 1 degraded“ begrüßt. Eigentlich dank RAID5 kein Drama, aber man sollte schon bald handeln. Ein Blick ins Log zeigt sofort woran es liegt: Wie auch beim ersten Mal ist die Festplatte Nummer 3 aus dem RAID Verbund geflogen. Kurze Zeit später wurde sie wieder gefunden das RAID Rebuild gestartet und anschließend war das NAS wieder fehlerfrei. Dank aktivierten RAID Bitmaps und kaum Schreibzugriffen geht das wiederherstellen bei gleichem Datenträger sehr schnell. Aber drei mal an einem Abend: Da ist was faul!
Diagnose:
Bevor man einen Garantiefall auslöst sind natürlich erst einmal einige andere mögliche Fehlerquellen aus zu schließen. Zumindest im Rahmen dessen was möglich ist Dadurch erspart man sich nicht nur ggf. die Wartezeit im Umtausch, sondern kann auch der Sache wirklich auf den Grund gehen.
Also eine etwas ausführlichere Diagnose muss her:
- Als erst einmal ein Blick auf die Smart Werte: Alles OK
- Kurzer Selbsttest: Beendet ohne Probleme: Alles OK
- Langer Selbsttest 2x Gestartet bricht nach 10-20min ab – keine Fehlermeldung
- Smart Werte sind immer noch OK
- Nochmal ein kurzer Selbsttest – läuft auch ohne Probleme durch
- Ein letzter langer Selbsttest gestartet und ab ins Bett – der Selbsttest bricht dieses Mal nach längerer Zeit ab.
Fast eine Woche läuft das NAS ohne Fehler durch. Doch dann plötzlich fängt es wieder an zu piepsen. Es kommt wie es kommen muss: Beim Einloggen zeigt sich, dass Festplatte Nummer 3 wieder ärger macht. Ich starte diverse Selbsttests: Die kurzen laufen durch die Langen werden immer wieder von einem Verbindungsverlust unterbrochen.
Weder die SMART Werte noch das IronWolf Health Management zeigen etwaige Fehler an. Das einzige auffällige ist, dass die Festplatte nach jedem herausfliegen die alten Tests „vergessen“ hat. Die IOPS der Platte wie auch der Durchsatz sind allerdings normal und im Rahmen der Messgenauigkeit gleich zu den anderen verbauten IronWolf Festplatten.
Es ist jedoch reproduzierbar, dass die Festplatte unter 1-5h Last plötzlich aus dem RAID fliegt – irgendwo muss also etwas faul sein. (Die Temperaturen sind mit ~40°C allerdings im grünen Bereich).
Einmal gelingt mir sogar ein interessanter Screenshot, dass die Festplatte sich einmal Unpartioniert, ohne Modell und Hersteller aber mit einer Kapazität von 128PB meldet. Diese exakte Zahl (2^64Bits) ist schon Komisch: da stimmt wohl etwas mit dem Controller nicht.
Backups!
Hier gilt der Grundsatz: RAID ersetzt kein Backup!
Zunächst einmal Sichere ich alle Daten von NAS zuhause auf eine externe Festplatte und fahre es anschließend herunter. So kann ich sicherstellen, dass ich ein aktuelles Backup (auch der unwichtigen Daten) habe und nicht noch eine weitere Festplatte den Geist aufgibt. Natürlich existiert auch immer ein Daten der „Kritischen“ Daten: Mindestens 3 Kopien an zwei unterschiedlichen Orten! RAID 5 hat mir also hier zumindest genug Zeit verschafft sicher zu stellen, dass alle Daten aktuell gesichert sind.
Gegentest:
Ich baue die Festplatte in einen freien Schacht von einem anderen NAS ein. Nach einer Woche Test im zweiten NAS ist das Ergebnis klar. verliert die Festplatte immer mal wieder die Verbindung. Manchmal läuft sie einen Tag durch – manchmal verliert sie aber auch 5x innerhalb eines Tages die Verbindung – es muss also an der Platte liegen.
Garantie:
Also Schwups die Platte wieder ausgebaut und Garantiestatus geprüft. Etwas überrascht bin ich schon als der Garantiestatus nur bis Ende Mai 2020 geht. Ich hatte die Platte vor gut zwei Jahren im Dezember bei Amazon gekauft. Da ist sie wohl noch 6 Monate im Lager herum gelegen! Egal alles innerhalb der 3 Jahren Garantie von Seagate.
Zunächst einmal muss man Zwangsweise ein Kundenkonto bei Seagate anlegen. Dann noch ein zweites Mal zur Garantieüberprüfungswebseite ich gehe auf „Anspruch einreichen“ und lande in einem etwas verwirrenden Bereich. Man kann anscheinend nicht so einfach eine Rücksendung einleiten. Ich erstelle also einen Support-Fall bei Seagate und kann dort einen (ausführlichen) Fehler Bericht hochlanden. Leider wird weder eine Rücksendeadresse noch ein weiteres Vorgehen erläutert. Mir kommt es mittlerweile ein bisschen so vor als würde man es bewusst so kompliziert gestallten um die Anzahl der möglichen Reklamationen gering zu halten
Ich rufe also bei der angezeigten Seagate Hotline an. Nach geschlagenen 15 Minuten (Verbesserunsgwürdig) komme ich durch und habe gleich einen kompetenten Techniker an der anderen Seite. Er erklärt mir die Modalitäten des Austausches und sagt er schreibe mir gleich eine Email mit der Rücksendeadresse in München und GANZ wichtig RMA Nummer die außen auf das Paket muss. Die Email kommt eine Stunde Später mit einem Zeitstempel der einen halben Tag in der Zukunft liegt – da liegt das Callcenter wohl mal wieder irgendwo in Asien…
Rücksendung:
Es ist Dienstag vergangene Woche: Ich packe die Festplatte sehr gut ein (Festplatte -> Antistatikfolie -> HDD Schachtel -> 1m² Luftpolstefolie -> Paket) und Maschiere zu DHL. Leider wird mir dort erklärt, dass der von Seagate Geschicket Adressettiket so nicht zulässig ist (Fehlende Angaben). Also muss ich im Ladengeschäft nochmal händisch einen Aufkleber von DHL ausfüllen und dann 7,49€ Bezahlen.
Ergänzung: Wie @ekin06 hier richtig anmerkt sollte man die Festplatte wenn möglich löschen (also z.B. mit Nullen überschreiben). Trotz Stripping können sonst ggf einige Inhalte für unberechtigte lesbar sein. Dies habe ich automatisch bei dem (leider teilweise nicht beendeten) BadBlock Scan gemacht. Außerdem bin ich mir relativ sicher keine sensiblen Daten dort abgelegt zu haben, so das dies in diesem Fall gut genug ist.
Ersatz:
Schon Am Freitag erhalte ich die Erste Mail von Seagate, dass das Paket angekommen ist und etwas über eine Stunde später eine Zweite, dass der Ersatz unterwegs ist. Die Ersatzfestplatte trifft dann auch schon am Montagmittag per UPS aus den Niederlanden bei mir ein. Dort Drinnen Befindet ordentlich Verpackt die lange ersehnte Festplatte.
Bei der Festplatte handelt es sich um ein „Recertified Product“ also um ein repariertes Modell mit Garantie bis 6. August 2020 (das sind nur 3 Monate also mehr als knapp bemessen!).
Rebuild:
Ich baue gleich am Nachmittag die Festplatte ins NAS ein. Sie meldet sich sogleich und das NAS fängt gleich mit dem Rebuild an – Eigentlich hätte ich die Platte zunächst gerne einmal getestet aber OK. Natürlich schaue ich mir zunächst einmal die SMART Daten an und starte trotz Rebuild einen kurzen Selbsttest Ich rechne einmal kurz durch 8TB / 200MB/s ergibt eine theoretische Rebuild Zeit von ca. 12h. In Wahrheit hat es deutlich länger gedauert. In Wahrheit lag die Rebuild Geschwindigkeit bei ~40MB/s: Deutlich weniger als die Platten eigentlich könnten. Der Grund war auch gleich ausgemacht: Die CPU war die ganze Zeit bei 100% - wohl etwas schwach für die ganze XOR-Rechnerei ausgelegt bzw. keine offload-engine für IO und XOR…
Zwei Tage später ist das RAID schon wieder hergestellt und ich kann die Platte auf Herz und Nieren prüfen. Also zunächst ein Speed Test, dann langer selbst Test und zuguterletzt ein Bad Block Scan (der im Moment wo ich dies schreibe noch läuft(.
Fazit:
Insgesamt war das natürlich viel Aufwändiger als man es hätte machen können. Ich glaube nicht, dass sich die meisten Heimanwender oder gar Rechenzentren solch eine mühe bei der Diagnose geben. Auch ist das natürlich ein Einzelfall, sowohl im Fehlerbild wie auch von der ausgefallenen Komponente und lässt keinen Schluss auf Hersteller usw. zu. Trotz alledem habe ich einiges dadurch gelernt, was ich hier mit allen Forenlesern Teilen möchte
Was ich gelernt habe / was sich bestätigt hat:
- Nicht Alle Festplattenausfälle kündigen sich per SMART / IronWolf an
- RAID5 schützt vor zufälligen Festplattenausfällen (mehr aber auch nicht)
- Aktives Bitmap bei RAID ist sehr viel Wert
- Backups sind und bleiben unverzichtbar
- Die versprochene Garantie ist bei Amazon effektiv manchmal Verkürzt
- Seagate Austausch ist aufwändig aber schnell
- Rebuild Ist zeitaufwändig
- Verwaltung / Diagnose im Komerziellen-NAS ist relativ einfach
Ich hoffe der Artikel Hat euch gefallen. Falls noch Fragen sind postet sie einfach unten. ich schaue bestimmt regelmäßig rein
Zuletzt bearbeitet:
(Ergänzung zur Löschung vor Einsendung hinzugefügt)