Leserartikel Defekt und Austausch einer 8TB IronWolf Festplatte im QNAP TS451A NAS

crossblade

Lt. Junior Grade
Registriert
Mai 2010
Beiträge
379
Vor einiger Zeit hat es auch mich (leicht) erwischt und eine der Seagate IronWolf 8TB Festplatten war defekt. Das ist statistisch gesehen (laut Backblaze) bei 1,3% der Festplatten pro Jahr der Fall. Bei mehreren Festplatten und Jahren dann natürlich entsprechend mehr. Zum Beispiel bei 10 Festplatten im Durchschnitt alle zehn Jahre… Außergewöhnlich genug, dass es nicht bei jedem Auftritt; Häufig genug, dass es sich lohnt zu wissen wie so etwas abläuft.

In diesem Artikel möchte ich kurz meine Erfahrung von der Ersten Diagnose des Fehlers bis zur wieder in betriebsnahe des Systems beschreiben. Dieser Artikel ist weder direkt noch indirekt gesponsert und ich habe alle erwähnten Produkte auf eigene Kosten erworben.

Kurzfassung (TLDR):
8TB IronWolf Festplatte im NAS verliert regelmäßig die Verbindung, dadurch degradiert das RAID. Diagnose ergibt seltsamen Festplattenschaden. Austausch durch Seagate auf Garantie ist schnell (eine Woche). Anschließender Rebulild des RAID5 dauert 3 Tage. Keine Probleme, kein Datenverlust: Alles wieder einsatzbereit


Der Fehler:
Es war am späten Abend vor gut einem Monat, meine Frau und ich sitzen gemütlich vor dem Fernseher als völlig unverhofft und ohne Anlass das NAS (QNAP TS451A) anfängt zu piepsen. Nach gut 10 Minuten und gut drei dieser Piep-Orgien hört es auf. Ich schaue kurze Zeit später auf die LEDs am NAS. Also gut wohl ein Fehlalarm gewesen – oder so dachte ich es...

Etwas mehr als eine Stunde später fängt das NAS schon wieder an zu piepsen aber dieses Mal blinken die LED rot was auf einen Fehler hindeutet. Ich logge mich schnell auf dem NAS ein und werde gleich mit der Warnmeldung „RAID group 1 degraded“ begrüßt. Eigentlich dank RAID5 kein Drama, aber man sollte schon bald handeln. Ein Blick ins Log zeigt sofort woran es liegt: Wie auch beim ersten Mal ist die Festplatte Nummer 3 aus dem RAID Verbund geflogen. Kurze Zeit später wurde sie wieder gefunden das RAID Rebuild gestartet und anschließend war das NAS wieder fehlerfrei. Dank aktivierten RAID Bitmaps und kaum Schreibzugriffen geht das wiederherstellen bei gleichem Datenträger sehr schnell. Aber drei mal an einem Abend: Da ist was faul!
DiskFailure.png



Diagnose:
Bevor man einen Garantiefall auslöst sind natürlich erst einmal einige andere mögliche Fehlerquellen aus zu schließen. Zumindest im Rahmen dessen was möglich ist ;) Dadurch erspart man sich nicht nur ggf. die Wartezeit im Umtausch, sondern kann auch der Sache wirklich auf den Grund gehen.

Also eine etwas ausführlichere Diagnose muss her:
  • Als erst einmal ein Blick auf die Smart Werte: Alles OK
  • Kurzer Selbsttest: Beendet ohne Probleme: Alles OK
  • Langer Selbsttest 2x Gestartet bricht nach 10-20min ab – keine Fehlermeldung
  • Smart Werte sind immer noch OK
  • Nochmal ein kurzer Selbsttest – läuft auch ohne Probleme durch
  • Ein letzter langer Selbsttest gestartet und ab ins Bett – der Selbsttest bricht dieses Mal nach längerer Zeit ab.
Am nächsten Morgen dann der eh schon überfällige NAS Service. Alle Festplatten werden gezogen, Kontakte geputzt und vor allem der angesammelte Staub aus den letzten 6-12 Monaten entfernt! Anschließend gleich mal ein Bad-Block Scan und ein langer Selbsttest für alle Platten angesetzt: Dieses Mal läuft alles ohne Fehler durch. Puh!

Fast eine Woche läuft das NAS ohne Fehler durch. Doch dann plötzlich fängt es wieder an zu piepsen. Es kommt wie es kommen muss: Beim Einloggen zeigt sich, dass Festplatte Nummer 3 wieder ärger macht. Ich starte diverse Selbsttests: Die kurzen laufen durch die Langen werden immer wieder von einem Verbindungsverlust unterbrochen.

Weder die SMART Werte noch das IronWolf Health Management zeigen etwaige Fehler an. Das einzige auffällige ist, dass die Festplatte nach jedem herausfliegen die alten Tests „vergessen“ hat. Die IOPS der Platte wie auch der Durchsatz sind allerdings normal und im Rahmen der Messgenauigkeit gleich zu den anderen verbauten IronWolf Festplatten.
NASscreenshot02.png


Es ist jedoch reproduzierbar, dass die Festplatte unter 1-5h Last plötzlich aus dem RAID fliegt – irgendwo muss also etwas faul sein. (Die Temperaturen sind mit ~40°C allerdings im grünen Bereich).

Einmal gelingt mir sogar ein interessanter Screenshot, dass die Festplatte sich einmal Unpartioniert, ohne Modell und Hersteller aber mit einer Kapazität von 128PB meldet. Diese exakte Zahl (2^64Bits) ist schon Komisch: da stimmt wohl etwas mit dem Controller nicht.
SeagateDiskFail.png



Backups!
Hier gilt der Grundsatz: RAID ersetzt kein Backup!

Zunächst einmal Sichere ich alle Daten von NAS zuhause auf eine externe Festplatte und fahre es anschließend herunter. So kann ich sicherstellen, dass ich ein aktuelles Backup (auch der unwichtigen Daten) habe und nicht noch eine weitere Festplatte den Geist aufgibt. Natürlich existiert auch immer ein Daten der „Kritischen“ Daten: Mindestens 3 Kopien an zwei unterschiedlichen Orten! RAID 5 hat mir also hier zumindest genug Zeit verschafft sicher zu stellen, dass alle Daten aktuell gesichert sind.

Gegentest:
20200504_123917.jpg

Ich baue die Festplatte in einen freien Schacht von einem anderen NAS ein. Nach einer Woche Test im zweiten NAS ist das Ergebnis klar. verliert die Festplatte immer mal wieder die Verbindung. Manchmal läuft sie einen Tag durch – manchmal verliert sie aber auch 5x innerhalb eines Tages die Verbindung – es muss also an der Platte liegen.

Garantie:
Also Schwups die Platte wieder ausgebaut und Garantiestatus geprüft. Etwas überrascht bin ich schon als der Garantiestatus nur bis Ende Mai 2020 geht. Ich hatte die Platte vor gut zwei Jahren im Dezember bei Amazon gekauft. Da ist sie wohl noch 6 Monate im Lager herum gelegen! Egal alles innerhalb der 3 Jahren Garantie von Seagate.

Zunächst einmal muss man Zwangsweise ein Kundenkonto bei Seagate anlegen. Dann noch ein zweites Mal zur Garantieüberprüfungswebseite ich gehe auf „Anspruch einreichen“ und lande in einem etwas verwirrenden Bereich. Man kann anscheinend nicht so einfach eine Rücksendung einleiten. Ich erstelle also einen Support-Fall bei Seagate und kann dort einen (ausführlichen) Fehler Bericht hochlanden. Leider wird weder eine Rücksendeadresse noch ein weiteres Vorgehen erläutert. Mir kommt es mittlerweile ein bisschen so vor als würde man es bewusst so kompliziert gestallten um die Anzahl der möglichen Reklamationen gering zu halten

Ich rufe also bei der angezeigten Seagate Hotline an. Nach geschlagenen 15 Minuten (Verbesserunsgwürdig) komme ich durch und habe gleich einen kompetenten Techniker an der anderen Seite. Er erklärt mir die Modalitäten des Austausches und sagt er schreibe mir gleich eine Email mit der Rücksendeadresse in München und GANZ wichtig RMA Nummer die außen auf das Paket muss. Die Email kommt eine Stunde Später mit einem Zeitstempel der einen halben Tag in der Zukunft liegt – da liegt das Callcenter wohl mal wieder irgendwo in Asien…



Rücksendung:
Es ist Dienstag vergangene Woche: Ich packe die Festplatte sehr gut ein (Festplatte -> Antistatikfolie -> HDD Schachtel -> 1m² Luftpolstefolie -> Paket) und Maschiere zu DHL. Leider wird mir dort erklärt, dass der von Seagate Geschicket Adressettiket so nicht zulässig ist (Fehlende Angaben). Also muss ich im Ladengeschäft nochmal händisch einen Aufkleber von DHL ausfüllen und dann 7,49€ Bezahlen.
Ergänzung: Wie @ekin06 hier richtig anmerkt sollte man die Festplatte wenn möglich löschen (also z.B. mit Nullen überschreiben). Trotz Stripping können sonst ggf einige Inhalte für unberechtigte lesbar sein. Dies habe ich automatisch bei dem (leider teilweise nicht beendeten) BadBlock Scan gemacht. Außerdem bin ich mir relativ sicher keine sensiblen Daten dort abgelegt zu haben, so das dies in diesem Fall gut genug ist.

Ersatz:
Schon Am Freitag erhalte ich die Erste Mail von Seagate, dass das Paket angekommen ist und etwas über eine Stunde später eine Zweite, dass der Ersatz unterwegs ist. Die Ersatzfestplatte trifft dann auch schon am Montagmittag per UPS aus den Niederlanden bei mir ein. Dort Drinnen Befindet ordentlich Verpackt die lange ersehnte Festplatte.
20200511_160233.jpg

Bei der Festplatte handelt es sich um ein „Recertified Product“ also um ein repariertes Modell mit Garantie bis 6. August 2020 (das sind nur 3 Monate also mehr als knapp bemessen!).


Rebuild:
Ich baue gleich am Nachmittag die Festplatte ins NAS ein. Sie meldet sich sogleich und das NAS fängt gleich mit dem Rebuild an – Eigentlich hätte ich die Platte zunächst gerne einmal getestet aber OK. Natürlich schaue ich mir zunächst einmal die SMART Daten an und starte trotz Rebuild einen kurzen Selbsttest Ich rechne einmal kurz durch 8TB / 200MB/s ergibt eine theoretische Rebuild Zeit von ca. 12h. In Wahrheit hat es deutlich länger gedauert. In Wahrheit lag die Rebuild Geschwindigkeit bei ~40MB/s: Deutlich weniger als die Platten eigentlich könnten. Der Grund war auch gleich ausgemacht: Die CPU war die ganze Zeit bei 100% - wohl etwas schwach für die ganze XOR-Rechnerei ausgelegt bzw. keine offload-engine für IO und XOR…
IronWolf Resync2.png

Zwei Tage später ist das RAID schon wieder hergestellt und ich kann die Platte auf Herz und Nieren prüfen. Also zunächst ein Speed Test, dann langer selbst Test und zuguterletzt ein Bad Block Scan (der im Moment wo ich dies schreibe noch läuft(.


Fazit:
Insgesamt war das natürlich viel Aufwändiger als man es hätte machen können. Ich glaube nicht, dass sich die meisten Heimanwender oder gar Rechenzentren solch eine mühe bei der Diagnose geben. Auch ist das natürlich ein Einzelfall, sowohl im Fehlerbild wie auch von der ausgefallenen Komponente und lässt keinen Schluss auf Hersteller usw. zu. Trotz alledem habe ich einiges dadurch gelernt, was ich hier mit allen Forenlesern Teilen möchte

Was ich gelernt habe / was sich bestätigt hat:
  • Nicht Alle Festplattenausfälle kündigen sich per SMART / IronWolf an
  • RAID5 schützt vor zufälligen Festplattenausfällen (mehr aber auch nicht)
  • Aktives Bitmap bei RAID ist sehr viel Wert
  • Backups sind und bleiben unverzichtbar
  • Die versprochene Garantie ist bei Amazon effektiv manchmal Verkürzt
  • Seagate Austausch ist aufwändig aber schnell
  • Rebuild Ist zeitaufwändig
  • Verwaltung / Diagnose im Komerziellen-NAS ist relativ einfach

Ich hoffe der Artikel Hat euch gefallen. Falls noch Fragen sind postet sie einfach unten. ich schaue bestimmt regelmäßig rein ;)
 
Zuletzt bearbeitet: (Ergänzung zur Löschung vor Einsendung hinzugefügt)
  • Gefällt mir
Reaktionen: Floletni, Yuccasu, justFlow und 37 andere
128PB im NAS - sehr cool. Jetzt stelle dir mal vor wie lange da der Rebuild gedauert hätte. :D
 
  • Gefällt mir
Reaktionen: Vanshima, kryzs, BachUhr und 2 andere
Cooles Guide. Nichts jeder hat sowas erlebt und hat immer Anhaltspunkte wie sich sowas darstellen kann.
@SV3N Glaube das ist eine Notiz wert :)

Grüße
Evil
 
  • Gefällt mir
Reaktionen: SVΞN
Danke für den Bericht - hoffentlich brauche ich Deine Erfahrungen nicht so bald zu wiederholen.
Finde es etwas verstörend, dass ausgerechnet der Controller und (scheinbar) nicht das rotierende Medium Quelle des Ausfalls zu sein scheint.
Konntest Du aufgrund der Logs 100%ig sicher zuordnen, welche der Platten den Defekt hatte? Du setzt ja vier gleiche Modelle ein und es wäre äusserst ätzend, wenn Du versehentlich eine der intakten Platten zurückgesandt hättest?
 
Phrasendreher schrieb:
Danke für den Bericht - hoffentlich brauche ich Deine Erfahrungen nicht so bald zu wiederholen.
Finde es etwas verstörend, dass ausgerechnet der Controller und (scheinbar) nicht das rotierende Medium Quelle des Ausfalls zu sein scheint.
Konntest Du aufgrund der Logs 100%ig sicher zuordnen, welche der Platten den Defekt hatte? Du setzt ja vier gleiche Modelle ein und es wäre äusserst ätzend, wenn Du versehentlich eine der intakten Platten zurückgesandt hättest?

das kannst du anhand der seriennummer feststellen.
 
  • Gefällt mir
Reaktionen: BachUhr
Und aus dem Grund kauft man für sowas NUR Enterprise Platten. Und ich meine damit keine von Seagate. Sondern von HGST alias Hitachi, leider nun WD. Aber es gibt noch immer Platten mit HGST Label. Hab selbst davon eine 10TB am laufen. Und über die Jahre schon einige Platten gehabt, haben mich nie in Stich gelassen! Sind halt alle irgendwann zu klein. Seagate, WD, Toshiba und wie sie alle heissen, kann man für den Dauerbetrieb über Jahre NICHt empfehlen!
 
Cai-pirinha schrieb:
das kannst du anhand der seriennummer feststellen.
oder es geht noch einfacher: In dem NAS war das Festplatte 3 und es wird mit Bildchen angezeigt wo im Gehäuse Sie sich befindet. Beim "ziehen" der Platte hat sich das dann auch nocheinmal bestätigt.
Alles in allensehr Benutzerfreundlich.
 
  • Gefällt mir
Reaktionen: kryzs, BachUhr, Telvanis und 2 andere
Prime2k schrieb:
Und aus dem Grund kauft man für sowas NUR Enterprise Platten. Und ich meine damit keine von Seagate. Sondern von HGST alias Hitachi, leider nun WD. Aber es gibt noch immer Platten mit HGST Label. Hab selbst davon eine 10TB am laufen. Und über die Jahre schon einige Platten gehabt, haben mich nie in Stich gelassen! Sind halt alle irgendwann zu klein. Seagate, WD, Toshiba und wie sie alle heissen, kann man für den Dauerbetrieb über Jahre NICHt empfehlen!
Es handelt sich um ein Heim NAS und keine explizite Enterprise Lösung. Bislang kann ich mich auch nicht über die Ausfallquote beschweren. Ich nutze insgesamt 6 IronWolf Platten - alle ca Jahre alt das ist jetzt der erste Ausfall. In den 20 Jahren davor hatte ich nur eine defekte WD Green - alles in allem relativ "normal" was Ausfälle angeht.

Wie ich schon in meiner Einleitung geschrieben habe handelt es sich um einen Einzelfall. Der kann genau so gut eintreten egal ob du eine oder zwölf Platten einsetzt - ist halt reine Statistik. Wenn ich die Backblaze Daten mit einer Typischen Ausfallrate von 1.0-1.6% richtig interpretiere hat man eine Statistische Warscheinlichkeit von ~1 Festplatten alle zehn Jahre wenn man 8-10 Platten einsetzt. Als Privatanwender kommt man selten auf mehr ;)

ich habe übrigens bewusst zu 8TB Version gegriffen um die Helium Füllung zu vermeiden. Ich habe leichte Bedenken ob das nicht langsam entweicht und sich dann nach 3-5 Jahren die Fehler häufen (wir werden sehen) ;)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: drmaniac
Prime2k schrieb:
Und aus dem Grund kauft man für sowas NUR Enterprise Platten. Und ich meine damit keine von Seagate. Sondern von HGST alias Hitachi, leider nun WD. Aber es gibt noch immer Platten mit HGST Label. (...) Sind halt alle irgendwann zu klein. Seagate, WD, Toshiba und wie sie alle heissen, kann man für den Dauerbetrieb über Jahre NICHt empfehlen!

Und du glaubst ernsthaft, die HGST Platten baut WD nun besser als die eigenen?

Der Beitrag ist einfach undifferenziertes Bashing. Als ob du als Privatperson die Qualitätsunterschiede von Enterprise-Platten zwischen den Herstellern bewerten könntest.


Ich halte es auch für unsinnig, dass jeder Privatnutzer gleich Enterprise-HDDs verbauen soll. Die sind für 24/7 und großen Workload gedacht. Sowas kommt bei Privatleuten normalerweise nicht vor. Der Aufpreis lohnt deshalb höchstwahrscheinlich nicht, außer man fühlt sich dadurch viel sicherer. Was aber eigentlich Quatsch ist - wozu hat man den ein RAID mit redundanten Daten?

Solange man keine billigsten Consumer-HDDs ohne NAS-Tauglichkeit nimmt, die irgendwann reihenweise abschmieren (wobei das bei vielen auch sehr lange gut geht), sehe ich da kein Problem.

Mittlerweile ist natürlich SMR da ein Thema. Da muss man aufpassen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: BachUhr, liggy, Luthredon und eine weitere Person
Banned schrieb:
Wie überprüfst du die Integrität deiner Backups, wenn du dir schon so viel Arbeit machst?

Ja leider ist das kein ZFS NAS mit eingeauter Prüfsumme - dann noch ZFS Send wäre ideal;

Ich benutze einen zweigleisigen Ansatz:
Alle Daten werden beim Schreiben durch das Backup Tool (HBS3) Automatisch nach dem Übertragen nocheinmal überprüft.
die wirklich Extra wichtigen Daten haben immer im Archiv ein entsprechendes MD5 file liegen - so könnte man ggf. auch BitRott auf dem NAS Feststellen - Wirklich vorgekommen ist es aber noch nicht...

Edit:
3 Kopien Sind übrigens leichter als man denkt:
1. Auf dem NAS
2. Auf einer Externen Festplatte (mehrere im Wechsel)
3. In die Cloud (Fotos z.B zu Amazon Prime Photos)

Bei den wirklich wichtigen Daten kommen dann nochmal welche dazu
4. Auf externe Festplatte bei den Eltern Eingelagert
5. Auf dem Laptop (Grab and go)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: justFlow, evilhunter und Banned
@crossblade ich sitze gerade an einer Notiz für die Startseite, aber im Text steht QNAP TS451A in der Überschrift QNAP TS251A NAS. Würdest du die Überschrift bitte von einem Moderator korrigieren lassen, sollte es sich um das TS451A handeln, wovon ich bei vier HDDs mal stark ausgehe. :)

EDIT: Ich habe es schon gemeldet!

Liebe Grüße
Sven
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: crossblade
SV3N schrieb:
@crossblade ich sitze gerade an einer Notiz für die Startseite, aber im Text steht QNAP TS451A in der Überschrift QNAP TS251A NAS. Würdest du die Überschrift bitte von einem Moderator korrigieren lassen, sollte es sich um das TS451A handeln, wovon ich bei vier HDDs mal stark ausgehe. :)

EDIT: Ich habe es schon gemeldet!

Liebe Grüße
Sven
Vielen Dank für die Notiz und die schnelle Korrektur des Tipfehlers. In der Tat handelt es sich um das TS451A NAS mit 4 Festplatten.

Es freut mich sehr, dass der Artikel bisher auf so positive Resonanz gestoßen ist :D
 
  • Gefällt mir
Reaktionen: CyrionX und SVΞN
Banned schrieb:
Ich halte es auch für unsinnig, dass jeder Privatnutzer gleich Enterprise-HDDs verbauen soll. Die sind für 24/7 und großen Workload gedacht. Sowas kommt bei Privatleuten normalerweise nicht vor. Der Aufpreis lohnt deshalb höchstwahrscheinlich nicht, außer man fühlt sich dadurch viel sicherer.

Funfact:
Seagate Exos X ist billiger als Ironwolf oder WD Red!
 
  • Gefällt mir
Reaktionen: S K Y N E T und Banned
Feiner Erfahrungsbericht. Für mich besonders wertvoll, da ich bisher noch nie mit raids gearbeitet habe, aber bald welche benötige :) merk ich mir definitiv vor wenn bei mir mal was ist
 
Ich bin ehrlich unbeeindruckt, dass die Austausch-Platte keine Neuware ist. Ist das normal?
 
@Banned meine ist ned WD. Die ist noch von HGST. Schau, was ich geschrieben habe. Und ja, es bringt etwas! Nicht umonst hat HGST so einen guten Ruf.
 
  • Gefällt mir
Reaktionen: S K Y N E T
HGST gehört seit 2012 zu WD.

Dann sind deine HDDs schon etwas älter.

Zum Ruf kann ich nix sagen. Aber falls du dich und andere sich da auf die Backblaze-Statistik beziehen, die ist wirklich nicht viel wert, da dort Consumer-HDDs zweckfremd verwendet wurden.
 
wayne_757 schrieb:
Funfact:
Seagate Exos X ist billiger als Ironwolf oder WD Red!
Weiteres Fun Fact am Rande: Die meisten Everkauften ExosX sind OEM Ware - das heißt ohne Herstellergarantie. Am besten mal bei Seagate überprüfen, nicht dass es ein böses Erwachen gibt...

Außerdem gibt es leider einige Exos die wie die 8TB laut diesem Computerbase Artikel hier leider auf SMR setzen.
Wenn man das nicht will ist man dann doch wieder gleich bei den IronWolfs
 
crossblade schrieb:
Weiteres Fun Fact am Rande: Die meisten Everkauften ExosX sind OEM Ware - das heißt ohne Herstellergarantie. Am besten mal bei Seagate überprüfen, nicht dass es ein böses Erwachen gibt...

Hatte schon Exos X von Mindfactory und CSV. Alle mit regulärer 5 Jahres Garantie.

crossblade schrieb:
Außerdem gibt es leider einige Exos die wie die 8TB laut diesem Computerbase Artikel hier leider auf SMR setzen.

SMR gibt es nur bei den Exos E nicht bei den Exos X

crossblade schrieb:
Wenn man das nicht will ist man dann doch wieder gleich bei den IronWolfs

Warum sollte man Festplatten kaufen die garantiert schlechter sind was Leistung, Verarbeitung und Garantie angeht und zudem noch teurer sind?
Aktuell geht preislich eigentlich nur Exos X oder Mybook Duo
 
  • Gefällt mir
Reaktionen: Elandur und crossblade
Zurück
Oben