Zyxel NAS540 Raid5 zwei defekte Festplatten? Was tun?

Schiffii · 13. November 2023

Hallo Zusammen,
mein Zyxel NAS 540 lief aufgrund von Umzug eine weile nicht mehr.
Nach wieder einschalten hat mir das NAS gemeldet, dass die vierte Platte defekt ist und nicht mehr Teil des RAID5 ist.
Ich habe die 4. Platte ausgebaut und an einem anderen PC angeschlossen um diese zu prüfen.
Es waren wohl einige Sektoren defekt welche reallokiert wurden, abgesehen davon lief die Platte aber.

Da das auf ein baldiges ableben hindeutet habe ich auch bereits gleich zwei neue identische Platten bestellt.
Hielt es aber für eine gute Idee die Platte wieder dem Raid hinzuzufügen und zu syncen.

Das ganze hat er auch versucht, als das recovery fertig war, war die Platte auch wieder im Raid Verbund.
Nach einem Neustart des NAS war aber Plötzlich die erste Platte nicht mehr Bestandteil des Raid.
Raid Fehler konnte ich auf dieser Platte keine erkennen, sehr merkwürdig das Ganze.

Ich habe noch so versucht einen Recovery zu starten, dieser schlug aber direkt fehl ohne Fehlermeldung...

Ich habe nun die erste Platte durch ein neue ersetzt und ein Recovery gestartet, das startete auch und lief.
Nach dem es fertig war, war aber Platte 1 immer noch nicht Bestandteil des Raid, ich vermute auch dass es jetzt wieder Probleme mit der vierten Platte gibt.

Ich bin kein Linux Profi, daher meine Frage wie ich nun vorgehen soll, mit den Bordmitteln (Weboberfläche) komme ich hier nicht weiter.
Und ja, ich habe Backup der wichtigsten Daten (Da nur 2TB Externe Platte statt 4 TB NAS), würde aber gerne probieren das ganze noch so zu retten.
Hier mal ein paar ausgaben aus der Shell:

Code:

~ # mdadm -D /dev/md2
/dev/md2:
        Version : 1.2
  Creation Time : Sun Sep  6 19:33:54 2015
     Raid Level : raid5
     Array Size : 5848151040 (5577.23 GiB 5988.51 GB)
  Used Dev Size : 1949383680 (1859.08 GiB 1996.17 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

    Update Time : Mon Nov 13 14:20:05 2023
          State : clean, FAILED
 Active Devices : 2
Working Devices : 3
 Failed Devices : 1
  Spare Devices : 1

         Layout : left-symmetric
     Chunk Size : 64K

           Name : NAS540:2
           UUID : a763b08f:fbf70145:01d9290c:7ee89280
         Events : 3811

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       0        0        3      removed

       4       8       51        -      faulty   /dev/sdd3
       5       8        3        -      spare   /dev/sda3

Code:

cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4]
md2 : active raid5 sdb3[1] sda3[5](S) sdd3[4](F) sdc3[2]
      5848151040 blocks super 1.2 level 5, 64k chunk, algorithm 2 [4/2] [_UU_]

md1 : active raid1 sda2[5] sdd2[4] sdc2[2] sdb2[1]
      1998784 blocks super 1.2 [4/4] [UUUU]

md0 : active raid1 sda1[5] sdd1[4] sdc1[2] sdb1[1]
      1997760 blocks super 1.2 [4/4] [UUUU]

unused devices: <none>

Code:

mdadm --examine /dev/sda3
/dev/sda3:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : a763b08f:fbf70145:01d9290c:7ee89280
           Name : NAS540:2
  Creation Time : Sun Sep  6 19:33:54 2015
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 3898767360 (1859.08 GiB 1996.17 GB)
     Array Size : 5848151040 (5577.23 GiB 5988.51 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : 81a9517f:81e6effe:1fe8a38d:21c1c158

    Update Time : Mon Nov 13 15:06:33 2023
       Checksum : 6299bd14 - correct
         Events : 3813

         Layout : left-symmetric
     Chunk Size : 64K

   Device Role : spare
   Array State : .AA. ('A' == active, '.' == missing)
~ # mdadm --examine /dev/sdb3
/dev/sdb3:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : a763b08f:fbf70145:01d9290c:7ee89280
           Name : NAS540:2
  Creation Time : Sun Sep  6 19:33:54 2015
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 3898767360 (1859.08 GiB 1996.17 GB)
     Array Size : 5848151040 (5577.23 GiB 5988.51 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : 77c7c499:9b27c508:6e0447de:b94ca6b8

    Update Time : Mon Nov 13 15:06:33 2023
       Checksum : 3769c407 - correct
         Events : 3813

         Layout : left-symmetric
     Chunk Size : 64K

   Device Role : Active device 1
   Array State : .AA. ('A' == active, '.' == missing)
~ # mdadm --examine /dev/sdc3
/dev/sdc3:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : a763b08f:fbf70145:01d9290c:7ee89280
           Name : NAS540:2
  Creation Time : Sun Sep  6 19:33:54 2015
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 3898767360 (1859.08 GiB 1996.17 GB)
     Array Size : 5848151040 (5577.23 GiB 5988.51 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : 4236a352:feca1d50:574a5b9e:5efd070d

    Update Time : Mon Nov 13 15:06:33 2023
       Checksum : 4c16ccc3 - correct
         Events : 3813

         Layout : left-symmetric
     Chunk Size : 64K

   Device Role : Active device 2
   Array State : .AA. ('A' == active, '.' == missing)
~ # mdadm --examine /dev/sdd3
/dev/sdd3:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : a763b08f:fbf70145:01d9290c:7ee89280
           Name : NAS540:2
  Creation Time : Sun Sep  6 19:33:54 2015
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 3898767360 (1859.08 GiB 1996.17 GB)
     Array Size : 5848151040 (5577.23 GiB 5988.51 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : f5d6438c:9774e363:90d8656d:1573d431

    Update Time : Mon Nov 13 09:32:55 2023
       Checksum : 8d53ccc6 - correct
         Events : 3800

         Layout : left-symmetric
     Chunk Size : 64K

   Device Role : Active device 3
   Array State : AAAA ('A' == active, '.' == missing)

Warum wird nach dem Recovery SDA1 noch als Spare angezeigt?
Warum steht bei SDD1 Removed?

Mir ist klar dass meine Vorgehensweise nicht gerade Vorteilhaft war, aber würde gerne versuchen jetzt das beste darauf zu machen.

Soll ich die ausgetausche erste PLatte wieder einstecken und versuchen wieder ins Raid einzubinden?
Diese ist ja offensichtlich ohne Grund rausgeflogen. Und zeigt mir auch keine Fehler.
Aber ich weiß natürlich nicht was mit den Daten passiert ist.

Wenn ich das NAS neustarte beginnt er übrigens automatisch wieder mit einem Recovery (Wie kann ich das abstellen?)

Vielen Dank und Gruß
Schiffi

kieleich · 13. November 2023

ja zwei platten rausgeflogen raid tot, das ist totaler mist

nimm dir 3 platten von denen du meinst das dort die daten tatsächlich darauf sind. also nicht die neue platte die beim sync raus geflogen ist und die daten daher nicht vollständig haben kann

und mit diesen 3 baust du es wieder zusammen, mit viel glück assemble force, zur not per create assume clean, anleitungen, findest du im netz

wenn du keine 3 platten hast die zusammen passen (auch zeitlich wenn das dateisystem weiter modifiziert wurde) dann hast du leider, kaum noch chancen

auch wenn du nur 3 platten nimmst es muss beim 4er raid5 bleiben und in der richtigen reihenfolge, die fehlende platte ist als "missing" zu deklarieren

Schiffii · 13. November 2023

Danke, ich würde die erste Platte wieder gegen die vorherige tauschen und hoffen dass hier noch Daten drauf sind.
Wie verhindere ich aber dass er automatisch ein Recovery startet? Bzw. falls er das tut, wie kann ichs abbrechen?

kieleich · 13. November 2023

wenn das raid tot ist kann da auch keine recovery mehr starten

wenn du nur 3 platten drin lässt kann auch keine recovery starten

du brauchst 3 intakte platten mit den daten, dann zur not mit create

von daher gar nicht erst 4 platten drin lassen

recovery funktioniert erst dann wenn das raid läuft daten vorhanden und alles zugreifbar ist. bei dir geht es im aktuellen zustand, nicht ums recovery sondern darum das kind, das schon in den brunnen fiel, noch mal raus zu fischen

Schiffii · 13. November 2023

Ich habe jetzt die erste Platte entfernt. nach einem Neustart steht das Array auf inactive.
Was sollte ich jetzt tun, wie sieht es aus? Ich habe ja noch die alte Platte bei der ich keine Ahnung habe wie die Daten aussehen, mal einstecken und schauen?

Code:

 mdadm --examine /dev/sda3
/dev/sda3:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : a763b08f:fbf70145:01d9290c:7ee89280
           Name : NAS540:2
  Creation Time : Sun Sep  6 18:33:54 2015
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 3898767360 (1859.08 GiB 1996.17 GB)
     Array Size : 5848151040 (5577.23 GiB 5988.51 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : 77c7c499:9b27c508:6e0447de:b94ca6b8

    Update Time : Mon Nov 13 15:53:56 2023
       Checksum : 3768cf29 - correct
         Events : 3815

         Layout : left-symmetric
     Chunk Size : 64K

   Device Role : Active device 1
   Array State : .AAA ('A' == active, '.' == missing)
~ # mdadm --examine /dev/sdb3
/dev/sdb3:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : a763b08f:fbf70145:01d9290c:7ee89280
           Name : NAS540:2
  Creation Time : Sun Sep  6 18:33:54 2015
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 3898767360 (1859.08 GiB 1996.17 GB)
     Array Size : 5848151040 (5577.23 GiB 5988.51 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : 4236a352:feca1d50:574a5b9e:5efd070d

    Update Time : Mon Nov 13 15:53:56 2023
       Checksum : 4c16d7e0 - correct
         Events : 3815

         Layout : left-symmetric
     Chunk Size : 64K

   Device Role : Active device 2
   Array State : .AA. ('A' == active, '.' == missing)
~ # mdadm --examine /dev/sdc3
/dev/sdc3:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : a763b08f:fbf70145:01d9290c:7ee89280
           Name : NAS540:2
  Creation Time : Sun Sep  6 18:33:54 2015
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 3898767360 (1859.08 GiB 1996.17 GB)
     Array Size : 5848151040 (5577.23 GiB 5988.51 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : f5d6438c:9774e363:90d8656d:1573d431

    Update Time : Mon Nov 13 09:32:55 2023
       Checksum : 8d53ccd5 - correct
         Events : 3815

         Layout : left-symmetric
     Chunk Size : 64K

   Device Role : Active device 3
   Array State : AAAA ('A' == active, '.' == missing)
~ # mdadm --examine /dev/sdd3
mdadm: cannot open /dev/sdd3: No such device or address

Code:

mdadm -D /dev/md2
mdadm: md device /dev/md2 does not appear to be active.
~ # cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4]
md2 : inactive sda3[1](S) sdc3[4](S) sdb3[2](S)
      5848151040 blocks super 1.2

md1 : active raid1 sda2[1] sdc2[4] sdb2[2]
      1998784 blocks super 1.2 [4/3] [_UUU]

md0 : active raid1 sda1[1] sdc1[4] sdb1[2]
      1997760 blocks super 1.2 [4/3] [_UUU]

redjack1000 · 13. November 2023

Schiffii schrieb:
Wie verhindere ich aber dass er automatisch ein Recovery startet?

Da brauchst du dir keine Gedanken drüber machen, das startet nicht mehr automatisch.

Schiffii schrieb:
hoffen dass hier noch Daten drauf sind.

Hoffen brauchst hier nichts mehr, dafür ist es zu spät.

Ich würde wie folgt vorgehen

1. Backup aller betroffenen Datenträger in Form eines 1zu1 Image mit dd_rescue

2. Schaffen einer Laborumgebung, um dort die Images lesend einzuhängen, um Daten wiederherzustellen.

Als Software Software würde ich es mit DMDE versuchen

Cu
redjack

kieleich · 13. November 2023

du kannst es probieren mit mdadm --stop /dev/md2 und dann mdadm --assemble --force /dev/md2 /dev/sd?3

und wenn das nicht tut, mdadm --stop /dev/md2, mdadm --create /dev/md2 --level=5 --raid-devices=3 missing /dev/sda3 /dev/sdb3 /dev/sdc3 und dann --examine ob reihenfolge richtig, chunksize richtig, offset richtig sonst nochmal mit den richtigen angaben

image mit dd ist natürlich super aber hast du festplatten dafür da, und willst du den aufwand machen wo du eh backups hast. ansonsten eben komplett neu anfangen

madmax2010 · 13. November 2023

redjack1000 schrieb:
1. Backup aller betroffenen Datenträger in Form eines 1zu1 Image mit dd

Nein. Dringend nicht.
dd bleibt bei defekten Bereichen gern hängen und das kann fatal sein.
ddrescue beachtetso etwas und versucht beschaedigte bereiche am ende gezielt zu lesen und sie vorher zu umgehen

Bitte zeig die Smart Werte. Je nachdem was due HDDs haben, ist auch dieser Tipp nicht klug

ABgesehen davon: Egal ob RAID1, 0 oder 5: Das ist imprivaten Umfeld schlicht nicht sinnvoll. Du hast da keine HA Umgebung und eine SSD hat 1000x Mehr Performance als eine HDD.

kieleich · 13. November 2023

und wenn das funktioniert aber sdc3 lesefehler / pending sectors hat dann, wird da keine recovery mehr durchlaufen die option wäre dann, das nas abschalten und die sdc platte mit ddrescue, irgendwie auf eine neue übertragen. diese dann als sdc ins nas stecken und dann ne recovery mit weiterer neuer platte starten

Fujiyama · 13. November 2023

Ggf wäre es schlauer in Zukunft auf ein RAID zu verzichten, da man dies im privaten Umfeld praktisch kaum benötigt und häufig mehr Nachteile als Vorteile mitbringt.
Dafür das gesparte Geld in ein funktionierenden Backupprozess investieren.

Schiffii · 13. November 2023

Ich habe halt nur ein Backup der wichtigsten Sachen, da ich keine 4TB Externe Platte habe,
Wäre doof wenn ich den Rest verliere, wenn auch nicht tragisch. Ich würde aber gerne alles versuchen was geht.

Wie seh ich denn ob auf den drei Platten jetzt alles Daten vorhanden sind oder nicht?

Ergänzung (13. November 2023)

madmax2010 schrieb:
Nein. Dringend nicht.
dd bleibt bei defekten Bereichen gern hängen und das kann fatal sein.
ddrescue beachtetso etwas und versucht beschaedigte bereiche am ende gezielt zu lesen und sie vorher zu umgehen

Bitte zeig die Smart Werte. Je nachdem was due HDDs haben, ist auch dieser Tipp nicht klug

ABgesehen davon: Egal ob RAID1, 0 oder 5: Das ist imprivaten Umfeld schlicht nicht sinnvoll. Du hast da keine HA Umgebung und eine SSD hat 1000x Mehr Performance als eine HDD.

Das klingt vernünftig, geht das mit dem Nas? Habe sonst kein Linux hier

kieleich · 13. November 2023

Fujiyama schrieb:
Ggf wäre es schlauer in Zukunft auf ein RAID zu verzichten

man liest eben immer nur die fälle wo es in die hose gegangen ist

keiner geht ins forum und schreibt: hurra der raid resync ist problemlos durch gelaufen

und das ist (hoffentlich) der normal fall. kein daten verlust. kein jonglieren mit backups. kein kopf kratzen welche daten waren jetzt auf welcher platte darauf und was muss überhaupt genau wieder hergestellt werden

für mich als Festplatten Daten Messie ist RAID die bessere Wahl aber, ich bilde mir auch ein es so gut zu verstehen das ich auch im Unfall damit klar komme es sei denn, 2 Platten sind wirklich komplett tot, da macht auch der Torvalds höchst persönlich nichts mehr

wenn ich Backups her stellen muss sitze ich da eine weile dran da fehlt mir die Ordnung und Zuordnung das will ich nicht bei jedem Festplatten Tod machen müssen das soll mal das RAID rodeln

Fujiyama · 13. November 2023

@kieleich
Ja es ist in der Tat so das negative Erlebnisse deutlich häufiger aufzufinden sind.
Dennoch rate ich von RAiD ab, das es meist für Privatanwender deutlich mehr Nachteile als Vorteile bringt.
Und wenn die Daten wichtig sind kommt man um das Jonglieren mit Backups nicht herum.

redjack1000 · 13. November 2023

madmax2010 schrieb:
dd bleibt bei defekten Bereichen gern hängen und das kann fatal sein.

Jawoll, habe ich in meinem Text geändert.

Schiffii schrieb:
Wie seh ich denn ob auf den drei Platten jetzt alles Daten vorhanden sind oder nicht?

So mal eben schnell? Gar nicht.

Dafür muss das Raid wieder laufen bzw. die Datenträger zusammengeführt werden.

Schiffii schrieb:
geht das mit dem Nas?

Kann ich dir nicht beantworten.

CU
redjack

madmax2010 · 13. November 2023

Schiffii schrieb:
Das klingt vernünftig, geht das mit dem Nas? Habe sonst kein Linux hier

keine deiner festplatten sollte auch nur eine sekunde, die du nicht mit Datenrettung beschaeftigt bist Strom haben.
Du solltest sie aus dem NAS aus bauen und an einem anderen System eine nach der anderen soweit noch moeglich sichern

Schiffii · 13. November 2023

Ich habe aktuell Zugriff auf alle Daten, überlege mir eine weitere Externe zu kaufen und alles wegzusichern

Code:

cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4]
md2 : active raid5 sdb3[1] sdd3[4] sdc3[2]
      5848151040 blocks super 1.2 level 5, 64k chunk, algorithm 2 [4/3] [_UUU]

md1 : active raid1 sda2[5] sdb2[1] sdd2[4] sdc2[2]
      1998784 blocks super 1.2 [4/4] [UUUU]

md0 : active raid1 sda1[5] sdb1[1] sdd1[4] sdc1[2]
      1997760 blocks super 1.2 [4/4] [UUUU]

unused devices: <none>
~ # mdadm -D /dev/md2
/dev/md2:
        Version : 1.2
  Creation Time : Sun Sep  6 19:33:54 2015
     Raid Level : raid5
     Array Size : 5848151040 (5577.23 GiB 5988.51 GB)
  Used Dev Size : 1949383680 (1859.08 GiB 1996.17 GB)
   Raid Devices : 4
  Total Devices : 3
    Persistence : Superblock is persistent

    Update Time : Mon Nov 13 16:35:53 2023
          State : clean, degraded
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 64K

           Name : NAS540:2
           UUID : a763b08f:fbf70145:01d9290c:7ee89280
         Events : 3945

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       4       8       51        3      active sync   /dev/sdd3

zenokortin · 13. November 2023

Wieso sollen da 2 Platten defekt sein?
Ich sehe: 4 Platten, 2 aktive, eine defekt und eine ist halt spare (Ersatz!).

kieleich · 13. November 2023

spare bringt dir halt nichts

du brauchst 3 aktive

hat er jetzt eh schon hin bekommen. sichern sichern sichern unnnd dann alles neu

zenokortin · 13. November 2023

kieleich schrieb:
spare bringt dir halt nichts

Doch. Im Normalfall übernimmt/ersetzt die Spare hot die defekte Platte.

Schiffii · 13. November 2023

zenokortin schrieb:
Wieso sollen da 2 Platten defekt sein?
Ich sehe: 4 Platten, 2 aktive, eine defekt und eine ist halt spare (Ersatz!).

Naja bei der einen weiß ich es nicht, sie wurde ja einfach Plötzlich aus dem Raid geworfen obwohl sie keine Fehler zeigt.
Dummerweise sind hier aber keine Daten mehr brauchbar, also er erkennt kein Dateisystem mehr (Nach versuchtem Recovery, was abgebrochen ist.

Was genau hier passiert ist weiß ich nicht.

Zyxel NAS540 Raid5 zwei defekte Festplatten? Was tun?

Cadet 3rd Year

Commander

Cadet 3rd Year

Commander

Cadet 3rd Year

Fleet Admiral

Commander

Fleet Admiral

Commander

Fleet Admiral

Cadet 3rd Year

Commander

Fleet Admiral

Fleet Admiral

Fleet Admiral

Cadet 3rd Year

Banned

Commander

Banned

Cadet 3rd Year