RAID 5 – 2 von 4 Platten unconfigured good

hdeis

Newbie
Registriert
Juni 2015
Beiträge
4
Hi!
Ich habe hier 4 3TB Seagate Barracudas in einem L5 RAID an einem LSI Megaraid 9260-4i Controller
Die Platten sind HFS+ formatiert, weil auf dem System Win 7 professional und OS X Mavericks laufen

Gestern fiel plötzlich einer der Platten aus, beim booten wurde das Raid als degraded gemeldet, war aber im OS noch sichtbar.
Beim nächsten Boot ins Webbios zeigte sich die Platte in Slot 1 als unconfigured bad.
Dabei fror an irgendeiner Stelle das Webbios ein - dachte ich.
Wie sich später rausstellte, kann es bei einigen Dingen zu längeren "Bedenkzeiten" kommen.
Nach einem weiteren Neustart, der mir dann auch einen Totalverlust der Konfiguration meldete, zeigen sich die Platten in Slot 1 und die Platte in Slot 3 als unconfigured good. die beiden anderen melden sich als (foreign) unconfigured good

Beim Versuch die verlorene Konfiguration wieder zu importieren melden sich die beiden foreign Platten als online, während die beiden anderen weiter als unconfigured good geführt werden.

Das Webbios sieht im Preview dass da eine Virtual disk ist, kann sie aber nicht importieren.

Meine Vermutung ist, dass beim ersten Neustart nach vermeintlichem system hang die Disk in Slot 3, die vorher als OK geführt war, in irgendeiner Weise unzugänglich wurde.
Die Daten auf der Platte wurden aber ja nicht überschrieben, d.h. die Konfigurationsdatei müsste eigentlich noch zu finden / wiederherstellbar sein.

Meine Fragen:
Kann man die Platte in einer anderen Bay bzw an einem externen Adapter mounten und mit einem Tool durchchecken? Wenn ja, mit welchem?

Kann man vorher sicherheitshalber eine physikalische Kopie der beiden ausgefallenen Platten machen? Wenn ja, womit?

Besteht eine (kleine) Chance die Daten wieder herzustellen?
 
Die Seagate ST3000DM001 ist weder für RAID Einsatz noch für 24/7 Betrieb zugelassen, das ist eine billige, schnelle Desktopplatte. Damit wirst Du vermutlich bald wieder Ausfälle haben, denn wenn die 2 Jahre Dauerbetrieb (muss gar nicht dauernd Datentransfers bedeuten, es reicht wenn sie dauernd läuft) hinter sich haben, dann steigen bei denen die Ausfallraten massiv an.

Lese mal die S.M.A.R.T. Werte aus, unter poste z.B. den Screenshot von CrystalDiskInfo (die Portable Standard Edition reicht und ist frei von Werbung), ziehe aber bitte das Fenster soweit auf, dass alle Attribute und auch die Rohwerte vollständig sichtbar sind. OSX kenne ich nicht, aber da es ja ein Linux Derivat ist, dürfte es auch smartctl geben und dann wäre die Ausgaben von smartctl -a /dev/sdx (x durch den passenden Buchstaben der Platte ersetzen) interessant.
 
Hi,

danke für die Antwort. Leider gibt es da ein kleines Problem.
Die Platten werden vom Controller als eine Virtual Disk verwaltet. Da die VD nicht online ist, sieht OSX die Platten gar nicht.
Auch wenn das RAID funktioniert, sieht das OS nur die VD.

Unter Windows sieht das ähnlich aus.
Ich habe CrystalDiskInfo schon mal verwendet um die Temperaturen im Blick zu haben aber selbst das funktionierende RAID wurde da nicht mal gelistet.
Um die Platten einzeln auszulesen fehlt mir im Moment ein externer Adapter (kommt morgen)

Ich habe mir das RAID vor ca 15 Monaten zusammenstellen lassen, hab also in erster Linie auf Empfehlung bzw fehlende Warnung gehört. Welche Platten wären denn besser geeignet?
Das ist allerdings kein Server o.ä sondern eine Workstation auf der in erster Linie 3D und Filmdaten bearbeitet werden. 24/7 Einsätze kommen vor, sind aber nicht die Regel.

Ich hatte vor eine Block-Copy von der Disk zu machen die als zweite ausgefallen ist um dien Kopie eventuell ins Raid hängen zu können, für den Fall, das es "nur" an ein paar beschädigten Startblöcken liegt. (ich bin nicht gerade ein in der Wolle gefärbter IT-Mensch, wenn hier ein paar Begriffe nicht ganz stimmen bitte ich das nachzusehen)

Die Konfigurationsdaten müssten ja bestenfalls eigentlich noch auf der Platte sein.
 
Man sollte für ein HW RAID immer RAID fähige Platten kaufen, schon wegen der TLER (bei Seagate ERC genannt), das ist die Zeit (also der Timeout) die ein HDD Controller versucht einen problematischen Sektor durch wiederholte Versuche doch noch zu lesen. Dieser Timeout ist bei Platten mit TLER (ERC) einstellbar, bei den anderen i.d.R. nicht und auch per Default höher eingestelt. So müssten bei der WD Green 14s und bei der WD Red 7s voreingestellt sein, die meisten HW Controller sind per Default auf einen Timeout von 8s engestellt. Reagiert also eine Platte innerhalb dieser 8s nicht, fliegt sie als defekt aus dem RAID und konnte sie dann vor ihrem Timeout den Sektor doch noch lesen, hat man nicht einmal einen schwebenden Sektor in den S.M.A.R.T. Werten verzeichnet und rätselt warum die rausgeflogen ist.

RAIDs mit SATA Platten sind sowieso Krücken, die richtigen RAID SCSI/SAS/FC Platten werden mit Sektorgrößen von 520 oder 528 Byte formatiert und auf diesen zusätzlichen 8 bzw. 16 Bytes legt der RAID Controller eine eigene Prüfsumme ab um Lesefehler sofort selbst erkennen zu können, die Controller der Platten versuchen dann also gar nicht erst die Sektoren wiederholt zu lesen, sondern der Controller liest die Daten von den anderen Platten und erstellt sie anhand der Redundanz selbst wieder. SATA Platten können aber eben nur mit 512 Byte (die neuen 4kn dann auch mit 4096 Byte) pro Sektor formatiert werden und wenn man diese alleine, also ohne RAID betreibt, dann will man nicht bei jedem kleinen Problem sofort einen Lesefehler, also müssen sie versuchen problematische Sektoren doch noch zu lesen, was aber gerade in einem RAID wegen der Redundanz nicht nötig ist (RAID 0 ist übrigens kein RAID, das das R am Anfang für Redundant steht, korrekt wäre die Bezeichnung AID 0).

Diesen Konflikt das eine alleine arbeitenden Platte möglichst immer versuchen sollte einen problematischen Sektor doch noch zu lesen und eine Platte im RAID dieses nicht so lange tun sollte weil sie damit das ganze RAID blockiert, kann man bei den RAID fähigen Platten eben mit der Einstellung des Timeouts umgehen und wenn man den einstellen kann, spricht man von einer Platte mit TLER (oder eben ERC). Dazu kommt bei RAID fähigen Platten meist noch ein besserer Schutz vor Vibrationen der durch die größere Zahl von Platten in einem Gehäuse fast immer auftritt und den günstige Desktopplatten wie die Barracuda eben nicht haben.

Hoffentlich war Dir klar, dass RAIDs keine Backups ersetzen, denn bei einem RAID 5 mit zwei defekten Platten hast Du ein echtes Problem. Zero Assumption Recovery sollte eigentlich auch mit RAID Platten umgehen können, aber ich habe es nie ausprobiert.
 
"RAID ist kein Backup"
Im Prinzip ist mir das klar, einen Großteil der Daten gibt es noch auf anderen Platten, allerdings sind ein paar Ordner auf dem RAID die natürlich zu einem aktuellen Job gehören aber noch kein Backup haben. Ein Systemausfall auf einer SSD hat diesen Gau wahrscheinlich erst losgetreten. Das ausgefallene Startvolume war kein Problem, dafür gibt ist immer eine Reserve im Rechner. Ich hatte halt nur die Arbeitsdateien vom Startvolume auf das Raid zwischengelagert, und exakt beim Versuch ein Backup vom Raid anzulegen ist der Ausfall dann passiert. Mehr ungünstige Zufälle gehen eigentlich kaum.

Was wäre denn ein gutes Tool um eine Forensic-Level Kopie von den Platten anzulegen?
Also eine die am besten auch die scheinbar ungenutzten Blöcke kopiert. Ich würde ungern am Original herumspielen.
Zero Assumption Recovery werde ich mir ansehen.
 
Der Linux Befehl dd führt absolut korrekte 1:1 Klone aus, am Besten in der Art dd if=/dev/sdx of=/dev/sdy, wobei die Zielplatte mindestens so groß wie die Quellplatte sein muss und zwar auf Sektorebene, denn jede HDDs hat ja ein paar MB/GB mehr als angeben, die eine mehr die anderen weniger. Deshalb legt man RAIDs auch gewöhnlich etwas kleiner als möglich an um eben im Zweifel keine Probleme zu haben weil die Ersatzplatte ein paar Extrasektoren zuwenig hat.

Wenn es schwebende Sektoren gibt, wird dd aber abbrechen und dann wäre ddrescue das Tool der Wahl.
 
Müsste das nicht mit conv=noerror,sync gehen

Also
dd bs=512 if=/dev/sdx of=/dev/sdy conv=noerror,sync

Die Quelle ist hier:
http://hints.macworld.com/article.php?story=20050302225659382

Ein startfähiges Ubuntu Desktop habe ich mir schon auf einen Stick gepackt. Ich wollte nach dieser Anleitung vorgehen um die Platte zu kopieren ttp://epyxforensics.com/node/44
 
Von angebissenen Äpfeln halte ich mich fern, keine Ahnung welche Optionen die dem Programm dd spendiert haben.
 
Zurück
Oben