Intel Raid 10 failed trotz drei aktiver Platten

crichton

Cadet 2nd Year
Registriert
Mai 2010
Beiträge
24
Hallo Leute,

seit gestern habe ich zum ersten Mal Probleme mit meinem Raid. Besitze ein Asus P5Q und verwende dort mit 4x 500GB Seagate Sata HDD den integrierten Raid Controller mit einer Raid 10 Konfig. Nach dem Einschalten des PC`s bekam ich die Meldung, dass mein RAID degraded ist, weil eine Festplatte nicht angesprochen werden konnte. Defektes Gerät wurde ausgebaut, Betriebssystem war okay. Nach ungefähr 15 Minuten Betriebszeit mit dem degraded Raid bekam ich unter Windows 7 einen Bluescreen und der Rechner startete sich neu. Seit diesem Zeitpunkt war das Raid nicht mehr degraded sondern failed. Es werden im Raid BIOS jedoch drei Seagate Disks als Member des Array`s mit der richtigen Größe angezeigt. System war dennoch nicht bootbar.

Als erstes habe ich zur Sicherheit alle SATA Kabel getauscht, was leider nichts half.Danach habe ich eine ältere IDE HDD angesteckt und dort Windows 7 installiert. Nachdem installierte ich die Raid Treiber und den Intel Matrix Storage Manager. Unter Windows sehe ich im Gerätemanager mein Array mit dem NAmen RAID 10 (so wie von mir definiert). Der Matrix Storage Manager sieht das Raid auch inkl. allen drei Platten und schreibt failed aus. Es gibt keine Möglichkeit in dieser Software irgendwas zu tun. In Windows selbst ist das Raid Volume zwar sichtbar aber in der Datenträgerverwaltung nicht initialisiert.

Ich habe zu weiteren Testzwecken die Festplatten in einen anderen Rechner ohne Raid gesteckt. Jede Platte wird im Bios einwandfrei erkannt. Ich glaube/ hoffe daher nicht dass die benachbarte Festplatte im defekten Raid1 auch das zeitliche gesegnet hat.

Wie kann ich nun das Array wieder zu Laufen bekommen bzw. die Daten von dort auslesen und Kopieren? Einen anderen Rechner mit Intel Raid muss ich erst organisieren - glaube aber an kein Hardwareproblem des Raid Controllers.

Bin für jeden Tipp dankbar!

LG
 
hm schwer zu sagen, ich hatte neulich ein ähnliches Problem mit einem Intel Raid 5.
Normalwerwiese kann man im Raid Storage Manager unter Windows die Platten auf "normal" zurücksetzen. Danach müsste er das Raid kontrollieren. Ich habe während der Überprüfung ein zu schwaches Netzteil eingesetzt und dadurch einen Absturz provoziert was zur Folge hatte, dass ich irgendwann nur noch 3 der 5 Platten des Raid 5s im Manager gesehen hatte. Komischwerweise zeigte er die fehlenden Festplatte mit einer leicht anderen Seriennummer an - ":0" war dahinter. Ich weiß nicht wieso er die Festplatten nicht mehr dem Raid zuordnen konnte. Hoffe das ist kein eingeschlichener Bug und wird falls wenn, schnelltens beseitigt.

Ansonsten habe ich eigentlich sehr stabile und gute Erfahrungen mit dem Raid gemacht, da man im gegen Satz zum Nvidia Raid die Platten nach unkontrolliertem Trennen einfach auf "normale" zurücksetzen konnte. Beim Nvidia war das Raid schnell kaputt.

Kannst du mal ein Screenshot vom Rapid Storage Manager (Intel Desktop) machen?
 
Heute steht die Kundschaft wieder Schlange :D
Ja, das ist wieder mal ein wunderschönes Beispiel für die Unsicherheit von Raid.
Interressierten Ungläubigen empfehle ich dieses Dokument zu lesen.
Und wer glaubt, sowas passiert nur auf popeligen onboard-Controllern, der irrt.

positiv: Du hast inzwischen ein Rettungssystem gebastelt.
negativ: Der Kabeltausch kann auch mit Verwechslungen der Anschlüsse einhergegangen sein. Die Reihenfolge ist somit zu überprüfen.

Welches System läuft auf dem anderen PC ohne RAID?
Gibt es schon SMART-Daten der rausgefallen Platte? und von den anderen ?

Das Board ist ein P5Q-ohnewas?

Ich brauche ein Bild der Datenträgerverwaltung, ohne das dann später was am Originalsystem umgesteckt wird.
 
Hallo Leute,

erstmal Danke für die schnelle Antworten. Bin derzeit beruflich unterwegs und kann daher noch nicht die Screenshosts liefern. Ich habe es bis dato noch nicht mit dem Rapid Storage Manager probiert. Nur den Intel Matrix Storage Manager. Daher hatte ich diese Funktion auch nicht.

Auf dem Ersatzsystem läuft derzeit überhaupt kein System. Hatte die Platten ausschließlich aufgedreht, um zu sehen ob diese erkannt werden.

In meinem primären Sytem ist das Asus P5Q drinnen ohne irgendwas hinten dran.
Mit Reihenfolge meinst du welche Platte auf welchem Sata Controller hängt? Hoffe nicht diese unabsichtlich verwechselt zu haben. Screenshot zur Datenträgerverwaltung kommt noch. Festplatte wurde mit der richtigen Größe angezeigt. Jedoch ist ein Initialisieren nicht möglich. Daher ist das Teil auch offline.

LG
 
@Krautmaster:
Das ist sehr löblich und schon mal besser als nix, aber manchmal ist da das Wichtigste gerade NICHT dabei, weil man was übersehen oder sich was geändert hat. Nur mit 1:1 von Datenpartitions kann man Kopfweh verlässlich verhindern.

@crichton: Nur keine Eile, die Daten laufen nicht davon.
 
Zuletzt bearbeitet:
@ernst: sofern die daten nicht schon weg sind ;-)

Ist es jetzt relevant welche Festplatte an welchem Sata Port angeschlossen war?
 
Weg von den Daten ist wohl kaum was, es hängt nur orientierungslos freischwebend herum; aber das kann man erst nach näherer Analyse sagen.
Wenn man das wieder zusammenbasteln will, sollte die Reihenfolge der ursprünglichen Erstkonfiguration entsprechen, aber die lässt sich feststellen.
Ich bin mal zuversichtlich, das alles wieder ins Lot kommt - würde sonst meine Erfolgsquote drücken :D
 
Zuletzt bearbeitet:
Hab mich ganz anscheinend unklar ausgedrückt. Standardmäßig hab ich vier Platten in dem Raid 10 Verbund. Das System befindet sich auf dem raid 10 mit einer 80GB Partition. Der Rest des Platzes geht für die Datenpartition in dem Raid Volume drauf.

Das Testsystem läuft auf der IDE Platte mit 120 GB.

edit: hatte deinen edit erst nach meinem post gelesen
Ergänzung ()

Hallo,

im Anhang findet Ihr Screenshots vom Rapid Manager und Windows 7 Datenverwaltung. Derzeit läuft Win7 auf IDE HDD. Bitte um Info falls noch andere Informationen benötigt werden.

Danke im voraus!
 

Anhänge

Zuletzt bearbeitet:
Den Fahrplan, um wieder zu einem funktionierenden System zu kommen, würde ich so skizzieren:

1. Install eines Notsystems auf IDE (geschehen)
Die Installation des RST-Managers kann eine schlechte Idee gewesen sein, wenn der RAID10 ursprünglich mit dem Matrix-Manager erstellt wurde​
2. Im BIOS den Intel-Controller auf AHCI oder IDE stellen
3. Auslesen der RAID-Metadaten,
um Plattenreihenfolge (Seriennummernbezogen) zu verifizieren,
Ereignisreihenfolge, welche Platte als erste / zweite ausgefallen ist
Der Array ist gestriped über 0=2 und 1=3; Stripesize ist lt. RST 8K​
4. MBR/NTFS BS extrahieren
5. SMART Daten erheben (insbesondere der zweiten rausgefallenen)
6. Reihenfolge der Memberplatten 0-3 ggf richtigstellen; Ersatzplatte oder Reanimation
7. Im BIOS RAID-mode aktivieren und RAID10 erstellen (vier Platten)
Plattenausfall der ersten simulieren - degraded forcieren​
8. MBR restaurieren
9. chkdsk
10. Vierte Platte zuschalten - rebuild
 
hallo

das raid wurde damals direkt im bios des "raid controllers" erstellt und nicht mit dem matrix storage tool. diente nur zur überwachung. kann sofern gewünscht den intel matrix storage manager wieder installieren.

die bios umstellung ist kein problem. mit welchem tool soll ich die metadaten auslesen (hxd)? warte lieber auf genaue anleitung bevor ein schritt nicht mehr rückgängig zu machen ist.
 
Wenn das im RAID-BIOS angelegt wurde, machen wir das jetzt auch wieder so.
Der Grund: Je nach Version des Tools kann die Größe des Metadatenbereiches schwanken. Wenn der Bereich größer wird, kann es vorkommen, dass danach auf das Ende der Partition nicht mehr zugegriffen werden kann, und das unschöne Fehler und Komplikationen ergibt.

Stell erst mal im BIOS den Controller um auf AHCI oder IDE


Prinzipielle Richtlinien während der gesamten und aller folgenden Aktionen
(außer es wird ausdrücklich verlangt)
- Bei den geringsten Zweifeln, Unklarheiten, Schwierigkeiten oder Problemen sofort Rückfrage halten und nicht weitermachen
- Wenn ein popup mit der Aufforderung kommt, eine Platte zu initialisieren, ABLEHNEN !!!
- läuft bei Systemstart ein automatisches chkdsk an, sofort durch beliebigen Tastendruck beenden!
- Im Disk Management keine Aktionen zu eventuell angezeigten Partitions oder Versuche, diese im Explorer anzuzeigen, machen!​
Für die Diagnose zu installieren:
- den Hex-Editor HxD von hier in der englischen Version. Damit nicht herumexperimentieren, damit die Defaulteinstellungen erhalten bleiben.

Alle auf Anforderung erzeugten Dateien dann am Schluss in einen zip-File und den in den Post-Anhang stellen

Als nächstes bräuchte ich mal ein neues Bild der Datenträgerverwaltung nach dieser Umstellung
 
Nabend

wie gewünscht habe ich im Bios den Sata Mode auf IDE abgeändert. Nach dem ersten hochbooten wurden die neuen Disks erkannt. Einer Disk wurde automatsich ein Laufwerksbuchstabe (D) zugewiesen. Windows wollte formatieren - wurde klarerweise von mir abgelehnt und somit nicht durchgeführt. Im Anhang befindet sich der Screenshot für die neuen Geräte in der Datenträgerverwaltung. Der Hex Editor wurde in der Version 1.7.7.0 heruntergeladen und installiert.

LG
 

Anhänge

  • win7_datentraegerverwaltung_ide_mode.GIF
    win7_datentraegerverwaltung_ide_mode.GIF
    57,8 KB · Aufrufe: 383
Die 4.Platte des Arrays hat ja das Zeitliche gesegnet - die macht überhaupt keinen Mucks mehr?

Jetzt, da die Platten einzeln verfügbar sind, kann man auch die ganz am Ende liegenden RAID-Metadaten auslesen - Was wir jetzt mal machen werden.

Der Datenträger 3 scheint eine der Memberdisks 0 oder 2 zu sein - die andere dürfte dann die kaputte sein. Da werden wir uns den MBR extrahieren.


** weitere Anleitung wird hier eingefügt, öfter mal im Browser refresh zur Anzeige machen ***
Mach mal als erstes mit HDTune von den 3 verbliebenen Memberplatten einen snapshot der Info-und Health-Reiter:
- Öffne mit dem Text-Editor eine neue .txt Datei
- Zeige jeweils von jeder der Platten den Info-Reiter an und klicke dann in der Menüzeile auf das grüne "copy"-Symbol - das stellt den Inhalt maschinenlesbar in die Zwischenablage; mit "einfügen" holst du das in die .txt-Datei. Dann dieselbe Prozedur mit dem Health-Reiter;
- Das wiederholst Du mit jeder der Platten.

Den txt-File speicherst Du dann ab, zippst ihn und stellst ihn in den Anhang
 
Zuletzt bearbeitet:
Die vierte Platte läuft leider nicht mal mehr an. Die Serie von Seagate ist ziemlicher schrott. Mehr als ausreichend gekühlt sind die Dinger im Tower. Health Infos von den Platten mit HD Tune kommt heute abend. Bis später
 
Vorerst mal als Gedankenstütze, wie sich Intel die Aufteilung der Daten auf seinem RAID10 vorstellt, ein Bild davon im Anhang.

Leider ist es nicht möglich, von einem RAID0(Device 0 +1 ) auf RAID10 (Device 0+1 auf 2+3 gespiegelt) zu migrieren - obwohl es das Einfachste der Welt wäre, hat man das bei Intel nicht vorgesehen :mad:. Also müssen wir später mit 4 Platten (Dazu brauchst Du Ersatz für die defekte) die Neukonfiguration anleieren.

Denkbar wäre auch, mit nur 2 Platten die Daten auf einem RAID0 verfügbar zu machen.
Da die Migration später auf 4 Platten nicht möglich ist, müsste man dann den RAID0 verwerfen, einen RAID10 erstellen und mit 2 fehlenden Platten degraded hochfahren und dann ein rebuild anleiern...
 

Anhänge

  • RAID10.jpg
    RAID10.jpg
    31,6 KB · Aufrufe: 357
Die vierte Platte anzuschaffen ist kein Problem. Mir ist wichtig auf die Daten zugreifen zu können. Das System kann daher auch auf Raid 0 laufen (wäre ohnehin nur temporär). Wenn das System nicht hochbootet aber der Zugriff auf die Volumes möglich ist, benötige ich nicht mal ein lauffähiges System (falls es zu Problemen mit dem Recover des MBR kommen sollte). Insofern können wir den von dir am unkompliziertesten Lösungsweg wählen.

LG ALEX
Ergänzung ()

hallo

wie gewünscht die hd tune auswertungen im anhang.
lg
 

Anhänge

Wenn Du dann die SMART und Info-Werte der Platten erstellt hast, geht es gleich munter weiter:

Im HxD sind die physical hard disk Nummern um 1 höher als in der Datenträgerverwaltung angezeigt

HxD Aufruf unter User mit Administratorrechten (oder per rechtklick - Ausführen als ...)

- Menü: Extras/open disk/physical disk/hard disk 1 (Häkchen bei "open as readonly" NICHT entfernen)
- Menü: File/New (es erscheint in der Anzeige ein zweiter Reiter "untitled1")
- auf Reiter "harddisk 1" klicken
in der Anzeige sollten die erste Zeilen so aussehen:
Code:
[FONT="Lucida Console"]Offset[COLOR="Magenta"](h)   00 01 02 03 04 05 06 07 08 09 0A 0B 0C 0D 0E 0F[/COLOR]
0000000000  33 C0 8E D0 BC 00 7C FB 50 07 50 1F FC BE 1B 7C  [COLOR="magenta"]3ÀŽÐ¼.|ûP.P.ü¾.|[/COLOR][/FONT] <== hier steht irgendwas
wenn nicht, dann
- Menü: View/bytes per row/16/OK
- Menü: View/offset base/hexadecimal
- Menü: View/visible columns/hex and text
- Menü: View/byte group size/1​
einstellen
========= extrahieren Sektor 0
- Menü: Edit/select block/start-offset: 0 , length: 200, hex, OK
- Menü: Edit/copy as.../ editor view (überträgt den markierten Inhalt in die Zwischenablage)
- Reiter "untitled1" anklicken und in das kleine punktierte Rechteck rechts unter ... 0E 0F klicken
- Strg+V (überträgt den Inhalt aus der Zwischenablage) im popup "file size change": OK
- den Cursor an der Endposition belassen, nicht in der Anzeige herumklicken!
========= extrahieren maxLBA-4 (RAID-Metadaten)
- auf Reiter "harddisk 1" klicken
- in der Menüzeile rechts auf den Button ">|" anklicken, danach auf "<" drei Mal klicken (Positionierung auf letzten Sektor und dann drei Sektoren nach vorne)
- Menü: Edit/select block/(den eingetragenen Start-Offset belassen) length: 800, hex, OK
- Menü: Edit/copy as.../ editor view (überträgt den markierten Inhalt in die Zwischenablage)
- Reiter "untitled1" anklicken
- Strg+V (überträgt den Inhalt aus der Zwischenablage) im popup "file size change": OK
- Menü: File/Save as... einen Ordner auswählen und als Dateinamen "harddisk1.txt" /speichern
- HxD beenden

Das gleiche machst Du dann noch statt mit harddisk1 auch mit harddisk3 und zuletzt mit harddisk4
Die drei .txt Files gezippt in den Anhang stellen,
 
danke für die genaue beschreibung.
Im Anhang befinden sich die Auswertungen. Möchte darauf Aufmerksam machen dass Disk1 und Disk4 nicht mit den Startinformationen wie von dir beschrieben anfangen. Ich habe daraufhin die Einstellungen mit deinen unter dem Punkt "wenn nicht, dann" verglichen. Die Einstellungen waren per default korrekt.
 

Anhänge

Super, sieht ganz genau wie gewünscht aus, Auswertung dauert etwas...
ich stell die Erkenntnisse dann hier rein,
(öfter mal mit refresh im Browser aktualisieren)

Nun, die drei Metadatenbereiche sind exakt identisch.
daher hier nur die Analyse von harddisk1:
Code:
Analyzing: \\Pc10\shareddocs\crichton RAID10\harddisk1.txt
Analyzer Version: 2009072701

===== RAID MPB INFORMATION ===== when MaxLBA=976773168 then from Sector==>976773166 downwards
7470C05C00 496E74656C205261  . RAID
7470C05C08 69642049534D2043  .. Controller
7470C05C10 6667205369672E20  ... Signature: Intel Raid ISM Cfg Sig.
7470C05C18 312E322E3031      .... Version: 1.2.01
7470C05C1E 0000              <reserved>
7470C05C20 02C84427          MPB checksum: unknown type
7470C05C24 48020000          MPB size: 584
7470C05C28 EDB701E6          family ID <first time checksum>
7470C05C2C 219D2A00          Generation <# MPB updates>: 2792737
7470C05C30 F8110000          Error Log Size: 4600
7470C05C34 00000080          MPB Attributes: checksum verify
7470C05C38 04                # configured disks: 4
7470C05C39 01                # configured volumes: 1
7470C05C3A 02                error log position: 2
7470C05C3B 00                <reserved>
7470C05C3C 00000000          <cache size>
7470C05C40 178D63E7          original family ID: --23188778
7470C05C44 00000000...       <148 Bytes unused>
.                            --- HDD [0] ---
7470C05CD8 39514D3652303731  .
7470C05CE0 3A30000000000000  .. Serial: "9QM6R071:0"
7470C05CE8 3060383A          Sectors total: 976773168
7470C05CEC FFFFFFFF          MISSING!
7470C05CF0 02                Status Flags: Disk is: Member, *** Unusable ***, *** Undetected ***,
7470C05CF1 00                Status Flags:
7470C05CF2 00                Status Flags:
7470C05CF3 00                Status Flags: <unused>
7470C05CF4 00000000          owner config number.
7470C05CF8 0000000000000000  .
7470C05D00 0000000000000000  .. <16 bytes unused>
.                            --- HDD [1] ---
7470C05D08 39514D334D333657  .
7470C05D10 0000000000000000  .. Serial: "9QM3M36W"
7470C05D18 3060383A          Sectors total: 976773168
7470C05D1C 00000200          SCSI ID: Port 0 Path 0 Target 2 Lun 0
7470C05D20 3A                Status Flags: Disk is: Member, Usable, Detected, Claimed,
7470C05D21 01                Status Flags: contains metadata,
7470C05D22 00                Status Flags:
7470C05D23 00                Status Flags: <unused>
7470C05D24 00000000          owner config number.
7470C05D28 0000000000000000  .
7470C05D30 0000000000000000  .. <16 bytes unused>
.                            --- HDD [2] ---
7470C05D38 39514D3844584737  .
7470C05D40 0000000000000000  .. Serial: "9QM8DXG7"
7470C05D48 3060383A          Sectors total: 976773168
7470C05D4C 00000400          SCSI ID: Port 0 Path 0 Target 4 Lun 0
7470C05D50 3A                Status Flags: Disk is: Member, Usable, Detected, Claimed,
7470C05D51 01                Status Flags: contains metadata,
7470C05D52 00                Status Flags:
7470C05D53 00                Status Flags: <unused>
7470C05D54 00000000          owner config number.
7470C05D58 0000000000000000  .
7470C05D60 0000000000000000  .. <16 bytes unused>
.                            --- HDD [3] ---
7470C05D68 39514D3650534D4C  .
7470C05D70 0000000000000000  .. Serial: "9QM6PSML"
7470C05D78 3060383A          Sectors total: 976773168
7470C05D7C 00000500          SCSI ID: Port 0 Path 0 Target 5 Lun 0
7470C05D80 3A                Status Flags: Disk is: Member, Usable, Detected, Claimed,
7470C05D81 01                Status Flags: contains metadata,
7470C05D82 00                Status Flags:
7470C05D83 00                Status Flags: <unused>
7470C05D84 00000000          owner config number.
7470C05D88 0000000000000000  .
7470C05D90 0000000000000000  .. <16 bytes unused>
.                            --- Volume [0] ---
7470C05D98 5261696431300000  .
7470C05DA0 0000000000000000  .. Map Name: "Raid10"
7470C05DA8 0098707400000000  Sectors: 1953536000
7470C05DB0 0C                Status Flags: read coalescing, write coalescing,
7470C05DB1 00                Status Flags:
7470C05DB2 0000              <reserved>
7470C05DB4 00000000          Reserved Sectors: 0
7470C05DB8 00000100          <migration priority,# subvolumes,target id,cng master disk>
7470C05DBC 01010000          <cache policy[2],cng state,cng substate>
7470C05DC0 00000000...       <40 Bytes unused>
7470C05DE8 261C1D00          <curr migr unit>
7470C05DEC 00000000          <check point ID>
7470C05DF0 00                Volume migration state: 0 <normal or migrating>
7470C05DF1 01                Volume migration type: 1 <initializing, rebuilding,...>
7470C05DF2 00                Volume dirty: 0
7470C05DF3 FF                Volume fs state: 0xFF
7470C05DF4 0000              <verify errors>
7470C05DF6 0000              <verify bad blocks>
7470C05DF8 00000000...       <16 Bytes unused>
7470C05A08 00000000          volume LBA0 offset(LBAs or stripes? - LBAs will run in >2TiB bug): 0
7470C05A0C 084D383A          # Sectors/member: 976768264
7470C05A10 60C2D101          # Stripes/member: 30524000
7470C05A14 1000              # Sectors/Stripe: 16 ==> stripesize=8KB
7470C05A16 03                Volume status: FAILED
7470C05A17 01                RAID Level: RAID-1 Array
7470C05A18 04                # member disks: 4
7470C05A19 02                # domains: 2
7470C05A1A 01                failed disk: HDD[1]
7470C05A1B 01                <unused, always 01>
7470C05A1C 00000000...       <28 Bytes unused>
7470C05A38 00000001          member order 1: HDD[0] <Serial=9QM6R071:0> *** BAD ***
7470C05A3C 01000001          member order 2: HDD[1] <Serial=9QM3M36W> *** BAD ***
7470C05A40 02000000          member order 3: HDD[2] <Serial=9QM8DXG7>
7470C05A44 03000000          member order 4: HDD[3] <Serial=9QM6PSML>
7470C05A48 === end of metadata ===

Ein proforma-Check anhand der Seriennummern hat ergeben, dass diese Platten nicht vom Firmwarebug der 7200.11 betroffen sein können (wer's glaubt... :) ) Jedenfalls ist die SD1A drauf, die den Fehler bereits gefixt hat

So ganz blick ich noch nicht durch, was zu diesem Failed-Status geführt hat.
Eine wesentliche Hilfe wäre die HDTune-Info (Zuordnung Datenträger x ==> Serien-Nummer).
Es scheint gerade ein Rebuild von einer(HDD[1]) auf die andere(HDD[0]) Platte in Gang gewesen zu sein, als die eine Platte(HDD[0]) den Löffel abgegeben hat... riecht nach Inkonsistenz der verbleibenden... aber es ist HDD[0] ausgefallen, die ohnehin nicht mehr aktuell war

Die den Löffel abgegeben hat - das war ja die 9QM6R071
 
Zuletzt bearbeitet:
Zurück
Oben