Intel ICH10R RAID10 aus 4x1TB Samsung HDD´s gecrashed...

Guiy2k

Cadet 3rd Year
Registriert
Nov. 2004
Beiträge
55
Hi @All,

ich habe diesen Beitrag hier auf Computerbase.de gefunden. Dort wird genau der Fehler erklärt, und auch wie genau man das Problem löst..

Hab auch schon Kontakt mit ERNST@AT.

https://www.computerbase.de/forum/threads/intel-raid-10-failed-trotz-drei-aktiver-platten.731483/

Ich habe genau das gleiche Problem: Intel RAID Controller ICH10R auf einem ASROCK P67 Fatality Professional Board
1xSSD Bootplatte
4xSamsung HD103SJ dran, eine ist verreckt.
2x 250 GB Seagate HDDs im Software RAID unter Win7. (dieses hat sich nach dem Crash rebuilded und funkt. auch wieder einwandfrei)

Im RST Manager sind 3 Stück noch online, aber leider kann ich nicht drauf zugreifen.
Habe bereits den Controller auf AHCI gestellt, Win7 gebootet und somit Zugriff auf die einzelnen HDDs.
Ich habe mir gestern Nacht noch die 3 HDDs mit dem Hex Editor angeschaut.. laut Anleitung von Ernst@AT und direkt gesehen, das 2 Platten noch ein Bootsektor (512 Byte) haben und die eine Platte, die auch als "nicht initialisiert" in der Datenträgerverwaltung.
Die RAID Informationen am Ende der Platte sind noch erhalten, da das RAID10 noch mit 1,8 TB angezeigt wird (im Cotroller beim Booten). Darum denke ich, das die eine Platte kein Startsektor hat.. und darum auch nicht initialisiert werden kann. Im RAID sowie im AHCI Modus.

Letztes Backup war am Sonntag auf meine NAS.... es geht mir aber um 400 GB an VMWares, die ich nicht neu machen möchte... NAGIOS Konfigurationen usw... das wäre mir sehr wichtig.

Leider ist das Array aber im Status failed....
Ich werde gleich noch eine neue 1 TB Samsung HDD kaufen gehen, auch wenn diese fast 150 Euro kostet... das ist mir erstmal jetzt egal.. der RMA dauert eh 10 Tage bei Samsung...

Danke euch für eure Hilfe

PS: Die defekte HDD die den Crash verursacht hat teste ich gerade mal mit Testdisk durch.. aber machen kann man da sicherlich nichts mehr...
 
Und du kannst hoffen, dass die rma bei samsung 10 tage dauert. Derzeit werden die recertified platten an industriekunden verkauft, weil der markt so durchdreht...
 
Dein Kommentar bringt ihm auch nichts... @ Kamikaze_Raid
Aber eine Verständnisfrage habe ich doch:
Sollte bei einem RAID 0+1 bei einem Plattenausfall, das System nicht weiterlaufen, da ja jede Platte gespiegel wird?

Grüße
Airshark
 
@Airshark: In der Theorie, ja ^^ scheinbar aber ist es beim TE nicht so.
 
Danke Kamikaze_RAID, das weiß ich auch...ich habe leider nicht das Geld für einen HW Controller ala HP Smartarray oder einen Mylex... Dazu noch SAS Platten oder so... das kann sich keiner Privat leisten.. hier in der Firma ist das egal... da haben wir alles vom Feinsten...

Ja, das System stand auf degraded... nach dem BSOD. Dann hab ich Reset gerdückt und der Rechner führ im Degraded Status hoch... soweit ok... dann hat der Intel RST Manager das Rebuild angefangen... und bei 15% oder so, nochmal ein Bluescreen und zwack war das RAID von Status degraded auf Status Failed... nun geht nichts mehr...Die Platte, die den Crash verursacht hat, hab ich dann ausgebaut...und probiere da mal mit Testdisk ein wenig rum... sind aber auch kaputte Sektoren und alles... die geht zu Samsung... 10 sind echt optimistisch.. ich weiß...Thailand lässt grüßen...

Darum.. normalerweise sollte wenn eine HDD ausfällt das RAID10 weiterlaufen... aber tut es nicht... die RAID Infos sind noch erhalten auf den Platten, (Hab ich mit Hxd nachgeguckt).nur die eine die auch im AHCI nicht init. wird, diese hat keinen Startsektor... ich bin mal gespannt, was Ernst@AT dazu sagt, ihm hab ich die Log Files geschickt... der ist ja da super fit drin...evtl. die ersten 512 Byte kopieren und ersetzen, damit alle HDD´s gleich sind...
 
Nun ja wenn das Raid mitten im Rebuild abfährt dann kannst du schon Probleme haben -.-
Da kann weder SW-Raid noch Raid10 was dafür/dagegen :)

Da hoffe ich für dich das dir Ernst helfen kann.
 
Ja, das hoffe ich auch....:-( 400 GB VMs neu machen worst Case.....
 
Für die Zukunft: Benötigst du das Raid unbedingt? Wäre in deinem Fall (Privatnutzung) eine Datenplatte + tägliches Backup nicht sinnvoller oder benötigst du die Performance von Raid(1)0?

Klar funktioniert es im Normalfall nur genau bei deinem Problem zeigt sich wieder die Grundsatzaussage das Raid eben keine Datensicherung ist. Leider hat in deinem Fall auch die höhere Verfügbarkeit versagt.
 
Ja RAID10 macht 280 MB/S ... darum halt.. darauf laufen die VMs einfach besser.. wenn 8 Stück gleichzeitig am Rennen sind.. dann mekrst du das und mit nur einer Platte geht das nicht.. da spoolt der nur... auch beim Auspacken von großen Archiven etc.. ist das echt schneller...hat Jahrelang aber auch gehalen.. habs sogar von einem ICH9 DFI LanParty Board auf den ICH10R ASROCK migriert.. ohne Probleme, anschließen, erkennen und funzt... das hat mich auch gewundert.. nur da hatte ich ein backup vom kompletten BEstand... jetzt aber net...

Ich habe leider nach Murphey 2 Dinge gleichzeitig gehabt...Worst Case eben.. und 2 min später hätte ich auch mein IPhone noch geschrottet.. da er mir 2 min vor dem IOS 5.01 Update abgekackt ist... :-(((( da hab ich Glück gehabt...
 
Ich meinte das nicht böse. Ein Raid 1 geht Softwareseitig noch, aber Raid 0, 5 usw. ist relativ komplex und ein Hardwarecontroller hat da doch andere Möglichkeiten bzw. features um ein syncen wieder zu gewährleisten. Raid 0 ist sowieso etwas was man im Normalfall nicht benötigt. Ein Raid 1 reicht (bringt bei der Leseleistung auch was) und ist absolut Systemunabhängig da nur gespiegelt wird. Ich denke deine 40GB VM musst du neu erstellen. :(
 
Was da alles überschätzt wird. Komplex ist für einen Controller ohne CPU und Speicher schon gar nix, da der ohnehin nur alle Anforderungen sequentiell ausführen kann.
Ein PC mit 2 Platten ist auch schon kein Normalfall? Darum auch ein RAID 0?
Ein RAID1 bring beim Lesen keinen Deut mehr
Kamikaze_Raid schrieb:
Ich denke deine 40GB VM musst du neu erstellen. :(
Derartige Unkenrufe sollten mit Forumssperre belohnt werden :D

@Guiy2K
Bei einem RAID10 ist es normal, dass zwei Platten einen MBR und zwei keinen haben.
Die Doku dazu sehe ich mir gerade durch, etwa 15:00 kann ich mehr sagen...
 
Zuletzt bearbeitet:
Ok danke für die Info... das wusste ich so noch nicht...die defekte Platte hier (die ist mit Testdisk mal bearbeitet habe) hat also kein MBR....daheim habe ich 2 intakte Platten MIT einem MBR und 1 ohne.

Wenn ich das richtig verstehe, damit sollte doch eigentlich die Möglichkeit bestehen, ein RAID0 zu "bauen" (wie in dem Link oben beschrieben) und dann die Daten von dem Teil zu sichern... und als letzten Schritt das RAID auflösen und neu machen... oder liege ich da falsch.. aber ich warte gerne, bis deine Analyse durch ist und du mehr weißt über mein System...:-) THX

Platz auf der NAS hab ich noch über 700 GB und ich nehme auch ne 2 TB zur Sicherheit von der Arbeit mit...Nur damit der Storage nicht ausgehen kann...:-)
 
Prinzipiell sollte man erst mal schauen, warum sich der Controller mit dem Array ins "failed" geschossen hat.
Danach wird es möglich sein, die zwei aktuellsten Platten zu bestimmen, und daraus (nach vorherigen kleinen Sicherungsmaßnahmen von den Einzelplatten) ein RAID0 zu basteln.
mit der 3. rausgefallenen und der neuen eingehängt, kann man dann auf einen RAID10 migrieren. Bei Intel zumindest.
 
OK, ich vertraue dir da ganz und gar...hast du schon was rausgefunden zu meinem "worst case"? Wenn du INfos brauchst, ich bin heute Abend die ganze Zeit daheim.. da kann ich dir alle Infos liefern, die du evtl. noch brauchst.... einfach nur melden... per PM oder so...
 
Der Inhalt der Metadaten verrät, dass zwei Platten rausgeworfen wurden; der ist auf allen 3 Platten HDD2-4) derselbe
jene, die erst einen Fehler hatte und dann rebuildet wurde und dann ist eine zweite, von der die Daten auf die erste rebuildet werden sollten, auch abgekackt.
Code:
[SIZE="3"]Analyzing: \Dokumente und Einstellungen\E\Eigene Dateien\Downloads\Guiy2K\HDD4 nach HxD.txt
Analyzer Version: 2009072701

===== MBR INFORMATION ===== at LBA=0
00000001FE 55AA              Boot signature='55AA'... valid
.                            ... Partition Table entry 1 ...
00000001C2 07                Partition Type: NTFS
00000001BE 80                Boot indicator: *** ACTIVE ***
00000001BF 202100            Start CC-HH-SS:    0-033-33
00000001C3 FEFFFF            End   CC-HH-SS: 1023-255-63 (not CHS addressable)
00000001C6 00080000          Start    (LBA):        2048 0-32-32
00000001CA 00A0E0E8          Size  (Blocks):  3907035136 243201-175-46 1907732MiB 1863.02GiB
.                            ... Partition Table entry 2 ...
00000001D2 00                Partition Type: unused partition entry
.                            ... Partition Table entry 3 ...
00000001E2 00                Partition Type: unused partition entry
.                            ... Partition Table entry 4 ...
00000001F2 00                Partition Type: unused partition entry
                                                                     
===== RAID MPB INFORMATION ===== when MaxLBA=1953525168 then from Sector==>1953525166 downwards
E8E0DB5C00 496E74656C205261  . RAID
E8E0DB5C08 69642049534D2043  .. Controller
E8E0DB5C10 6667205369672E20  ... Signature: Intel Raid ISM Cfg Sig.
E8E0DB5C18 312E322E3031      .... Version: 1.2.01
E8E0DB5C1E 0000              <reserved>
E8E0DB5C20 E6DB3C88          MPB checksum: unknown type
E8E0DB5C24 48020000          MPB size: 584
E8E0DB5C28 0BB4501C          family ID <first time checksum>
E8E0DB5C2C 20310E00          Generation <# MPB updates>: 930080
E8E0DB5C30 F8110000          Error Log Size: 4600
E8E0DB5C34 00000080          MPB Attributes: checksum verify
E8E0DB5C38 04                # configured disks: 4
E8E0DB5C39 01                # configured volumes: 1
E8E0DB5C3A 02                error log position: 2
E8E0DB5C3B 00                <reserved>
E8E0DB5C3C 00000000          <cache size>
E8E0DB5C40 7FB2501C          original family ID: -396
E8E0DB5C44 12010000...       <148 Bytes unused>
.                            --- HDD [0] ---
E8E0DB5CD8 533133504A314451  .
E8E0DB5CE0 3430363834370000  .. Serial: "S13PJ1DQ406847"
E8E0DB5CE8 B06D7074          Sectors total: 1953525168
E8E0DB5CEC 00000500          SCSI ID: Port 0 Path 0 Target 5 Lun 0
E8E0DB5CF0 3A                Status Flags: Disk is: Member, Usable, Detected, Claimed,
E8E0DB5CF1 05                Status Flags: contains metadata, SMART events supported,
E8E0DB5CF2 00                Status Flags:
E8E0DB5CF3 00                Status Flags: <unused>
E8E0DB5CF4 00000000          owner config number.
E8E0DB5CF8 0000000000000000  .
E8E0DB5D00 0000000000000000  .. <16 bytes unused>
.                            --- HDD [1] ---
E8E0DB5D08 533133504A445753  .
E8E0DB5D10 3235303134390000  .. Serial: "S13PJDWS250149"
E8E0DB5D18 B06D7074          Sectors total: 1953525168
E8E0DB5D1C 00000400          SCSI ID: Port 0 Path 0 Target 4 Lun 0
E8E0DB5D20 3A                Status Flags: Disk is: Member, Usable, Detected, Claimed,
E8E0DB5D21 05                Status Flags: contains metadata, SMART events supported,
E8E0DB5D22 00                Status Flags:
E8E0DB5D23 00                Status Flags: <unused>
E8E0DB5D24 00000000          owner config number.
E8E0DB5D28 0000000000000000  .
E8E0DB5D30 0000000000000000  .. <16 bytes unused>
.                            --- HDD [2] ---
E8E0DB5D38 533234364A445753  .
E8E0DB5D40 3930333834363A30  .. Serial: "S246JDWS903846:0"
E8E0DB5D48 B06D7074          Sectors total: 1953525168
E8E0DB5D4C FFFFFFFF          MISSING!
E8E0DB5D50 02                Status Flags: Disk is: Member, *** Unusable ***, *** Undetected ***,
E8E0DB5D51 00                Status Flags:
E8E0DB5D52 00                Status Flags:
E8E0DB5D53 00                Status Flags: <unused>
E8E0DB5D54 00000000          owner config number.
E8E0DB5D58 0000000000000000  .
E8E0DB5D60 0000000000000000  .. <16 bytes unused>
.                            --- HDD [3] ---
E8E0DB5D68 533234364A445753  .
E8E0DB5D70 3930333835310000  .. Serial: "S246JDWS903851"
E8E0DB5D78 B06D7074          Sectors total: 1953525168
E8E0DB5D7C 00000200          SCSI ID: Port 0 Path 0 Target 2 Lun 0
E8E0DB5D80 3A                Status Flags: Disk is: Member, Usable, Detected, Claimed,
E8E0DB5D81 05                Status Flags: contains metadata, SMART events supported,
E8E0DB5D82 00                Status Flags:
E8E0DB5D83 00                Status Flags: <unused>
E8E0DB5D84 00000000          owner config number.
E8E0DB5D88 0000000000000000  .
E8E0DB5D90 0000000000000000  .. <16 bytes unused>
.                            --- Volume [0] ---
E8E0DB5D98 5241494431300000  .
E8E0DB5DA0 0000000000000000  .. Map Name: "RAID10"
E8E0DB5DA8 00B8E0E800000000  Sectors: 3907041280
E8E0DB5DB0 0C                Status Flags: read coalescing, write coalescing,
E8E0DB5DB1 10                Status Flags: chg master disk num,
E8E0DB5DB2 0000              <reserved>
E8E0DB5DB4 00000000          Reserved Sectors: 0
E8E0DB5DB8 0000FF01          <migration priority,# subvolumes,target id,cng master disk>
E8E0DB5DBC 01010000          <cache policy[2],cng state,cng substate>
E8E0DB5DC0 00000000...       <40 Bytes unused>
E8E0DB5DE8 378A0100          <curr migr unit>
E8E0DB5DEC 00000000          <check point ID>
E8E0DB5DF0 00                Volume migration state: 0 <normal or migrating>
E8E0DB5DF1 01                Volume migration type: 1 <initializing, rebuilding,...>
E8E0DB5DF2 00                Volume dirty: 0
E8E0DB5DF3 FF                Volume fs state: 0xFF
E8E0DB5DF4 0400              <verify errors>
E8E0DB5DF6 0000              <verify bad blocks>
E8E0DB5DF8 00000000...       <16 Bytes unused>
E8E0DB5A08 00000000          volume LBA0 offset(LBAs or stripes? - LBAs will run in >2TiB bug): 0
E8E0DB5A0C 085D7074          # Sectors/member: 1953520904
E8E0DB5A10 5C707400          # Stripes/member: 7630940
E8E0DB5A14 8000              # Sectors/Stripe: 128 ==> stripesize=64KB
E8E0DB5A16 03                Volume status: FAILED
E8E0DB5A17 01                RAID Level: RAID-1 Array
E8E0DB5A18 04                # member disks: 4
E8E0DB5A19 02                # domains: 2
E8E0DB5A1A 03                failed disk: HDD[3]
E8E0DB5A1B 01                <unused, always 01>
E8E0DB5A1C 00000000...       <28 Bytes unused>
E8E0DB5A38 00000000          member order 1: HDD[0] <Serial=S13PJ1DQ406847>
E8E0DB5A3C 01000000          member order 2: HDD[1] <Serial=S13PJDWS250149>
E8E0DB5A40 02000001          member order 3: HDD[2] <Serial=S246JDWS903846:0> *** BAD ***
E8E0DB5A44 03000001          member order 4: HDD[3] <Serial=S246JDWS903851> *** BAD ***  [/SIZE]

Also mal von den beiden Platten ...846 und ...851 die SMART-Werte angesehen
Geschickt hast Du mir die SMART-Werte der ...847, die lustigerweise 2 Pending Sectors aufweist
die ...149 ist unauffällig, und die ...851 weist schlimm viele Write-Errors auf.
Die 846 ist aus der Konfiguration gefallen und war nach dem Metadateninhalt nicht ansprechbar.
Hat die das Zeitliche gesegnet, oder läuft die auch noch, um deren SMART-Werte zu erheben?

Was Du an der defekten Platte mit testdisk testen willst, würde mich noch interessieren.
Mehr als Unsinn wegen der vielleicht gefundenen Partition-Header Backups, die nicht zur Plattengeometrie passen, weil Striped, kann das nicht ausspucken.
Naja, vielleicht ein paar defekte Sektoren...

MBR ist auf den Platten, welche Du mit HDD3 und HDD4 bezeichnet hast, drauf.
Welche das sind, kann ich nicht ergründen, da Du die SMART-Werte mit HDTune bebildert hast, wovon ich hoffe, dass die Reihenfolge stimmt.
CrystalDiskInfo verrät dazu auch, an welchem Port die jeweilige Platte zu finden war.
mit copy kann man das in eine Text-Datei übertragen.
 
Zuletzt bearbeitet:
"Die 846 ist aus der Konfiguration gefallen und war nach dem Metadateninhalt nicht ansprechbar.
Hat die das Zeitliche gesegnet, oder läuft die auch noch, um deren SMART-Werte zu erheben?"

Die 846 er ist DEFEKT, die hab ich auch ausgebaut.. die werde ich bei Samsung zum RMA schicken. Anlaufen tut die Platte noch.. soll ich die wieder anschließen und dir die Smart Werte zuschicken?

Ja ich habs gesehen, die defekte HDD da war nix mehr außer verlorene Partitions oder so... --> RMA!

Die Reihenfolge HDD 3 und HDD4...ich denke, das die Reihenfolge stimmt.. doch ich glaube schon.
Ich kann dir das Protokoll auch zur Sicherheit nochmal erstellen, nicht als Screenshot sondern als TextFile...mit CrystalDiskInfo.. wenn du willst..???

Ich fahre nun heim und bin da eigentlich auch immer Online...
 
Ja, crystaldiskinfo von allen 4 Platten. Ich glaub Bearbeiten/Copy ?
 
Zuletzt bearbeitet:
ok, ich werde gleich damit anfangen.. ich werde die defekte HDD an einen USB Connector hängen und scannen und die noch eingebauten mit crystal info scannen und dir zusenden...

Ich schicke dir ne PM mit dem Link, wenn ich ready bin...

ICh habe ürigens aus der Firma HDDs mitgebracht.. 2x2 TB WD Enterprise Platten, dazu noch eine 1 TB HD103SJ (neu gekauft), mein NAS hat auch noch 750 GB frei... also Backup Space ist genug da.. auch mal zum Tauschen einer Platte, wenn das notwendig ist...

Kann ich die defekte HDD bereits einbauen, oder soll ich das erstmal lassen?
Ergänzung ()

So, hier ist meine Auswertung zu den ganzen HDDs, die im Moment an und in meinem Rechner hängen....ich habe mal die komplette Auswertung gemacht.... Leider kann ich diesen hier nicht anhängen, da es zu viel Zeichen sind... ich schicke dir den per PM...dort steht alles drin... ich denke, damit kriegst du alle Infos, die du brauchst...
Ergänzung ()

Hier die genaue erneute Analyse der einzelnen HDDs in Bezug auf den Bootsektor: Ich denke, so ists richtig:

Samsung HDD´s im RAID10:

851 = KEIN BS
149 = BS vorhanden
847 = BS vorhanden

846 = KEIN BS vorhanden (bzw. da hab ich mit TestDisk rumgespielt)

Seagate HDDs: (im RAID1 Spiegel: Spiegel unter Win7 erstellt)
QLHQ = BS vorhanden
00FL = BS vorhanden
 
Nun, die ...846 zeigt ebenfalls, wie die ..851 eine enorme Zahl an Schreibfehlern.
Wie aus den Metadaten ersichtlich ist, besteht der RAID10 aus
einem RAID0 der Platten A1=...847 und B1=...846
welcher auf
einen RAID0 der Platten A2=...149 und B2=...851
gespiegelt wird.

So, wie es aussieht, hat sich die Platte B2 mal ausgeklinkt, nachher wieder eingegliedet (daher als BAD markiert, weil nicht mehr synchron)
beim anschließenden Rebuild ist dann B1 abgekackt, welche bis dahin noch die aktuellen Daten weitergeführt hat(die ist in der Konfig auf den 3 anderen als fehlend vermerkt).
Die Platten A1 und A2 müssen noch synchron sein; diese beinhalten auch den BS (MBR), weil sie das Stripe0 abbilden und damit den Sektor 0 des Arrays.
846 = KEIN BS vorhanden (bzw. da hab ich mit TestDisk rumgespielt)
Ich hoffe, du hast keine schreibenden Veränderungen damit gemacht (testdisk fragt explizit, ob du einen neuen MBR schreiben willst oder einen fehlenden Partition-Bootsektor aus dem Backup erzeugen willst, dann wäre der Inhalt verändert worden).

Korrekte Datenrekonstruktion ist daher nur mit der ...846 möglich.
Lies mir noch zur Sicherheit per HxD die Metadaten so wie bei den anderen aus;
dort müsste die ...851 als einzige BAD während des Rebuild aufgeführt sein( und sie selbst noch intakt).

Die Situation: Beide B-Platten sind angeschlagen, auch A1 hat schwer lesbare Sektoren und wird vielleicht in weiterer Folge in einer RAID-Konfiguration Schwierigkeiten machen und vom Ausstoß bedroht sein.

Die weitere Vorgangsweise daher:
- Die schnelle Variante: Die A2 und die B1 wieder zusammenspannen zu einem RAID0. Davon die Daten auslesen.
- Die sicherere Variante: B1 auf die neu gekaufte klonen, ergibt B1dup.
Dann mit A2 und B1dup einen voll funktionsfähigen RAID0 basteln.
Den Inhalt auf eine 2TB sichern.

Die Show dazu:
- Sichern des MBR von A1
- Anstecken aller 4 Platten am Raid-Controller, Umstellen Controller auf RAID, nach Post ins RAID-BIOS, wo alle 4 Platten angelistet sind und Array auf FAILED, dann dort RESET all to NON-RAID; Kontrolle aller Platten, müssen danach alle 4 uninitialisiert sein. Keine der Platten initialisieren oder partitionieren
- (klonen B1 auf B1dup)
- RAID0 definieren mit Reihenfolge A2,B1(dup) und alter Stripesize
- Kontrolle mit GetDataBack Demo Version der letzten veränderten Dateien
- MBR wieder aufspielen, damit Partition wieder in Zugriff nehmen und mit chkdsk ohne Parameter nochmals prüfen.

Wie dringend brauchst Du die VM's?

Antworten/Entscheidungen/Infos zu den fetten Texten erbeten
 
Zuletzt bearbeitet:
Zurück
Oben