CHKDSK Meldungen - Fehler im RAID, Dateisystem oder Platte?

.mojo

Fleet Admiral
Registriert
Nov. 2004
Beiträge
13.023
Hallo

Einer unserer ältere Server (läuft noch mit Win2003) macht mir Probleme. Er lies gestern keine remotenmeldung mehr zu und herunterfahren ließ er sich auch nciht. ICh war dann eben vor Ort und wurde mit 1000en Meldungen begrüßt wie "Datei e:\PfadX\DateiY ist beschädigt. Führen sie chkdsk aus" bla.
Die mledungen nahmen kein Ende und ich sah mich gezwungen den Server hart auszuschalten da ich das herunterfahren auch nciht mehr abbrechen konnte (Die opberfläche war schon komplett beendet bis auf den Hintergrund und diese Meldungen). Beim neustart konnte ich sehen das der RAID Controller (MegaRAID) offensichtlich kein Problem mit dem Volume hat und Win lief dann automatisch in chkdsk. Dort kamen (und kommen immernoch - es handelt sich um ein 8,7 TB Volume mit mehreren 10 Millionen Dateien) die immergleichen Meldungen vom Typ "Beschädigter Attributeintrag (128, "") wird vom DAtensatzsegment 12345678* gelsöcht".
*immer eine andere Zahl


Jetzt meine Frage, damit ich das Problem angehen kann wenn die Maschine wieder am Start ist:
Ist das Problem eher im RAID (RAID 5 aus 7 Platten + HS - Die HS ist noch immer inaktiv, der Controller hat also kein Problem festgestellt), im Filesystem oder auf einer der Platten zu suchen?

Kann man das so früh schon sagen bzw wenn nicht, wie gehen ich dann zunächst weiter vor? Mit welchen Tools auf was testen?

MfG
 
Zuletzt bearbeitet:
Chkdsk prüf das Dateisystem.

Somit ist - den Fehlermeldungen nach zu urteilen - DEFINITIV das Dateisystem fehlerhaft.

Den Grund, warum das Dateisystem fehlerhaft ist, kann unterschiedliche Ursachen haben:

- Software
- RAID-Controller
- Festplatten
- Kabel
- Spannungsversorgung

Ich würde somit zusehen, dass ich irgendwie an eine Statusmeldung zum Raid-Array komme.

Und nur weil die HS noch nicht aktiv ist, bedeutet nicht, dass alles ok ist. Es kann auch sein, dass die HS SMART-Fehler beim Selbsttest gemeldest ist, und deswegen deaktiviert wurde.
Schau dir den Raid-Controller an, was der sagt!
 
Zuletzt bearbeitet:
ich hbe mir jetzt leider nicht gemerkt um welchen Controller es sich dabei genau handelt. Wenn der Srever wieder hochegefahren ist werde ich da natürlich sofort auf den RAID Manager schauen.
Den Grund, warum das Dateisystem fehlerhaft ist, kann unterschiedliche Ursachen haben:

- Software
- RAID-Controller
- Festplatten
ja, daher ja meine Frage. Die einzige Statusmeldung vom RAID die ich bisher erhalten konnte war eben die dass beim booten und initialisieren des RAIDs vom Controller kein Problem festegestellt wurde.
Also das Array scheint bisher soweit erstmal in ORdnung. Wirklich mehr dazu sagen kann ich halt erst wenn er jetzt mit dem CHKDSK durch ist.

Mit der HS hast du natürlich recht, könnte auch sein dass die eben ein Problem hat.

Melde mcih wieder wenn ich mehr weiß.
 
chkdsk ist immer eine ganz miese Idee, es ist kein Datenrecoverytool wie z.B. Testdisk, sondern versucht nur irgrendwie das Filesystem gerade zu ziehen und scheut sich nicht dabei alles über Board zu werfen, was ggf. im Wege zu sein scheint. Schon das Runterfahren hätte man hier nicht tun sollen, aber jetzt ist es zu spät und ich würde jetzt schon mal nach dem letzten Backups Ausschau halten, die es hoffentlich gibt, denn wenn chkdsk so viele Fehler meldet, ist die Gefahr hoch, dass es hinterher nur noch in Lost+Found irgendwelche nutzlosen Dateien gibt.
 
vor dem herunterfahren hatte ich ja noch keinen Anhaltspunkt dass es Probleme gibt. Durch eben das Herunterfahren ist das Problem ja erst zu tage gefördert worden.

Backups gibt es nicht, denn es handelt sich selbst um ein Off Site Backup system. im schlimmsten Fall müssten Die DAten eben nochmal hingespiegelt werden (und keine angst, ich habe auch noch - unter anderem - richtige Backups auf Bändern)
Mir geht es in erster linie darum dass das nicht nochmal passiert.
 
Wenn die Daten nicht unwiderbringlich sind, dann kannst Du natürlich "in Ruhe" schauen was da schief gelaufen ist, vielleicht war das RAID falsch konfiguriert und hatte die Platten schon rausgeworfen ohne drüber z.B. per email jemanden zu informieren, weil z.B. die hinterlegten Zugangsdaten des email Server schon lange nicht mehr aktuell sind. Da gibt es ja tausend Dinge die schiefgehen können und zu 100% kann man kaum ausschließen, dass sowas passiert. Aber es wäre vielleicht mal an der Zeit den Server zu erneuern, Win 2003 klingt ja schon nach einem alten System und nichts hält ewig, auch keine Serverhardware.
 
ja, dass die Maschine nciht mehr die frischeste ist ist unbestreitbar und win 2003 gehört halt auch nicht mehr drauf. Aber das ist jetzt erstmal das mit dem ich mich rumschlagen muss.

Ich war heute morgen wieder vor Ort nachdem ich remote immernoch nicht drauf kam. Und siehe da, Maschine war noch immer in chkdsk, allerdings in Phase 2 in der sie allerdings irgendwann am WE in einen "unerwarteten Fehler" lief und nichts weiter mehr passierte. Habe darauf hin die Maschine wieder resettet und beim boot chkdsk abgebrochen.
Windows läuft hoch, ANmeldung problemlos, Array da, Volume da, Partition da. Kann problemlos darauf zugreifen und habe einige Dateien querbeet getestet, unter anderem auch ein größeres ZIP eines DB Backups entpackt, ging problemlos.

Das Array schein soweit in Ordnung, es sind sogar 2 hotspare platten vorhanden. Im Log des Controllers (Adaptec 3805) ist nichts zu finden, allerdings macht mich das "forced online" etwas stutzig...
Im eventlog allerdings finde ich tausende einträge mit event ID 55 ntfs.
Ich werde den Empfehlungen dort mal nachgehen und sehen was sich ergibt.
Fällt dir/jemandem sonst irgendwas auf?

raid.PNG

MfG
 
also ich habe jetzt online nochmal ein chkdsk /f laufen lassen. Das hat knapp 30 Stunden gedauert, war gestern mittag fertig und ist durchgelaufen ohne Fehler. Bisher sieht alles gut aus, alle Daten sind da und die ntfs fehler im eventlog tauchen auch nciht mehr auf.
 
Zurück
Oben