Bluescreen 0x000000124 seit ein paar Tagen Win Server 2008

domidragon

Fleet Admiral
Registriert
Juli 2008
Beiträge
11.532
Hi

Wie der Titel schon sagt, habe ich ein Bluescreen seit ein paar Tagen auf meinem (File)Server.


Leider gibt es nicht viel mehr Infos als das.
uncorrectable hardware error klingt zumindest schon mal nicht gut.

Habe ein RAID1 als Systemplatten
Ein RAID5 für diverse Backups

Xeon3 1230
16gb DDR3 Ram
Geforce 8400 passiv
14 Festplatten sind drin, habe schon versucht die meisten davon auszustecken. Vermute liegt eher an einer RAID Platte.

Dachte lange, es liegt an einer Platte, denn immer wenn ich den Server ganz abgeschalten habe und wieder an, kam ich zumindest auf den Desktop. Am anfang lief er dann noch 1-2 Tage Stabil. Der Verdacht auf die Festplatte kommt daher, da bei der Defragmentation die Kiste abgeschmiert ist.
Nach einem Absturz kommt er nicht übers laden von Windows hinweg. Muss immer komplett aus und wieder an, um überhaupt auf den Desktop zu kommen, doch 2-3min später ist wieder bluescreen.

Und mittlerweile komme ich nicht mal mehr auf den Desktop. Maximal zur Useranmeldung, da läuft er dann auch ohne Probleme.
Achja in der Starthilfe von Windows haltet er auch keine 5 Sekunden durch.

Treiber sind keine aktualisiert worden. Updates sind deaktiviert.

Server lief vorher 125 Tage am Stück ohne Probleme.

In Google finde ich nichts hilfreiches zu der Meldung.

Wer kann mit Erfahrungen helfen?

Vielen Dank!
 
Zuletzt bearbeitet:
Hi Domidragon,

von welchem Hersteller ist das System oder ist es in Eigenbau einstanden? Wenn möglich Modellnummer bitte mit angeben.

Hat der Server einen Hardware Raid-Controller verbaut, wenn ja welchen? Oder nutzt du gar den Software-Controller vom Board?
Ich tippe auch auf ein defektes Raid (ist aber nur ein Bachgefühl).

Im schlimmsten Fall hast du mit dem Neustecken der Platten (un den dadurch gestarteten Rebuilds) nur verschlimmer, so dass sic die Fehler auf die anderen Platten im Raid Kopiert haben. Möchte an der Stelle aber noch nicht den Teufel an die Wand malen. Näheres kann ich erst sagen, wenn ich mal übers Controller log drüber geschaut habe.

Deshalb die Wichtige Frage: Hast du für den allerschlimmsten Fall ein Backup da?
Denn das Raid 1 hört sich nach deiner Schilderung schon sehr defekt an.
Solltest du kein Backup haben, erstell bitte eines, z.B per Live CD und dann File basieren (einfaches kopieren ist ausreichen), bei Erstellung eines Block basierten Backups (z.B. ein Image) sicherst du nur die defekten Blöcke mit weg. Sei darauf gefasst, dass du im schlimmsten Fall, den Server mit frischen Platten neu aufsetzen und das Backup zurückspielen musst.

Für den günstigen Fall, dass ein Hardware-Raidcontroller verbaut ist, versuch bitten ein Controllerlog raus zu ziehen (je nach Controller kann ich auch behilflich sein). Ich kann dann gern mit drüber schauen.


Per Live CD solltest du ja an das Filesystem ran kommen. Versuch bitte das Mini-Dump vom Server zu holen eventuell stehen dort noch weitere nützliche Informationen drin, beispielsweise was genau den Bluescreen ausgelöst hat.

Die Geforce Grafikkarte ist ungewöhnlich für einen Server, ich weiß nicht ob diese in dem System unterstützt wird. Kann auch sein, dass die eine weitere Fehlerquelle ist. Auf den Serverboards meist ist eine Black/Whitelist für PCI Geräte im Bios hinterlegt (nein, diese lässt sich auch nicht bearbeiten). Für Server gibt es andere Grafikkarten.
 
Zuletzt bearbeitet:
Hi Fred

Hui, vielen Dank!

Es ist Eigenbau.


Mainboard: INTEL S1200BTL
RAID: Raid Controller Intel Embedded Server RAID 2 vom Board

Zusätzlich sind noch 2 HDD Kontroller eingebaut (Ohne RAID Nutzung):
https://www.digitec.ch/de/s1/product/digitus-4-port-sata-3-pci-e-karte-kontrollerkarte-3839704
Der andere weiss ich gerade nicht, hat aber nur 2 SATA Anschlüsse, ist ein billig Teil^^

Auch dabei: https://www.digitec.ch/de/s1/produc...ackplane-sassata-2-festplatte-zubehoer-290114


Aktuell läuft er wieder. Frag mich nicht wieso, habe gestern alles versucht. Er ist mir sogar im abgesicherten Modus abgestürzt.
Daher habe ich nun die Möglichkeit direkt alles anzuschauen.

Du hast Recht, der Rebuild hat auf beiden RAIDs begonnen. Am Anfang auf dem Desktop (war und ist enorm langsam durch den Rebuild) klang eine oder 2 Festplatten als würden sie, ka ist schwer zu beschreiben. Ist so ein klaggsen mit etwas piepsen? xD

Ich glaube da ist er sonst auch mit dem Bluescreen weg, was gestern meine Vermutung auf die Platten verstärkte.

Habe ihn dann mal eine Stunde ausgeschaltet gelassen, dann ging es eben wieder und er kam wohl über diese "Fehler" hinweg beim Rebuild, wenn es die Platten im RAID sind.

RAID Rebuild und eine Auffälligkeit in den Ereignissen:


Die Meldung mit den PCI Error ist 4 mal gestern aufzufinden, aber das auf ca. 20 Abstürze.
Vlt. ein HDD Kontroller defekt?


Die Grafikkarte ist nur drin, weil sie Silent gekühlt wird und auch schon im vorherigen "Server" war, der eigentlich nur ein normaler WIn7 Rechner war. Hab auch noch viele andere Quadros rumliegen zum testen.

Achja, 2 Platten werden nicht mehr erkannt. Evtl. waren es auch die. Aber wohl eher weniger.


Ein Backup werde ich mal Schritt für Schritt machen von dem System.

VIELEN LIEBEN DANK!


Zudem ist das hier im LOG des RAID einige male aufzufinden:

ID = 113
SEQUENCE NUMBER = 3014
TIME = 11-07-2015 07:10:20
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:1No addtional sense information, CDB = 0x2f 0x00 0x2c 0xe4 0x48 0xb6 0x00 0x40 0x00 0x00 , Sense = 0x70 0x00 0x03 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x80 0x00 0x02

ID = 111
SEQUENCE NUMBER = 3013
TIME = 11-07-2015 07:10:10
LOCALIZED MESSAGE = Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:1 Location 0x2ce448b5

ID = 113
SEQUENCE NUMBER = 3012
TIME = 11-07-2015 07:10:10
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:1No addtional sense information, CDB = 0x2f 0x00 0x2c 0xe4 0x48 0xb5 0x00 0x40 0x00 0x00 , Sense = 0x70 0x00 0x03 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x80 0x00 0x02

ID = 111
SEQUENCE NUMBER = 3011
TIME = 11-07-2015 07:10:00
LOCALIZED MESSAGE = Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:1 Location 0x2ce448b4

ID = 113
SEQUENCE NUMBER = 3010
TIME = 11-07-2015 07:10:00
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:1No addtional sense information, CDB = 0x2f 0x00 0x2c 0xe4 0x48 0xb4 0x00 0x40 0x00 0x00 , Sense = 0x70 0x00 0x03 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x80 0x00 0x02

ID = 111
SEQUENCE NUMBER = 3009
TIME = 11-07-2015 07:09:48
LOCALIZED MESSAGE = Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:1 Location 0x2ce448b3

ID = 113
SEQUENCE NUMBER = 3008
TIME = 11-07-2015 07:09:48
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:1No addtional sense information, CDB = 0x2f 0x00 0x2c 0xe4 0x48 0xb3 0x00 0x40 0x00 0x00 , Sense = 0x70 0x00 0x03 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x80 0x00 0x02

ID = 111
SEQUENCE NUMBER = 3007
TIME = 11-07-2015 07:09:45
LOCALIZED MESSAGE = Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:1 Location 0x2ce448b2

ID = 113
SEQUENCE NUMBER = 3006
TIME = 11-07-2015 07:09:45
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:1No addtional sense information, CDB = 0x2f 0x00 0x2c 0xe4 0x48 0xb2 0x00 0x40 0x00 0x00 , Sense = 0x70 0x00 0x03 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x80 0x00 0x02

ID = 111
SEQUENCE NUMBER = 3005
TIME = 11-07-2015 07:09:34
LOCALIZED MESSAGE = Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:1 Location 0x2ce448b1

ID = 113
SEQUENCE NUMBER = 3004
TIME = 11-07-2015 07:09:34
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:1No addtional sense information, CDB = 0x2f 0x00 0x2c 0xe4 0x48 0xb1 0x00 0x40 0x00 0x00 , Sense = 0x70 0x00 0x03 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x80 0x00 0x02

ID = 111
SEQUENCE NUMBER = 3003
TIME = 11-07-2015 07:09:31
LOCALIZED MESSAGE = Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:1 Location 0x2ce448b0


EDIT:
Achja CPU Temps sind bei 35°
 
Zuletzt bearbeitet:
da haste ja einiges an Platten drin :) - welches Modell bzw. schon die selben?

wenn ich das richtig verstanden(überflogen) habe, hat dein Board nicht soviel Sata Anschlüsse und du hast dies über 2 Adapter bzw. per PCI kompensiert?

wie ist der PCI-Slot eingestellt?
vielleicht ist es auch nur ein "Handling" Problem des Raid Systems... - wie darf man das verstehen jene Platten die am PCI hängen laufen nicht über RAID?
 
Hi All,


schön dass wir noch etwas Kompetenz dazubekommen haben :)

Ich sehe 2 Hauptproblem:

1. die defekten Platten und das dadurch defekte Raid, weshalb der Server wohl nur noch sporadisch bootet.
2. der PCI-Fatal-Error


zu Nummer 1:

Alle Festplatten, die "klicken" sind definitiv defekt. Festplatten sollten solche Geräusche nicht von sich geben.
Diese kannst du theoretisch schon mal ausbauen - eine Fehlerquelle weniger.
Hatte es schon häufig, dass eine oder mehrere defekte Festplatten so viele Fehler geworfen haben, dass sich der Controller deaktiviert hat bzw. kein Lebenszeichen mehr von sich gegeben hart.
Solltest du gerade Zugriff auf den Server haben, dann mach bitte so schnell wie möglich ein Backup von allem Wichtigen.
Abhängig von den ausgefallenen Festplatten, kannst du dann ja sehen ob sich die beiden Raids noch retten lassen.

Erinnerung: Beim Raid 1 kann die hälfte der physischen Platten, ohne Datenverlust ausfallen. Beim Raid 5 darf nur 1 physische Platte ausfallen, ansosnten besteht auch hier Datenverlust.


zu Nummer 2:

Hast du noch Zugriff auf die Geräteverwaltung? Falls ja, dann schau bitten bei allen Geräten nach Bus, Gerät und Funktion.
Das Gerät mit der Bezeichnung "Bus 0, Gerät 1, Funktion 2" löst den PCI Fehler (also den Bluescreen) aus.

Hier lässt sich das finden: PCI.PNG


Klar, ist eine mühselige Aufgabe. Unter einem Linux wäre es einfachen.
Wenn du die Möglichkeit hast ein beliebiges Derivat per Live CD zu booten würde es dir einiges an Arbeit ersparen.
Das Kommando unter Linux ist: "lspci" oder "dmidecode"
Dort sind dann entsprechende Informationen mit einem Doppelpunkt getrennt. Bus 0, Gerät 1, Funtion 2 würde dann so aussehen 00:01:02.
Dahinter steht dann welche Komponente es ist.
Sollte Firmware und Treiber bereits auf den aktuellen Stand sein, ist diese Komponente defekt.
Gern kannst du auch wieder einen Screenshot anhängen und wir schauen gemeinsam drüber.


Das Software Raid ist ein kleines Problem. Dieses wir über das Windows verwaltet. Mit anderen Worten: Bootet dein OS nicht mehr sauber oder hat sonst irgendwelche Problem, sieht es ebenso schlecht für dein Raid aus.

zum Controller Log:


ID = 111
SEQUENCE NUMBER = 3003
TIME = 11-07-2015 07:09:31
LOCALIZED MESSAGE = Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:1 Location 0x2ce448b0



ID = 113
SEQUENCE NUMBER = 3004
TIME = 11-07-2015 07:09:34
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = -:-:1No addtional sense information, CDB = 0x2f 0x00 0x2c 0xe4 0x48 0xb1 0x00 0x40 0x00 0x00 , Sense = 0x70 0x00 0x03 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x80 0x00 0x02

Der Rebuild funktioniert schon nicht mehr. Dieses Raid ist komplett defekt. Alle Platten aus diesem Raid müssen ausgetauscht werden.
Versuchst du nur eine Platte auszutauschen kopieren sich die Fehler wieder auf die frische Platte. Einziger Weg: Neuinstallation, dafür das Backup.





@Waelder:

Er meinte ja, dass es alles SATA Platten sind. Hersteller und Kapazität spielen an der Stelle erst einmal keine Rolle.
Ich hoffe mal nicht, dass SATA und SAS Platten gemixt betrieben werden.
Selbst wenn unterschiedliche Kapazitäten im selben Raid verbaut sind, dann steht nur die Kapazität der kleinsten Platte für das Raid zur Verfügung. Ich nehm mal an, dass das Raid 1 über den Intel Raidcontroller verwaltet wird, das Raid 5 über den Software Raidcontroller direkt am Board hängen und alle anderen Platten werden wohl über die SATA Controller angesprochen. Zugeben, keine schöne Konfiguration aber durchaus machbar. Trotzdem guter Ansatzpunkt.


Ich hoffe es handelt sich bei dem Server um einen privaten, so dass dir durch die Ausfallzeit keine Kosten oder verärgerte User entstehen, die gerade nicht arbeiten können.

Ansonsten beim nächsten mal etwas Geld in die Hand genommen und nen kleinen Dell Server mit mind. ProSupport gekauft, dann können wir das ganze auch schneller am Telefon klären ;)
 
Zuletzt bearbeitet:
Hui

Also:

Ein Gerät mit diesem Standort habe ich nicht gefunden. Am nächsten kommt noch die CPU / embedded GPU mit der Adresse 0:1:0


Hab ein Krampf in der Hand durchs geklicke :D
Habe auch die nicht angezeigten eingeblendet.

Hm sonst ist mir nur das aufgefallen:


scheint aber nur ein Treiber Problem zu sein.




Die Platten haben seit dem nicht mehr geklappert. Denke war hauptsächlich bei dem RAID1 mit dem System der Fall.
Habe den Server in der Zwischenzeit mal neu gestartet. Zickte wieder rum zu beginn, beim 4 Versuch gings dann ohne Bluescreen und läuft seit dem wieder.

Nein der Server ist zum Glück Privat. Also ja zum Glück, besser als wenn anders :D
SAS Platten sind nicht verbaut, alles SATA.
RAIDs haben alles gleich grosse Platten und meistens die selben Modelle des Herstellers.

Was auch noch ist, er bringt die Datenträgerverwaltung nicht auf. Lädt ewig.

Rebuilds sind alle durch. Angeblich erfolgreich...


Schwierig :(

Jedenfalls ein grosses Dankeschön an Dich!
 
Hi Demidragon,

ist auch das Bios vom Board aktuell?
Hast du noch andere Fehlermeldung zu Bus, Gerät und Funktion (eventuell mit anderen Ports)?
Bei dem Rootport der CPU kann es so gut wie alles sein. CPU, Board, RAM, eine PCI Karte.....

Bei den Rabuilds stand jedoch im Log, dass mehrere Fehler aufgetreten sind.
PD -:-:1 - scheint wohl die physisch zweite Festplatten zu sein, wenn man davon ausgeht, dass bei 0 angefangen wird mit durchzählen.
Ich würde jedoch beide Festplatten ersetzen.

Was man noch testen könnte, wäre:
- Alle Komponenten aus dem System ausbauen, die nicht zum booten gebraucht werden. (Also nur das Board + CPU, eine RAM Modul und das Raid 1 mit Controller drin lassen)
- ebenso alles vom Server abziehen was nicht gebraucht wird, am Besten nur Tastatur, Maus und Bildschirm dran lassen.
- Bootet der Server wieder normal, dann die Komponenten wieder nach und nach dazustecken, bis das Problem wieder auftritt (die zuletzt gesteckte Komponente schein wohl den Fehler zu verursachen)
- Bootet der Server in der minimal Konfiguration nicht, dann auch noch den Raidcontroller ausbauen und mit einer Live CD das System booten (Bei Linux gibt es dann einen Purplescreen oder einen Kernel-Panic error, wenn das Problem weiterhin besteht)
- bootet der Server immer noch nicht könnte es das Board oder die CPU sein, ein CPU defekt ist eher unwahrscheinlich - häufiger gehen Boards kaputt

Auch die Festplatten, die "geklappert" haben, würde ich austauschen - Festplatten sollten so etwas nicht tun.
 
Huhu

Bios muss ich abklären.
Andere Meldungen habe ich nicht gesehen.

Muss ich noch rausfinden, welche die erste und welche die 2. Platte ist :D
Hm wenn ich beide ersetzen muss, muss ich ja eh neu aufsetzen. (Auf was ich absolut kein Bock habe :( )
RAID 1 dachte ich, wäre für das System am besten. Wenn eine Platte hopss geht, austauschen und fertig. Aber wenn er die Fehler mitnimmt, ist das ja ziemlich beschiessen -.-


Alles ausbauen hatte ich auch schon im Kopf, aber aufgrund des Aufwands wollte ich erst alles andere mal abklären. Muss ich aber wie es scheint doch machen. Am Weekend sollte ich vlt. dazu kommen.

Welche Platte genau geklappert hat, weiss ich leider nicht. Ist schwierig das rauzuhören :D


Ich melde mich, wenn ich mehr weiss.

Dank Dir!
 
AW: Bluescreen 0x000000124 seit ein paar Tagen Win Server 200

Fehlerxode 124 deutet auf zu wenig cpu vcore hin. Schafft das Netzteil eventuell nicht die Platten zu versorgen? Hört sich für mich nach einem Netzteilproblem/Problem mit der cpu Spannungsversorgung an.
 
Hm, kann ich mal schauen, ob ich das einstellen kann. Das NT sollte das locker schaffen, hatte es ja auch 125 tage ohne veränderung am System hinbekommen. War auch oft unter Volllast bei Render Sessions.

Aber ich schau mal die Spannung an.

Kann ein NT überhaupt ein Bluescreen auslösen? Da ist doch eher, es läuft oder es läuft nicht? :)
 
Wenn das Netzteil defekt ist, kann es ui Spannungsschwankungen oder Störungen kommen, auch am CPU. Daher würde ich t3estweise ein anderes Netzteil probieren. Was hast du überhaupt für ein Netzteil? Das geht aus dem ersten Post nicht hervor bzw. ich habe es wenn überlesen.

Was auch sein kann, ist eine zu schlechte Kühlung der VRMs auf dem Mainboard, dies kann auch starke Spannungsschwankungen oder zu niedrige Spannung verursachen.
 
Dass du im Raid sog. "double Faults" oder "Puncturing" hast, kann dir in jedem Raid passiere.
Deswegen ist es gut, einen Blick ins Controller Log zu werfen. Dort stehen dann auch entsprechende Einträge.

ID = 111
SEQUENCE NUMBER = 3003
TIME = 11-07-2015 07:09:31
LOCALIZED MESSAGE = Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:1 Location 0x2ce448b0

Welche Platte hattest du denn da ersetzt? Die PD0 oder die PD1? Wenn es die PD1 war, kann ein Rebuild funktionieren. Wenn es die PD0 war, sieht es eher schlecht aus, dann sind nämlich beide Platten hinüber (blöd gelaufen, kann aber auch vorkommen - egal in welchem Raid).




Meine Erfahrung von der Arbeit - Absolutes Negativ Beispiel:
Ich habe es bei Geschäftskunden ab und an mal, dass ich mir ein Controller Log anschaue und dann feststellen muss, dass beide Platte im Raid1 zufällig physisch oder logisch defekt sind - dementsprechend ein kritischer Zustand. Ich gebe dann immer meine Empfehlung ab, überlasse die endgültige Entscheidung jedoch dem Kunden :). Häufig bekomme ich 4 Stunden später einen Anruf (kommt bei ca. 25% mit solchen Fällen vor), dass der Server nun gar nichts mehr macht. Da Backups nur etwas für Weicheier sind, gibt es dementsprechend keines. Dannach darf ich dann dem Kunden erklären, dass er sich gerade fürstlich die Daten geschreddert hat. Über Tricks bekommt man das Raid dann vielleicht doch noch mal zum laufen, ansonsten hilft nur noch eine Professionelle Datenrettung - Kostenpunkt: je nach Datenmenge weit in die 10.000er (manchmal auch eine 0 mehr) an Euronen.

Die letzten Worte, des Gespräches davor, sind häufig: "Wissen Sie, ich bin seit ca. 20 Jahren Admin. Ich weiß was ich mache! Ich will nur das Ersatzteil."
 
O-Saft-Killer schrieb:
Wenn das Netzteil defekt ist, kann es ui Spannungsschwankungen oder Störungen kommen, auch am CPU. Daher würde ich t3estweise ein anderes Netzteil probieren. Was hast du überhaupt für ein Netzteil? Das geht aus dem ersten Post nicht hervor bzw. ich habe es wenn überlesen.

Was auch sein kann, ist eine zu schlechte Kühlung der VRMs auf dem Mainboard, dies kann auch starke Spannungsschwankungen oder zu niedrige Spannung verursachen.


Hmm, hab den Deckel seit ein paar Tagen wieder geschlossen gehabt (Glaube ich zumindest) Muss ich mal beobachten, ob das einen unterschied macht.

Netzteil ist ein BeQuiet Straight Power E9-500watt

Das Gehäuse wird aktiv gekühlt von 2x 240mm Lüfter und 2x 120mm Lüftern.Alle Platten haben einen Luftstrom direkt von einem der Lüfter.
Temperaturen der Platten sind zwischen 32-38grad
 
Zurück
Oben