DaveStar
Commander
- Registriert
- Juli 2004
- Beiträge
- 2.868
Heute habe ich mal wieder einen eher ungewöhnlichen Fall.
Beim PC handelt es sich um ein schon ein paar Jahre altes Gerät mit einem AMD FX 8core und 16GB RAM (4x4).
Seit Anfang Dezember (also schon vor den Spectre-Updates ) crasht die Kiste in Windows alle paar Minuten mit einem Bluescreen.
Die Bluescreen Meldungen sind jedoch sehr verschieden (min. vier verschiedene, darunter Unexpected Kernel Nodetrap, Kmode exception not found, quata underflow und irq not less or equal) und auch das jeweilige Verursachermodul ist immer mal wieder ein anderes.
Aufgrund des Fehlerbildes bin ich von defektem RAM ausgegangen und habe entsprechend eine Überprüfung mit memtest86+ vorgenommen. Doch jetzt wirds erst richtig lustig:
Wenn ich die gesamten 16GB teste, dann bleibt er zuerst eine ziemliche Weile ohne Fehleranzeige, dann hagelt es die Fehler aber plötzlich 100fach.
Also war mein nächster Gedanke: Mindestens eines der vier RAM Module wird wohl defekt sein, finden wir raus welches.
Folglich jedes der vier Module einzeln getestet. Dabei traten dann jedoch keinerlei Fehler auf. Bei keinem der vier Module. (Alle im ersten Bank getestet.)
Mein nächster Verdacht war demnach: Evt. ist eine der RAM-Bänke defekt oder es stimmt im Zusammenspiel mit mehreren RAM-Modulen etwas nicht. Daher mal experimentell nur zwei der vier Module eingebaut und wieder getestet. Resultat: Keine Fehler.
Aufgrund dieser nunmehr fehlerlos ge(mem-)testeten Konstellation habe ich wieder in Windows gebootet und hatte schon leise Hoffnung, dass das Problem gelöst sein könnte.
Doch leider zu früh gefreut: Nach wie vor alle paar Minuten ein Bluescreen.
Daher noch kurz die Festplatte getestet (smartmontools), hier aber auch kein Fehler festgestellt.
Als nächstes wollte ich mal schauen ob sich die Problematik unter Last "Beschleunigen" lässt. (Mir war nämlich aufgefallen dass beim Test mit allen vier Modulen der die RAM-Fehler ergeben hatte die CPU-Temperatur vergleichsweise hoch war, nämlich im Durchschnitt über 10°C höher als bei den Tests mit nur einem oder zwei Modulen.)
Also habe ich Prime95 auf das System losgelassen, wobei folgende "Erkenntnis" gewonnen wurde:
1. Die Last durch Prime95 scheint keinen Einfluss darauf zu haben, wie rasch die Kiste Bluescreened
2. Jedoch meldete einer der acht "Worker" in Prime95 jedesmal sofort einen "SUMOUT" Fehler und brach ab.
Meine Mutmassung wäre nun, dass allenfalls gar nicht der RAM oder das Board einen Hau hat, sondern einer der 8 cores der CPU im Eimer ist.
Was meint ihr? Schonmal so einen Fall gesehen?
Beim PC handelt es sich um ein schon ein paar Jahre altes Gerät mit einem AMD FX 8core und 16GB RAM (4x4).
Seit Anfang Dezember (also schon vor den Spectre-Updates ) crasht die Kiste in Windows alle paar Minuten mit einem Bluescreen.
Die Bluescreen Meldungen sind jedoch sehr verschieden (min. vier verschiedene, darunter Unexpected Kernel Nodetrap, Kmode exception not found, quata underflow und irq not less or equal) und auch das jeweilige Verursachermodul ist immer mal wieder ein anderes.
Aufgrund des Fehlerbildes bin ich von defektem RAM ausgegangen und habe entsprechend eine Überprüfung mit memtest86+ vorgenommen. Doch jetzt wirds erst richtig lustig:
Wenn ich die gesamten 16GB teste, dann bleibt er zuerst eine ziemliche Weile ohne Fehleranzeige, dann hagelt es die Fehler aber plötzlich 100fach.
Also war mein nächster Gedanke: Mindestens eines der vier RAM Module wird wohl defekt sein, finden wir raus welches.
Folglich jedes der vier Module einzeln getestet. Dabei traten dann jedoch keinerlei Fehler auf. Bei keinem der vier Module. (Alle im ersten Bank getestet.)
Mein nächster Verdacht war demnach: Evt. ist eine der RAM-Bänke defekt oder es stimmt im Zusammenspiel mit mehreren RAM-Modulen etwas nicht. Daher mal experimentell nur zwei der vier Module eingebaut und wieder getestet. Resultat: Keine Fehler.
Aufgrund dieser nunmehr fehlerlos ge(mem-)testeten Konstellation habe ich wieder in Windows gebootet und hatte schon leise Hoffnung, dass das Problem gelöst sein könnte.
Doch leider zu früh gefreut: Nach wie vor alle paar Minuten ein Bluescreen.
Daher noch kurz die Festplatte getestet (smartmontools), hier aber auch kein Fehler festgestellt.
Als nächstes wollte ich mal schauen ob sich die Problematik unter Last "Beschleunigen" lässt. (Mir war nämlich aufgefallen dass beim Test mit allen vier Modulen der die RAM-Fehler ergeben hatte die CPU-Temperatur vergleichsweise hoch war, nämlich im Durchschnitt über 10°C höher als bei den Tests mit nur einem oder zwei Modulen.)
Also habe ich Prime95 auf das System losgelassen, wobei folgende "Erkenntnis" gewonnen wurde:
1. Die Last durch Prime95 scheint keinen Einfluss darauf zu haben, wie rasch die Kiste Bluescreened
2. Jedoch meldete einer der acht "Worker" in Prime95 jedesmal sofort einen "SUMOUT" Fehler und brach ab.
Meine Mutmassung wäre nun, dass allenfalls gar nicht der RAM oder das Board einen Hau hat, sondern einer der 8 cores der CPU im Eimer ist.
Was meint ihr? Schonmal so einen Fall gesehen?