Neues System verursacht Crashes und WHEA errors

BlechpiratPhil

Cadet 1st Year
Registriert
Feb. 2024
Beiträge
11
Hallo zusammen, bin leider mit meinem aktuellen System absolut unzufrieden und mit meinem Latein am Ende. Das System ist recht neu, bis auf die Grafikkarte und die AiO, welche ich mir bereits im September 2022 angeschafft habe. So sieht das System gerade aus:
  • Prozessor (CPU): Intel Core i9-14900K 8C+16c
  • Arbeitsspeicher (RAM): 64GB Corsair Vengeance DDR5-6600 DIMM CL32
  • Mainboard: MSI MEG Ace Intel Z690 So.1700 DDR5
  • Netzteil: be quiet! Straight Power 12 1200W Plus Platinum
  • Gehäuse: Fractal Define 7
  • Grafikkarte: 24GB MSI GeForce RTX 3090 Ti Suprim
  • HDD / SSD: Samsung 990 PRO NVMe M.2 SSD, 4 TB
  • Kühlung: be quiet! Silent Loop 2 360mm

Folgende Probleme habe ich:

Im Prinzip habe ich mehrere Probleme, die evtl. am Ende sogar auf die selbe Hardware zurückzuführen sind. Momentan ist mir aber noch nicht klar was das Problem ist.

1. WHEA Logger errors. In der Ereignisanzeige sehe ich jeden Tag mehrmals verschiedene WHEA Logger Errors. Spezifisch sind das diese drei, andere habe ich bisher noch nicht gesehen:

Behobener Hardwarefehler.
Gemeldet von Komponente: Prozessorkern
Fehlerquelle: Corrected Machine Check
Fehlertyp: Internal parity error
Prozessor-APIC-ID: 48

Behobener Hardwarefehler.
Gemeldet von Komponente: Prozessorkern
Fehlerquelle: Corrected Machine Check
Fehlertyp: Translation Lookaside Buffer Error
Prozessor-APIC-ID: 0

Schwerwiegender Hardwarefehler. Ein Fehlereintrag mit einer Beschreibung des Zustands befindet sich im Datenbereich dieses Ereignisses.


2. Instabile CPU. Könnte sein, dass das nichts mit dem Problem zu tun hat, da kenne ich mich nicht allzu sehr aus, mir ist aber aufgefallen, dass das BIOS nach dem Einstellen der Kühlungsart auf Wasserkühlung die Power Limits auf 4096 Watt stellt, also quasi unlimited. Wenn ich mit dieser Einstellung code compile, nimmt sich die CPU über 400 Watt und der Rechner freezt nach etwa 20 Sekunden. Beim Restart leuchtet dann die CPU Error LED am Mainboard, weshalb ich dann nochmal restarten muss. Ich hab mal rein interessehalber die Limits getestet, bei 300 Watt ist es dann kein Freeze mehr, sondern ein Crash, leider ohne dump und wirklich nur bei den von Intel empfohlenen 253 Watt läuft das Ding beim code compilen stabil. Selbst bei 288 Watt hatte ich noch random compile errors. Ich würde erwarten, dass die CPU throttled und nicht sofort das System crasht, liege ich da falsch?

3. Software-Fehler, die sehr random sind und eher wie Hardware-Probleme aussehen. Software, die ich benutze stürzt oft mit den selben Fehlern ab, auch nach Neuinstallation des ganzen Systems. Die Fehlermeldungen hier gehen eher in Richtung GPU und hängen mit Shader Workern und den Grafiktreibern zusammen.

Folgende Schritte hab ich bereits unternommen:

  • Betriebssystem neu installiert mit allen Updates
  • Alle Treiber sowie BIOS aktualisiert
  • XMP deaktiviert
  • RAM-Module physisch getestet, sind richtig eingerastet
  • RAM-Module technisch mit Memtest getestet, keine Fehler
  • CPU Power Limit auf die von Intel empfohlenen 253 Watt gestellt
  • Neues Netzteil benutzt
Ich bin gerade mit Intel in Kontakt, da geht es aber eher um sehr generisches Troubleshooting das zu nichts führt, da könnte ich mir aber von Amazon die CPU retournieren lassen. Will das aber nur machen, wenn die CPU als Problem identifiziert ist. Ansonsten werden ich mir am Wochenende die Grafikkarte eines Bekannten leihen und damit testen. Jetzt gerade läuft Prime um zu schauen ob ich irgendwie einen Crash provozieren kann oder sich ein defekter Worker entpuppt.

Ich hänge hier noch zwei Dumps der letzten Tage an.

Ansonsten bin ich froh über jeden Vorschlag oder Idee um das Problem zu identifizieren. Danke schonmal!
 

Anhänge

WHEA Fehler und dann noch gleich mit Hinweis auf die CPU bzw einen Kern,
hat schon mal was eindeutiges. Zumal das bei Intel eher was selteneres ist.
Ergänzung ()

BlechpiratPhil schrieb:
RAM-Module technisch mit Memtest getestet, keine Fehler
Hast du dafür diesen benutzt:
"MemTest86 Free 10.7 Build 1000 " ?
Wenn nicht, mach das vllt am besten nochmals damit.
 
Wenn da mehrere Einträge sind, einfach mal schauen, ob es immer dieselben IDs sind, oder die wechseln.
 
BlechpiratPhil schrieb:
da könnte ich mir aber von Amazon die CPU retournieren lassen.
Verkauf und Versand von Amazon?
Anrufen bei Amazon, dann hast du in zwei Tagen Ersatz und die hier muss innerhalb 30 Tagen zurück.
Kannst aber noch 5 Seiten abwarten und je nachdem den verlinkten Memtest86 noch machen.
 
  • Gefällt mir
Reaktionen: lazsniper
Deine CPU verfügt über eine GPU, ich würde die Karte ausbauen und System testen. Kommt immer noch was war es nicht die Karte.
 
  • Gefällt mir
Reaktionen: BFF
Von der Grafikkarte war noch gar nicht die Rede und die Hinweise deuten erst mal Richtung CPU,
was die WHEA und diesbezüglichen Hardwarefehler betrifft.
Der Nvidia Treiber wird in der einen Dumpfile zwar auch erwähnt, muss aber nichts heißen.
Ich denke eher es liegt wohl am RAM.
Ergänzung ()

Ah doch, hier:
BlechpiratPhil schrieb:
Ansonsten werden ich mir am Wochenende die Grafikkarte eines Bekannten leihen und damit testen.
Versuchs mal mit der iGPU, alles probieren was möglich ist.
 
  • Gefällt mir
Reaktionen: BFF
Kleines Update:

Prime95 hat nach 30 Minuten gerade bei 5 workern gestoppt mit der Meldung "Fehler bei Worker #2: FATAL ERROR: Rounding was 0.4901953125, expected less than 0.4". Der Test war mit XPM aktiviert, teste gerade noch ohne XMP.

Nickel schrieb:
Hast du dafür diesen benutzt:
"MemTest86 Free 10.7 Build 1000 " ?
Wenn nicht, mach das vllt am besten nochmals damit.

Genau damit, kann ich aber gern nochmal machen. Ist es dabei egal ob XMP aktiviert ist oder nicht? Hatte auch irgendwo mal gelesen, dass Memtest nicht immer alle Fehler erkennt.

mae1cum77 schrieb:
Wenn da mehrere Einträge sind, einfach mal schauen, ob es immer dieselben IDs sind, oder die wechseln.

Hab gerade mal durchgesehen, sind tatsächlich verschiedene IDs. Internal Parity beispielsweise IDs 16, 24, 40, 48, 56, Translation Lookaside Buffer 0, 32, 48. Was hat es denn mit den IDs auf sich?

Nickel schrieb:
Verkauf und Versand von Amazon?
Anrufen bei Amazon, dann hast du in zwei Tagen Ersatz und die hier muss innerhalb 30 Tagen zurück.
Kannst aber noch 5 Seiten abwarten und je nachdem den verlinkten Memtest86 noch machen.

Wäre ne einfache Option, ja. Wollte davor aber noch alles ausschließen, evtl. spar ich mir ja den Ausbau von Kühlung und dem ganzen Geraffel.

bettenlager schrieb:
Deine CPU verfügt über eine GPU, ich würde die Karte ausbauen und System testen. Kommt immer noch was war es nicht die Karte.

Guter Punkt, gar nicht dran gedacht, werde ich morgen mal versuchen und damit testen. Evtl. isses ja sogar die integrierte GPU. Kann man übers BIOS ausschalten um das auch auszuschließen? Vllt. nimmt der compiler auch die falsche GPU.

Vielen lieben Dank schonmal für die schnellen Antworten!
 
Zuletzt bearbeitet: (CPU -> GPU)
  • Gefällt mir
Reaktionen: s1ave77
BlechpiratPhil schrieb:
64GB Corsair Vengeance DDR5-6600 DIMM CL32

Wie ist der eingestellt?

BlechpiratPhil schrieb:
Internal parity error
Prozessor-APIC-ID: 48

BlechpiratPhil schrieb:
Ich bin gerade mit Intel in Kontakt

Hat Intel Dir das Testtool genannt?

https://www.intel.com/content/www/us/en/download/15951/19792/intel-processor-diagnostic-tool.html
https://www.intel.com/content/www/us/en/support/articles/000059556/processors.html
 
  • Gefällt mir
Reaktionen: s1ave77
BlechpiratPhil schrieb:
Genau damit, kann ich aber gern nochmal machen.
Musst du dann nicht nochmal machen.
BlechpiratPhil schrieb:
Prime95 hat nach 30 Minuten gerade bei 5 workern gestoppt mit der Meldung "Fehler bei Worker #2: FATAL ERROR: Rounding was 0.4901953125, expected less than 0.4".
Lass die CPU austauschen.
 
BFF schrieb:

Hab keine Timings oÄ. umgestellt. Läuft mit dem stock XMP-Profil, falls das gemeint ist.

Das Tool hat mir Intel genannt, hab ich getestet, lief aber ohne Probleme durch.

So wie es aussieht, läuft Prime95 jetzt ohne XMP auch ohne Probleme seit 30 Minuten.
 
BlechpiratPhil schrieb:
Heißt die CPU schafft die 6600 MHz nicht?

Dort hat jemand selbige CPU und Deinen Fehler.

https://www.reddit.com/r/techsupport/comments/17qyxvz/whea_logger_apic_id_48/

1708044151083.png
 
BlechpiratPhil schrieb:
Heißt die CPU schafft die 6600 MHz nicht?
Ja, womöglich.
Bring dein Mainboard auf den aktuellen Stand, das kann helfen.
Beachte aber die Hinweise dazu, oftmal ist hier zuerst ein Intel ME Firmware Update notwendig.
Mach das BIOS Update nur mit einem RAM Modul im empfohlenen Slot und ohne XMP.
Ergänzung ()

@BFF, XMP war schon immer OC, auch vor 20 Jahren.
Wenn man sich nur auf die CPU Specs bezieht, hier DDR5 5600, hätte man XMP schon ewig abschaffen können.
Ergänzung ()

Intel ME Firmware war gemeint oben, bzgl. BIOS Update und Hinweise, @BlechpiratPhil .
Ergänzung ()

Auch die aktuelle BIOS Version bringt:
"- Improve memory compatibility."
 
Zuletzt bearbeitet:
BFF schrieb:

Alles klar, danke. BIOS hab ich gestern upgedated, war ne nagelneue Version von vor zwei Wochen. Der Speicher läuft ohne XMP aktiv auf 3200 MHz, wie kriege ich den dann auf die 5600? Gibts da Tutorials?

Bevor ich das System so zusammengestellt hab, hatte ich mich ein bisschen eingelesen und mehrmals gelesen, dass theoretisch mit Glück auch 8000 MHz funktionieren würden. Hab ich dann quasi einfach ne schlechte CPU erwischt, dass die keine 6600 MHz schafft oder wie genau verhält es sich damit?
 
BlechpiratPhil schrieb:
BIOS hab ich gestern upgedated, war ne nagelneue Version von vor zwei Wochen.
Na dann.
Hoffentlich auch die Intel ME zuvor aktualisiert, das ist hier bei Intel durchaus wichtig.
Asus beschreibt das etwas besser beim BIOS Download als MSI wie man sieht,
dass das wichtig ist.
 
Nickel schrieb:
Intel ME Firmware war gemeint oben, bzgl. BIOS Update und Hinweise, @BlechpiratPhil .

Du meinst den Intel Management Engine Driver?

Das hab ich tatsächlich noch gar nicht aktualisiert bzw. installiert. Ich dachte Windows holt sich das automatisch via Update.
 
Zuletzt bearbeitet: (Ergänzung)
Nicht den Treiber sondern die Firmware und später am besten den passenden, empfohlenen Treiber.
Aber wichtig bzgl. BIOS ist nur die Firmware.
 
Zurück
Oben