Freeze, Neustart oder BSOD WHEA

Krabbat

Newbie
Registriert
März 2020
Beiträge
6
Mein im Prinzip neu zusammengeschraubter PC mit neuem Windows bleibt in schwer vorhersehbaren Abständen (Manchmal nur Minuten nach Neustart, manchmal einige Stunden) hängen (Freeze), startet unwillkürlich neu oder hat einen Bluescreen WHEA Uncorrectable Error ohne das ein Dump-File erstellt wird. Bleibt bei 0% hängen.

Im Prinzip weiss ich, dass das vermutlich ein Hardware-Fehler ist da Windows neu installiert ist, Bios aktuell und auf Default-Werten, Treiber alle aktuell und nicht benötigte Hardware abgekoppelt wurde.

Verwendete Hardware:
Asus Rog Strix Z390-I Gaming (Neu 2.Wahl)
Intel I9-9900K (Neu)
2x16GB Crucial Ballistix Sport 3200 (Neu)
Samsung 970 EVO Plus (Neu)
MSI Geforce RTX2070 (aus altem PC)
NZXT Kraken 52 Wasserkühler (Neu)
be quiet! Straight Power 11 550W Platinum

Bereit gewechselt wurde mal der Ram und Grafikkarte. Der Fehler bleibt.

Ich würde gern die Fehlerquelle ein wenig mehr eingrenzen. Infrage kämen ja: Board, Professor, NVMe oder Netzteil. Logfiles von HWinfo helfen nicht, da beim Auftreten des Fehlers nicht mehr geloggt wird. Einzige Aufälligkeit: Die Temperatur des Controlers der 970 Evo Plus. Die geht bei viel schreiben gern mal Richtung 100Grad. Aber das scheint nicht die Ursache, da ich den Vorgang mehrfach beobachten konnte und das System stabil blieb. Zudem scheint das auch nicht ungewöhnlich.

Hat wer noch Ideen wie ich den Bösewicht finden kann, ohne alles zu tauschen?

Schon vorab vielen Dank!
 
Gibt es den Ordner C:/Windows/Minidump?

Der Fehler WHEA weist auf ein Problem mit dem Prozessor hin.
 
Schrieb ich bereits, bis zum Dump kommt es nicht. Vorher schon freeze.
 
Wie gesagt WHEA Fehler sind Fehler mit dem Prozessor. in dieser Richtung musst Du nach der Ursache suchen.

1. Passt der Prozessor zum Mothrboard?
2. Bios auf dem aktuellen Stand?
3. Chipsatztreiber vom Motherboard Hersteller neu installiert?
4. Ist der Prozessor übertaktet?
5. Wird der Prozessor zu warm?
6. ist der Prozessor defekt?

-----------

Hier kannst du nachlesen wie der Rechner eingestellt sein muss damit Du eine Dumpfile erhältst.
https://www.informationsarchiv.net/articles/2179/
 
1. Ja
2. Ja
3. Ja
4. Nein
5. Nein
6. Gute Frage 😉

Mich irritiert, das der Fehler manchmal erst nach Stunden auftritt. Und das nach grafisch und Prozessorlastiges arbeiten mit der Unreal Engine.
 
Wenn Du Punkt eins bis fünf ausschließen kannst, bleibt nur ein defekt des Prozessor.
Dann würde ich den Prozessor vom Händler oder Hersteller austauschen lassen.
 
whea fehler deuten auf instabilen core hin. spannung erhöhen oder takt reduzieren. alternativ mal die LLC erhöhen (in kleinen schritten, und nie den maximalwert) vermutlich liegt das problem im turbo; die cpu boostet in die instabilität oder das board hat einen zu hohen ripple bei der vcore und das ganze wird instabil.
 
  • Gefällt mir
Reaktionen: Mini-Max
Silver Server schrieb:
Der Fehler WHEA weist auf ein Problem mit dem Prozessor hin.
Ich hab in den letzten 15 Jahren genau ein einziges Mal einen Fehler auf den Prozessor zurückführen können. Das ist schlicht Quatsch und unwahrscheinlich, egal ob Intel oder AMD.
Silver Server schrieb:
, bleibt nur ein defekt des Prozessor.
So ein Quatsch.

Man beginnt erstmal mit den wichtigen und verdächtigen Komponenten:
Was sagt Memtest86?
 
  • Gefällt mir
Reaktionen: Knito, Snoop7676, Mini-Max und eine weitere Person
Jetzt mal ernsthaft so keiner stört sich daran das die Nvme 100 Grad warm wird ? Samsung gibt für das ding 0-70 Grad Betriebstemperatur an auch wenn das eventuell nicht der auslöser für den Fehler sein mag besteht da Handlungsbedarf.

Auch wenn sich Hersteller gerne mal absichern ist 100 Grad eindeutig viel zu viel wenn die Werte korrekt sind natürlich. Das wären dann sogar noch 15 Grad mehr als die Maximale Temperatur die die Nvme laut Samsung abkann wenn sie nicht im Betrieb ist.

Wie man das als nicht ungewöhnlich ansehen kann ist mir schleierhaft.
 
  • Gefällt mir
Reaktionen: rg88
Schonmal mit offenen Gehäuse getestet?
 
Grundsätzlich sollte die SSD dann drosseln wenn es ihr zu warm wird, ich denke also nicht dass dies der Grund ist. Bei richtig Last sehe ich das NT auch als leicht grenzwertig an, der 9900K ist auch kein Kostverächter.

Ich würde das Ganze mal auf der Kartonage des MB aufbauen und dann laufen lassen.
Ggf. auch mal separate Kühler anbringen um z.B. die SSD zusätzlich zu kühlen.
Du wirst jedenfalls viel durchtesten müssen um die schuldige Hardware dingfest zu machen.

Wie schon oben beschrieben würde ich mal Memtest machen und diesen mal mit 2133 oder 2666 laufen lassen, ggf. mag die CPU nicht mehr und spielt Mimose.
Ein echter Defekt einer CPU ist m.E. recht selten aber natürlich auch nicht auszuschließen.
 
WHEA Uncorrectable Error bekam ich vor kurzem immer mit meinem 4790k beim ausloten inwieweit ich übertakten kann. Erst als ich die richtige Spannung gefunden habe, verschwand dieser Fehler. Da du geschrieben hast das du im Bios alles auf default gestellt hast und Boards gern dazu neigen bei Auto Einstellungen zu viel Vcore zu geben, würde ich einfach mal dort ansetzen und ggf. eine fixe Vcore setzen, z.B. 1.25v bei 4,7Ghz sollte passen.
 
Einfach mal in der Suche von Windows "Zuverlässigkeitsverlauf" eintippen. Wahrscheinlich werden dort vor dem "uncorrectable Error" weitere Fehler gelistet sein. Einfach mal schauen und hier mitteilen.

Asus Boards haben die Eigenschaft, nach dem Laden von XMP, viel zu hohe Spannungen bei IMC und SA anzulegen. Außerdem ist es wichtig zu wissen, welches LLC-Level das Board anlegt.

Am besten CMOS-Reset machen und ohne XMP zu laden einmal booten und schauen, ob alles läuft.
 
Hier würde ich auch erstmal Fragen wie die Vcore eingestellt / ausgelotet wurde?
Beim Ram würde ich sagen wird es bei der Generation meistens erst so ab 4ghz schwieriger je nach ICs.
Das Board unterstützt bis zu 4600 Ram Takt. Was der Ram Controller der Cpu schafft ist auch relevant, aber ich wüsste nicht warum hier die von Intel gegebene Spec eine Bedeutung haben sollte.

Laut Crucial ist der Speicher auch mit dem Board kompatibel wenn es dieser ist BL2K16G32C16U4B.
 
Zuletzt bearbeitet:
Erst einmal Dank für die zahlreichen Tipps. Wie es scheint, konnte ich das Problem lösen.

Was habe ich getan?
Als erstes eine Speicherdiagnose, die ohne murren und Fehler durchlief. Dann habe ich mir das Tool ‚Intel Extrem Tuning Utility‘ geladen. Weniger um zu tunen als mehr um Stresstest‘s durchführen zu können. Und siehe da, bei allen Tests hatte ich nach wenigen Sekunden bis max. 3 Minuten meinen Freeze, BSoD oder Neustart. Meist Neustarts. Anschliessend habe ich einige Veränderungen im Bios vorgenommen:
  • Ai Oberclock Tuner von Manuell 2666 auf XMP II 3200
  • SVID Behavior von Auto auf Typical Szenario
  • CPU Core Ratio von Auto auf Sync all Cores und das Limit auf 50
  • BCLK Aware Adaptive Voltage von Enabled auf Disabled
  • CPU Core/Cache Voltage von Auto auf Manual Mode
  • den CPU Core Voltage Override auf 1.29 (von 1.25 langsam erhöht)
  • DRAM Voltage auf 1.35
  • CPU VCCIO und Sytem Agent Voltage beide auf 1.10

Mit diesen Einstellungen läuft alles bisher ohne Schwierigkeiten. Gestern Abend ca 6 Stunden hartes arbeiten und heute nochmal ca. 1 Stunde Stresstest mit dem Intel ETU. Klopf auf Holz 😊

Nochmal vielen Dank ans Forum!
 
  • Gefällt mir
Reaktionen: hi-tech
Zurück
Oben