WHEA-Crashes auf 5900X

pp3345

Lieutenant
🎅 Nikolaus-Rätsel-Elite
Registriert
Feb. 2008
Beiträge
637
1. Nenne uns bitte deine aktuelle Hardware:
(Bitte tatsächlich hier auflisten und nicht auf Signatur verweisen, da diese von einigen nicht gesehen wird und Hardware sich ändert)
  • Prozessor (CPU): AMD Ryzen 9 5900X
  • Arbeitsspeicher (RAM): 32GB Crucial Ballistix DDR4-3600 CL16-18-18-38
  • Mainboard: GIGABYTE B550M AORUS Pro-P
  • Netzteil: Seasonic X-Series 560W
  • Gehäuse: irgendein Lian Li
  • Grafikkarte: AMD Radeon RX 6900 XT
  • HDD / SSD: diverse Samsungs und Crucials, alle SATA
  • Kühler: be quiet! Dark Rock Pro 3

2. Beschreibe dein Problem. Je genauer und besser du dein Problem beschreibst, desto besser kann dir geholfen werden (zusätzliche Bilder könnten z. B. hilfreich sein):

System crashed spontan mit einem der folgenden Fehlerbilder:
  • Hängt sich auf, ca. 10 Sekunden später schwarze Bildschirme, ca. weitere 10 Sekunden später Reboot
  • Sofortiger Reboot
  • Bluescreen mit WHEA_UNCORRECTABLE_ERROR
Schwer zu reproduzieren, am einfachsten ging es bisher in GTFO (crashed spätestens ein paar Minuten nach dem Spawn), auch LiS2 ist mehrfach gecrashed. Prime95, Furmark, 3DMark Time Spy sind in der Regel stabil. Tritt sowohl unter Windows als auch unter Linux auf. Auf beiden sind auch ab und zu korrigierbare Fehler im Eventlog/dmesg zu sehen. Manchmal crashed es bereits während des Bootvorgangs unter Windows, ansonsten hab ich bisher keine Crashes im Idle gesehen.

3. Welche Schritte hast du bereits unternommen/versucht, um das Problem zu lösen und was hat es gebracht?
  • RAM auf JEDEC-Profile statt XMP (=> 2666 MHz)
  • RAM-Spannung angehoben (von 1.25V im JEDEC-Profile auf 1.35V)
  • Temperaturen sind normal (max. 80 °C)
  • Vcore angehoben (+0.036V)
  • Vcore SoC angehoben (+0.036V)
  • PLL-Spannung angehoben (oder zumindest das, was ich dafür halte => CPU VDD18 im BIOS?) (auf 2.04V)
  • PCIe Gen3 forciert
  • Command Rate 1T sowie 2T probiert
  • RAM Gear Down sowie Power Down an-/ausgeschalten
  • Energiesparplan "Höchstleistung" in Windows
  • C-States im BIOS deaktiviert
  • Cool'n'Quiet deaktiviert
  • CPPC deaktiviert
  • SMT deaktiviert
  • Boosting deaktiviert
  • Memtest86 ist stabil
  • TestMem5 ist stabil
  • BIOS-Versionen F12 und F13i
Hat alles nix gebracht. Wäre dankbar für weitere Ideen. Neu sind nur die CPU, das Mainboard und der RAM. Die restliche Hardware lief in meinem vorherigen System bereits tadellos.
 
pp3345 schrieb:
Prime95, Furmark, 3DMark Time Spy sind in der Regel stabil.

Was soll darunter zu verstehen sein?

In Kombination mit einer 6900 XT halte ich das kleine Seasonic für unterdimensioniert.
 
  • Gefällt mir
Reaktionen: DannyA4, JohnStorm, Kloin und eine weitere Person
NT von vor 10 Jahren kommt aufgrund von Technik und Alterung nicht mehr mit Lastwechselfrequenz und Lastspitzen klar. Bei der Dimensionierung sollten es dann wenigstens 650W sein imho.
 
  • Gefällt mir
Reaktionen: Trinoo und Otsy
Otsy schrieb:
In Kombination mit einer 6900 XT halte ich das kleine Seasonic für unterdimensioniert.
Unterdimensioniert würde ich jetzt noch nicht sagen, aber grenzwertig. Es ist ja auch 11 Jahre alt. Die X-Serie war aber auch ganz gut und wenn es in Benches mit höherer Auslastung kein Problem gibt, beim Booten dagegen schon, würde ich eher auf eine defekte CPU tippen. Davon liest man zur Zeit ja öfter...
 
  • Gefällt mir
Reaktionen: hasentier
pp3345 schrieb:
  • Prozessor (CPU): AMD Ryzen 9 5900X
  • Netzteil: Seasonic X-Series 560W
  • Grafikkarte: AMD Radeon RX 6900 XT

CPU + GPU können im Millisekundenbereich Lastspitzen erzeugen, die zusammen auf 700W kommen.
Dazu kommt der Verbrauch der restlichen Komponenten.

Möglich das dein Netzteil (von 2010, Netzteile altern!) da nicht mehr liefern kann, und es zu Fehlern kommt.

Empfehlenswert wäre ein Marken-NT ab 850W, zB: Corsair RM850x.
 
  • Gefällt mir
Reaktionen: Trinoo und Otsy
pp3345 schrieb:
  • C-States im BIOS deaktiviert
  • Cool'n'Quiet deaktiviert
  • CPPC deaktiviert
  • SMT deaktiviert
  • Boosting deaktiviert
In der Regel kommen die Whea Fehler von zu hohem RamOC oder die CPU schafft die Lastwechsel nicht.

RamOC hast du zurück genommen....also ist es das nicht.

Energiesparoptionen hast du deaktiviert und trotzdem noch Probleme...schließt die CPU nicht ganz aus, aber es macht sie unwahrscheinlicher.

Also das Netzteil wird damit immer wahrscheinlicher.
Wenn es so alt ist, wie ich denke, sollte man das eh mal in Rente schicken.

Und wenn das nicht hilft, würde ich die CPU tauschen lassen.
 
  • Gefällt mir
Reaktionen: hasentier und mr_andersson
Im Ordner C:/Windows/Minidump
befinden sich die Informationen zum blue screen.
Die letzten fünf Files auf den Desktop kopieren.
Mit rar oder zip verpacken.
Hier im Forum hoch laden.
 
  • Gefällt mir
Reaktionen: feris
AIDA Cache und Memory Benchmark laufen lassen und mit HWiNFO64 die WHEA überprüfen.
Ist die letzte Zeile ganz unten, wenn du HWiNFO64 nur mit Sensoren starten lässt.
Die Vorgehensweise hat den Vorteil, dass die Grafikkarte das Netzteil nicht belastet.
AIDA kannst du 30 Tage kostenlos testen, HWiNFO64 ist kostenlos.
 
  • Gefällt mir
Reaktionen: Pitfall
Das hier noch jemand ansatzweise versucht das Netzteil gut zu reden, ist schon Lustig.

Das teil ist einfach nicht ausgelegt für die Microschaltvorgänge der aktuellen Hardware, geschweigenden den für die anfallenden Lastspitzen. Und das Netzteile altern, auch 10Jahre im Perfekten Lagerungszusatnd sollte man auch wissen.

:schluck:
 
  • Gefällt mir
Reaktionen: Corpus Delicti und Otsy
Stormfirebird schrieb:
In welchen Slots steckt der RAM?
A2 und B2, wenn ich's richtig im Kopf habe. Jedenfalls so, dass Dual Channel funktioniert. Auf jeden Fall die, die auf dem Mainboard-Aufdruck als "First" markiert waren.

Otsy schrieb:
Was soll darunter zu verstehen sein?
Dass die Benchmarks typischerweise über längere Zeiträume stabil laufen, und erst nach Stunden crashen.

Ansonsten wird ja hier das Netzteil als der Schuldige identifiziert. Ich hab hier ein Messgerät an der Steckdose hängen, das zeigt in GTFO einen Maximalverbrauch von genau 443.5W an. Das Netzteil leistet ein Output von max. 560W, macht bei 90% Effizienz also ca. 620W, die dann aus der Steckdose gezogen würden. Mit den angenommenen Lastspitzen müsste ich da doch Maximalwerte deutlich näher an den 620W sehen. Oben drauf sollten ja keine extremen Lastwechsel entstehen, wenn ich einfach nur in GTFO am Spawn rumstehe. Und müsste bei einem Problem mit der Stromversorgung nicht wenigstens ab und zu mal die GPU crashen und nicht immer nur die CPU?

Nichtsdestotrotz lebe ich in der Nähe von einem ARLT und könnte da heute noch ein Fractal Design Ion+ 760W holen. Vorher probier ich mal noch den AIDA64-Benchmark, den @feris vorgeschlagen hat.
 
  • Gefällt mir
Reaktionen: mr_andersson
pp3345 schrieb:
Vorher probier ich mal noch den AIDA64-Benchmark, den @feris vorgeschlagen hat.
AIDA in Kombination mit HWiNFO64 wie oben beschrieben.
Allein in AIDA wirst du die Fehler nicht sehen.
Der AIDA Benchmark provoziert die Fehler, mit HWiNFO64 ist es einfach, diese sichtbar zu machen.
 
feris schrieb:
AIDA in Kombination mit HWiNFO64 wie oben beschrieben.
Schon klar :)

AIDA64 Cache & Memory Benchmark lief jetzt 5x durch, exakt 0 WHEA-Errors reported währenddessen. Also wohl doch zu ARLT...
 
PROCESS_NAME: GTFO.exe

STACK_TEXT:
ffffe580`a73e6938 fffff803`0feb450a : 00000000`00000124 00000000`00000000 ffffb103`53e02028 00000000`bc800800 : nt!KeBugCheckEx
ffffe580`a73e6940 fffff803`0ef915b0 : 00000000`00000000 ffffb103`53e02028 ffffb103`4f9eee10 ffffb103`53e02028 : nt!HalBugCheckSystem+0xca
ffffe580`a73e6980 fffff803`0ffb62ee : 00000000`00000000 ffffe580`a73e6a29 ffffb103`53e02028 ffffb103`4f9eee10 : PSHED!PshedBugCheckSystem+0x10
ffffe580`a73e69b0 fffff803`0feb5e31 : ffffb103`5886e910 ffffb103`5886e910 ffffb103`4f9eee60 ffffb103`4f9eee10 : nt!WheaReportHwError+0x46e
ffffe580`a73e6a90 fffff803`0feb61a3 : 00000000`0000000b ffffb103`4f9eee60 ffffb103`4f9eee10 00000000`0000000b : nt!HalpMcaReportError+0xb1
ffffe580`a73e6c00 fffff803`0feb6080 : ffffb103`4f6d07e8 04000400`00000000 ffffe580`a73e6e00 04000400`03e00400 : nt!HalpMceHandlerCore+0xef
ffffe580`a73e6c50 fffff803`0feb55c5 : ffffb103`4f6d07e8 ffffe580`a73e6ef0 00000000`00000000 04000400`04000400 : nt!HalpMceHandler+0xe0
ffffe580`a73e6c90 fffff803`0feb7d85 : ffffb103`4f6d07e8 04000400`04000400 04000400`04000400 04000400`04000400 : nt!HalpHandleMachineCheck+0xe9
ffffe580`a73e6cc0 fffff803`0ff0d619 : 04000400`04000400 04000400`04000400 04000400`04000400 04000400`04000400 : nt!HalHandleMcheck+0x35
ffffe580`a73e6cf0 fffff803`0fe05dfa : 04000400`04000400 04000400`04000400 04000400`04000400 04000400`04000400 : nt!KiHandleMcheck+0x9
ffffe580`a73e6d20 fffff803`0fe05ab7 : ffffb103`00000000 fffff803`0fe059ec 00000000`00000001 00000000`00000000 : nt!KxMcheckAbort+0x7a
ffffe580`a73e6e60 fffff803`100f8778 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiMcheckAbort+0x277
ffffa38f`6b7bf950 fffff803`0fe086b8 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!NtWriteFile+0x468
ffffa38f`6b7bfa50 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiSystemServiceCopyEnd+0x28


MODULE_NAME: AuthenticAMD

IMAGE_NAME: AuthenticAMD.sys

STACK_COMMAND: .thread ; .cxr ; kb

FAILURE_BUCKET_ID: 0x124_0_AuthenticAMD_PROCESSOR__UNKNOWN_IMAGE_AuthenticAMD.sys

OS_VERSION: 10.0.19041.1

BUILDLAB_STR: vb_release

OSPLATFORM_TYPE: x64

OSNAME: Windows 10

FAILURE_ID_HASH: {035dcc87-485b-74b3-1c1b-ee50cb0c2865}

Followup: MachineOwner
Der Fehler wird durch den Treiber AuthenticAMD.sys verursacht.
Der Treiber gehört zum Prozessor.
1. passt der Prozessor zum Motherboard?
2. Bios auf dem aktuellen Stand?
3. Chipsatztreiber vom Motherboard Hersteller neu installiert?
4. Prozessor übertaktet?
5. Wird der Prozessor zu warm?
6. Ist der Prozessor defekt?
 
pp3345 schrieb:
Fractal Design Ion+ 760W

Ist ok.

Wo ich immer Verständnisprobleme habe: Du haste neuste, sehr teure Hardware, warum gute 100€ für ein neues Netzteil sparen?
Im worst case kann es Hardware beschädigen.

Nicht persönlich gemeint, es ist nur viel zu oft zu sehen das potente ausgewogene System mit alten oder "auf Kante genähten" NTs, am besten noch China-Böllern kombiniert werden. Das ist am ganz falschen Ende gespart. Eine gute Energieversorgung sollte am Anfang stehen.

Und es sind nur die Leute mit Problemen, die sich melden. Der graue Bereich wird groß sein.
 
Nachtrag
Machine ID Information [From Smbios 3.3, DMIVersion 0, Size=2549]
BiosMajorRelease = 5
BiosMinorRelease = 17
BiosVendor = American Megatrends International, LLC.
BiosVersion = F13i
BiosReleaseDate = 04/23/2021

SystemManufacturer = Gigabyte Technology Co., Ltd.
SystemProductName = B550M AORUS PRO-P
SystemFamily = B550 MB
SystemVersion = Default string
SystemSKU = Default string
BaseBoardManufacturer = Gigabyte Technology Co., Ltd.
BaseBoardProduct = B550M AORUS PRO-P
BaseBoardVersion = Default string
Dein Bios ist auf dem aktuellen Stand.
[Processor Information (Type 4) - Length 48 - Handle 0010h]
Socket Designation AM4
Processor Type Central Processor
Processor Family 6bh - AMD Zen Processor Family
Processor Manufacturer Advanced Micro Devices, Inc.
Processor ID 100fa200fffb8b17
Processor Version AMD Ryzen 9 5900X 12-Core Processor
Processor Voltage 8bh - 1.1V
External Clock 100MHz
Max Speed 4950MHz
Current Speed 3700MHz
Status Enabled Populated
Processor Upgrade Socket AM4
L1 Cache Handle 000dh
L2 Cache Handle 000eh
L3 Cache Handle 000fh
Serial Number
Asset Tag Number
Part Number Unknown
Core Count 12
Core Enabled 12
Thread Count 24
Processor Characteristics fc
Enabled Characteristics:
0x 2: 64-bit Capable
0x 3: Multi-Core
0x 4: Hardware Thread
0x 5: Execute Protection
0x 6: Enhanced Virtualization
0x 7: Power/Performance Control
Processor Family_2 6bh - AMD Zen Processor Family
Core Count 2 12
Core Enabled 2 12
Thread Count 2 24
[32Bit Memory Error Information (Type 18) - Length 23 - Handle 0011h]
[Memory Device (Type 17) - Length 92 - Handle 0012h]
Memory Error Info Handle 0011h
Total Width [Unknown]
Data Width [Unknown]
Size [Not Populated]
Form Factor 02h - Unknown
Dein Prozessor ist mit 4950 MHz leicht übertaktet.
Die Übertaktung raus nehmen. Den Prozessor auf Standard Takt laufen lassen.
Dann abwarten ob es noch zum blue screen kommt?
 
Silver Server schrieb:
Dein Prozessor ist mit 4950 MHz leicht übertaktet.
CB hat Singlecore ähnliche Werte gesehen, würde da nicht unbedingt auf übertaktung schließen.
Er hat ja auch dahingehend ein paar Sachen ausprobiert um das zu unterbinden.

@feris meintest du wirklich den Cache and Memory Benchmark oder einen Stability Test mit Cache und Memory?
 
  • Gefällt mir
Reaktionen: Baal Netbeck
Zurück
Oben