Rechner auf einmal instabil - Blackscreen - Kernel Power 41

Casillas

Lt. Commander
Registriert
Apr. 2010
Beiträge
1.849
Moin zusammen,

ich hoffe ihr habt noch ein paar Hinweise / Ideen für mich. Ersteinmal meine Hardware:

MB: Asus ProArt Creator B550
CPU: 5800X3D - Kühler beQuiet Black rock pro 4
Ram: G.Skill RipJaws V schwarz DIMM Kit 32GB, DDR4-3200, CL14-14-14-34
NT: Corsair RM Series 2019 RM850 850W
SSDs: WD SN850x 2TB / Corsair P1 2 TB / via PCI adapter Samsung pm981 512 GB
Graka: XFX Radeon 6950X Merc Black.

Alle Komponenten, bis auf die SSDs und die Grafikkarte sind gebraucht gekauft worden.

Nun zu meinem Problem. Der Rechner läuft auf einmal nicht mehr stabil, bzw. habe ich unter Last sofort einen schwarzen Bildschirm. manchmal wird neu gestartet, manchmal nicht. sämtliches OC vom Ram GPU und CPU habe ich schon komplett deaktiviert. (MPT, Curve, Ram OC allg.).

Gestern und generell die letzten Tage konnte ich noch ohne Probleme stundenlang Helldivers 2 und Pupg zocken, abseits von ein paar Abstürzen zum Desktop, weil ich mit der Grafikkarte noch am herum spielen war, was oc und uv anging (via MPT und Treiber)

Eventmanager zeigt an kritischen Fehlern hauptsächlich den Kernel Power 41
an "normalen" fehlern (rotes Ausrufezeichen) auch mal einen WHEA Logger, EventLog, DistributedCOM.

siehe Bild anbei:

Anfrage 2.png



Ich habe natürlich schon mal ein wenig selbst gesucht. Nachdem was ich so lese, sieht es nach Netzteil aus?
Was meint ihr?

Memtest86 würde ich sonst mal anstoßen
 
Kernel 41 bedeutet nur, dass das Rechner aufgrund eines Fehlers aus ging. Das muss nicht das NT sein, aber kann auch auf RAM oder GPU zutreffen. Oder sogar aufs Mainboard.

Also Auschlussverfahren.
RAM testen, GPU in anderem Rechner testen und/oder NT tauschen.

Das NT ist modular. Hast du da sämtliche originalen Kabel mit dazu erhalten, oder sind alternativen oder Extentions im Einsatz?
 
  • Gefällt mir
Reaktionen: DerMicha
Was steht in den WHEA Errors? Die kommen gerne bei BIOS Problemen oder instabilen/defekten CPUs.
 
  • Gefällt mir
Reaktionen: Azghul0815
Eventuell mal generell das herummachen am System unterlassen.
Außer XMP für den Ram.
Und dann mal das neueste Bios aufspielen.
 
  • Gefällt mir
Reaktionen: |SoulReaver|
Captain Mumpitz schrieb:
Also Auschlussverfahren.
RAM testen, GPU in anderem Rechner testen und/oder NT tauschen.

Das NT ist modular. Hast du da sämtliche originalen Kabel mit dazu erhalten, oder sind alternativen oder Extentions im Einsatz?

Drewkev schrieb:
Auch wenn es Single-Rail ist, bitte die Grafikkarte mit so vielen Kabelsträngen wie möglich anschließen.
Kabel sind original. Kabelstränge sind auch entsprechend aufgeteilt. Also pro Anschluss an der GPU ein eigenes unabhängiges Kabel zum NT.

Mojo1987 schrieb:
Was steht in den WHEA Errors? Die kommen gerne bei BIOS Problemen oder instabilen/defekten CPUs.
"
Protokollname: System
Quelle: Microsoft-Windows-WHEA-Logger
Datum: 10.03.2024 19:13:27
Ereignis-ID: 18
Aufgabenkategorie:Keine
Ebene: Fehler
Schlüsselwörter:
Benutzer: Lokaler Dienst
Computer: DESKTOP-KQLC51K
Beschreibung:
Schwerwiegender Hardwarefehler.

Gemeldet von Komponente: Prozessorkern
Fehlerquelle: Machine Check Exception
Fehlertyp: Cache Hierarchy Error
Prozessor-APIC-ID: 2

Die Detailansicht dieses Eintrags beinhaltet weitere Informationen.
Ereignis-XML:
<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">
<System>
<Provider Name="Microsoft-Windows-WHEA-Logger" Guid="{c26c4f3c-3f66-4e99-8f8a-39405cfed220}" />
<EventID>18</EventID>
<Version>0</Version>
<Level>2</Level>
<Task>0</Task>
<Opcode>0</Opcode>
<Keywords>0x8000000000000000</Keywords>
<TimeCreated SystemTime="2024-03-10T18:13:27.2741319Z" />
<EventRecordID>109087</EventRecordID>
<Correlation ActivityID="{2a92ec76-70ae-4f6c-9fc4-9104383fd67e}" />
<Execution ProcessID="5008" ThreadID="6012" />
<Channel>System</Channel>
<Computer>DESKTOP-KQLC51K</Computer>
<Security UserID="S-1-5-19" />
</System>
<EventData>
<Data Name="ErrorSource">3</Data>
<Data Name="ApicId">2</Data>
<Data Name="MCABank">5</Data>
<Data Name="MciStat">0xbea0000001000108</Data>
<Data Name="MciAddr">0x7fff6aa4b33b</Data>
<Data Name="MciMisc">0xd01a0ffe00000000</Data>
<Data Name="ErrorType">9</Data>
<Data Name="TransactionType">2</Data>
<Data Name="Participation">256</Data>
<Data Name="RequestType">0</Data>
<Data Name="MemorIO">256</Data>
<Data Name="MemHierarchyLvl">0</Data>
<Data Name="Timeout">256</Data>
<Data Name="OperationType">256</Data>
<Data Name="Channel">256</Data>
<Data Name="Length">936</Data>
<Data Name="RawData">435045521002FFFFFFFF03000100000002000000A8030000120D12000A0318140000000000000000000000000000000000000000000000000000000000000000BDC407CF89B7184EB3C41F732CB57131FE6FF5E89C91C54CBA8865ABE14913BB9411459F1673DA0102000000000000000000000000000000000000000000000058010000C00000000003000001000000ADCC7698B447DB4BB65E16F193C4F3DB0000000000000000000000000000000001000000000000000000000000000000000000000000000018020000800000000003000000000000B0A03EDC44A19747B95B53FA242B6E1D0000000000000000000000000000000001000000000000000000000000000000000000000000000098020000100100000003000000000000011D1E8AF94257459C33565E5CC3F7E8000000000000000000000000000000000100000000000000000000000000000000000000000000007F010000000000000002010000000000120FA2000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000200000000000000000000000000000000000000000000000000000000000000000000000000000007000000000000000200000000000000120FA200000810020B32F87EFFFB8B170000000000000000000000000000000000000000000000000000000000000000F50157A5EFE3DE43AC72249B573FAD2C03000000000000009F000206000000003BB3A46AFF7F00000000000000000000000000000000000000000000000000000200000002000000DD90EAA01673DA01020000000000000000000000000000000000000005000000080100010000A0BE3BB3A46AFF7F000000000000FE0F1AD0000000000200000000000000B00005000000004D00000000F9010000230000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000003B00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000</Data>
</EventData>
</Event>!
"

mcbloch schrieb:
Eventuell mal generell das herummachen am System unterlassen.
Außer XMP für den Ram.
Und dann mal das neueste Bios aufspielen.
Wie schon beschrieben, habe ich alles auf stock zurück gefahren. Auch den ram mal nur auf 2133 laufen lassen.


Memtest86 lief ein pass komplett durch, mit 3600 cl14 (was vorher stabil war). Test erstmal abgebrochen, um pc nochmal nutzen zu können.

das absolut neuste Bios ist nicht drauf. kann ich natürlich nachschieben.
Ergänzung ()

Hab mir nochmal alle WHEA Fehler angeguckt.

alle:

"
Gemeldet von Komponente: Prozessorkern
Fehlerquelle: Machine Check Exception
Fehlertyp: Cache Hierarchy Error
Prozessor-APIC-ID: 9
"

mit verschiedenen "Prozessor-APIC-IDs"
 
Azghul0815 schrieb:
Whea 18 ist oft der RAM, bzw. Speichercontroller, Whea 19 die CPU, bzw. der Kern selbst.
Ist das die „Eventid“ im log vom Fehler?

Memtest lasse ich gerade laufen. Kahru mache ich nachher noch an und lasse es durch die Nacht laufen.

Damit sollte ich dann sicher sein, was ram und Speichercontroller angeht.
 
Ja Bios werd ich auch noch machen. Obwohl ich das erst als letztes checken werde.

Memtest86 ist ohne Fehler durch gelaufen. Wohlgemerkt in meinen vorherigen oc Settings. Aktuell läuft über Nacht der kahru RAM Test.
 
  • Gefällt mir
Reaktionen: Azghul0815
Kleines Update. Karhu gab nach 8 Stunden einen Fehler. Waren glaube ich 18000%.

Spricht für mich jetzt nicht für einen Defekt was ram oder Speichercontroller angeht, oder wie seht ihr das?

Obwohl der whea Fehler 18 mit verschiedenen Kernen eher wieder dafür spricht.

Bin jetzt mit Familie im Urlaub. Melde mich dann, wenn ich neue Erkenntnisse habe.

Als Nächstes werde ich mit einer anderen GPU (rx 6600) testen. Ist nach Testen im Ausschlussprinzip und Ram tauschen erstmal das einfachste, was ich austauschen kann, vom Aufwand her.
 
Du könntest zusätzlich das Ganze auch noch mit nur je einem RAM Riegel testen.
Natürlich lässt du dabei auch während dem Testszenario massiv Leistung liegen, aber solange kein Blackscreen auftaucht hast du damit schon mal die beiden Riegel per se als Fehlerquelle ausgeschlossen.
Dann könnten es höchstens noch die Settings sein, dass da was in den XMP/DOCP Parametern nicht passt. Dieses komplett auszuschalten ist auch nicht immer die Lösung.
 
@Azghul0815
Es lief doch bis vorgestern mit den Settings ohne Probleme. Wenn wirklich ein Defekt bei den rams vorliegt, dann gibts doch viel mehr und quasi gleich Fehler bei karhu.

@Captain Mumpitz
Ja mir nur einem Riegel ist es natürlich auch nochmal ne Idee.

Ram hab ich ein sehr ähnliches Kit auch noch im anderen Rechner.
 
Casillas schrieb:
Es lief doch bis vorgestern mit den Settings ohne Probleme. Wenn wirklich ein Defekt bei den rams vorliegt, dann gibts doch viel mehr und quasi gleich Fehler bei karhu.
Wenns so einfach wäre.
Ich geb dir nur meine Erfahrungen mit AM4 weiter. Ich mach RAM OC seit den Ryzen 2000ern. WHEA 18 war eigentlich immer instabiler RAM und konnte mit Einstellungen gefixed werden. Klar kann sein, dein RAM oder dein Sppeichercontroller in der CPU ist degradiert. Kann aber auch an einem Windowsupdate oder Bios Update liegen, neuen Chipsatztreibern usw.

Ein Fehler bei 18000% ist an sich vertretbar, allerdings gibts halt Games die sind super empfindlich. PUBG war so eines.

Wie viele WHEA hast du denn und wie weit geht die Historie zurück?
Kannst ja mal einfach XMP laden und manuell auf 3000 runter gehen oder eben mal ohne XMP testen.
Dein RAM Kit sieht bei den Timings ja nach Samsung Bdies aus, die sollten ja auch locker 3600 MT/s mit CL14 schaffen.
Andereseits juckts den 5800x3d ja nicht so.
 
BIOS-Reset durchgeführt?
 
So. Kleines Update.

GPU getauscht. 2,5 Stunden ohne einen Absturz HD2 gezockt, was vorher nach wenigen Sekunden zum schwarzen Bildschirm führte.

Drin ist jetzt statt der 6950XT eine 6600. Die verbraucht natürlich deutlich weniger.

Was meint ihr, kann es trotzdem noch das NT sein? Hab mit sowas ehrlich gesagt keine Erfahrung.
Damit meine ich, dass ich keine Erfahrung damit habe, ob ein NT in dem Sinne "teildefekt" sein kann, dass es eben in der Spitze nicht mehr die Leistung liefert, die es liefern soll, im Teillastbereich aber ohne Probleme funktioniert.
 
Zuletzt bearbeitet:
Zurück
Oben