Ereignis-ID 41, Kernel-Power

Quarkii

Ensign
Registriert
Okt. 2020
Beiträge
210
Nabend zusammen,

da ich langsam ausraste und mir gefühlt auch schon alle Beiträge im Internet zu dem Thema durchgelesen habe, frage ich jetzt nochmal ganz gezielt nach.

Rechner geht mit schwarzem Bildschirm aus und startet nach einigen Sekunden neu. Kritischer Fehler, Ereignis 41, Kernel-Power, Aufgabenkategorie 63. Das passiert sporadisch, ca. 2-5 x pro Monat und hauptsächlich, wenn der Rechner NICHT ausgelastet ist (Desktop-Betrieb, League of Legends, etc.) Habe auch schon Prime95 und Furmark gleichzeitig laufen lassen - stabil. Memtest86 keine Fehler. Temperaturen sind bei Prime95 und Furmark dementsprechend hoch gewesen, haben allerdings nicht zum Absturz geführt. Im Idle bei ca. 30 Grad. League of Legends ca. 50 Grad.

Heute wieder ein Absturz mit Ereignis-ID 41 - 6 Sekunden später gefolgt von:

Schwerwiegender Hardwarefehler.
Gemeldet von Komponente: Prozessorkern
Fehlerquelle: Machine Check Exception
Fehlertyp: Cache Hierarchy Error
Prozessor-APIC-ID: 2


System:
MSI Tomahawk Max B450
32GB (4x 8192MB) G.Skill RipJaws V schwarz DDR4-3200 DIMM CL16-18-18-38 @XMP-OFF / Stock (kein Undervolting etc.)
AMD Ryzen 5 3600 @Stock (kein OC, kein Undervolting etc.)
ASUS AREZ STRIX Radeon RX Vega 56 OC Gaming 8GB @Stock (kein OC, kein Undervolting etc.)
SAMSUNG NVMe SSD 970 Evo 1 TB
be quiet! Dark Rock PRO 4
600 Watt be quiet! Pure Power 11 CM Modular 80+ Gold
HLDS DVD+-R/RW GH24NSD5 intern, bulk, schwarz
be quiet! Pure Base 600


Was habe ich bisher gemacht?
PC komplett demontiert, gereinigt und wieder zusammengebaut (inkl. neuer WLP für die CPU)
BIOS Update (und dadurch ja automatisch Reset auf Standard)
Treiber alle aktualisiert
sämtliche USB-Geräte abgesteckt (sogar andere Tastatur und Maus ausprobiert)

Final vor einigen Tagen Windows neu installiert und nur das ALLERNÖTIGSTE installiert: AMD Chipsatztreiber von der AMD-Website und alle anderen Treiber über Windows (auch GPU). Vorher hatte ich logischerweise die von AMD drauf, aber wollte so wenige Fehlerquellen wie möglich haben.


Seit wann besteht das Problem?
Gebaut habe ich den Rechner Ende 2019. Ende 2020 habe ich dann die damals gekaufte 250 GB SSD von Crucial gegen obige Samsung getauscht, da es mir zu wenig Speicher war. Gleichzeitig habe ich mir auch einen neuen Monitor gekauft (von 2 x 24" auf 1 x 34"). Seit dort GLAUBE ich besteht der Fehler quasi seit der Neuinstallation auf der neuen SSD. Ich erinnere mich nicht mehr an die Zeit davor, würde aber sagen, dass ich schon längst die Garantie sämtlicher Bauteile in Anspruch genommen hätte, wäre mir dieser Fehler in den ersten Monaten unterlaufen. Bin mir also relativ sicher, dass es nicht von Anfang an besteht.

Es liegt also nahe, dass der Monitor oder die neue SSD schuld tragen. Kann eine dieser beiden Komponenten diesen sporadischen Fehler auslösen? Scheint mir persönlich eher unwahrscheinlich.

Noch jemand weitere Ideen?

Vielen Dank!
 
1.png

Grafikkarte mit zwei separaten Kabeln angeschlossen?

Dann bei Vega das Hotspotproblem beobachten.

https://www.igorslab.de/amd-radeon-...d-das-richtige-auftragen-von-waermeleitpaste/
 
  • Gefällt mir
Reaktionen: whats4
nuja, kann auch sein, daß das netzteil die böse vega hie und da ned derpackt, ein lastwechsel...
und ja, es stimmt, ich bin kein großer freund der pure power netzteile.
oder, immer ein thema: ram und datenträger.
dauert halt, das zu prüfen. aber irgendwo muß man ja beginnen.
 
Ihr seit ja schneller als der Schall :D

Habe ein Kabel vom Netzteil an die Grafikkarte - jetzt sag mir nicht, dass das falsch ist :freak: Müsste dann der PC insbesondere unter Last nicht abstürzen?

Bzgl. SSD testen: Womit macht man das am besten? RAM habe ich ja mit Memtest86 getestet.
Ergänzung ()

Da fällt mir gerade ein, was ich auch damals noch „falsch“ hatte war, dass ich die GPU am falschen PCIe Anschluss dran hatte (x2 anstelle x16). Dann wäre es mit dem Strom wieder logisch, dass er nicht reicht. Aber warum dann nicht unter Volllast?
 
ChrystalDiskInfo aktuelle Version davon ein Screenshot hier hochladen in dem alles zu sehen ist von dem Fenster. Wieviele Memtest loops hast du gemacht ? Eine Runde reicht da nicht, nen Memtest am besten die ganze Nacht durch laufen lassen. Und ja ein Kabel ist falsch wenn sie zwei Anschlüsse hat dann beide auch nutzen und zwar so wie in dem Bild von Viper1982.
 
Man sollte bei Multirailnetzteilen und der Vega zur Sicherheit zwei separate Kabel verwenden, da das Netzteil eben zwei Rails a 12V bereitstellt und du so nur eine Rail für die Grafikkarte nutzt. Wenn dieses eine Kabel dann auch noch mit an der Versorgung von der CPU 12V V2 mit dranhängt wirds kritisch.

Auch das benannte Hotspotproblem nicht zu vernachlässigen, könnte man mit GPU-Z zb. eine Logfile während des Zockens anlegen welche man nach dem Absturtz einsehen kann. Denn wie von Igor beschrieben kann dies selbst im IDLE auftreten, da die meisten Karten über den NoFan Modus verfügen und die Temperatur nur ms. anliegen muss um das System abzuschalten.

1.png


Hier noch zum Verständnis der zwei 12V Rails. Eigentlich "müsste" auch ein Kabel an 12V V1 ausreichen aber müsste ist halt auch nur müssste.
 
Zuletzt bearbeitet:
Volllast heißt nicht pauschal schnelle Lastwechsel. Kann aufgrund deiner Anschlussvariante schon sein, dass das ein Grund für die Abstürze ist.
 
Zuletzt bearbeitet:
Ihr seit echt die Geilsten! :jumpin:

Werde direkt morgen CrystalDisk drauf schmeißen und alles hier posten und das zweite Stromkabel aus dem Karton kramen für die Grafikkarte.
Memtest lief in Summe 6 Stunden - also 1,5 je Riegel.

Wenn es an dem Kabel liegt fresse ich nen Besen :watt:
Ergänzung ()

Vielleicht noch eine kleine Ergänzung: Ich weiß gar nicht, ob ich es an 12V1 oder 12V2 dran ist. Sollte es daran liegen, muss ich mir dann Sorgen machen, dass dadurch was kaputt gehen kann oder sind die Abstürze das schlimmste an der Sache?
 
Zuletzt bearbeitet:
Siehst ja morgen wo es angeschlossen ist und das mit den zwei Kabeln zwei 12V Schienen ist ja nur um eine sporadische Unterversorgung auszuschließen. Und wenn das ausgeschlossen werden kann und der Fehler immernoch auftritt muss man eben weiterschauen. DEN LINK VOM IGOR durchlesen kann auch nicht schaden.

1.png


12V V1 x32A = 384W
12V V2 x28A = 336W

Und jede Rail schafft das nur, wenn diese alleine belastet wird, aber das wird sie ja in einem PC nicht, sonst könnte dein Netzteil "nur" auf der 12V 720W bereitstellen und da sind 3V und 5 V noch nicht miteingerechnet.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: whats4
genau, das ist das stichwort: "sporadische unterversorgung".
zumindest passt der (seltene) absturz im desktop dazu, weil last ist wenig lastwechsel, desktop betrieb schon. zwar wird die gpu oft schlafen, aber auch sehr oft von nix raus hochtakten.

na hoffen wir mal das beste...
 
Melde mich zurück :)
Zusätzliches Stromkabel hat leider nichts gebracht - lasse es jetzt trotzdem dran.

Habe jetzt meine alte 250GB SSD Crucial wieder eingebaut und schaue jetzt mal, was sich so tut. Wenn der PC wieder abstürzt kann ich dann die SSD auch ausschließen - bin gespannt.

CrystalDisk habe ich bei beiden SSDs ausgeführt. Zustand Gut bei beiden. Was aufgefallen ist, dass bei der Samsung keine min/max/average Werte angezeigt werden, bei der Crucial schon. Also entweder gibt Samsung die Werte nicht raus oder die SSD hat irgendwas...
 
Zuletzt bearbeitet:
Wenn der Fehler immernoch da ist, würde ich jetzt den Kühler runterbauen und die GPU mit neuer Wärmeleitpaste ausstatten. Den Bericht vom Igor haste ja bestimmt schon gelesen. Und klar bleibt das Kabel dran sonst war der Thread bis hier umsonst.
 
Zuletzt bearbeitet:
Aso - ganz vergessen - habe natürlich die Temperaturen der CPU und GPU geloggt. Der PC startet hauptsächlich im Spiel League of Legends neu - also da passiert es am häufigsten. Ist ja jetzt auch nicht so unheimlich anspruchsvoll das Spiel.

GPU Hotspot max. ist 56 Grad (bei ca. 55 Grad geht auch der Lüfter kurz an und kühlt die GPU auf unter ca. 53 Grad runter - dann gehen sie wieder aus bis die GPU wieder ca. 55 Grad erreicht und das dauert immer ein paar Minuten)
SOC VRM max. ist 60 Grad
CPU max. ist 57 Grad

Diese maximal-Temperaturen sind von einem Log, wo der PC auch dann den Fehler hatte und neu gestartet ist. Temperaturen sind hier also zu 99,9% nicht das Problem würde ich sagen. Ich habe ja dazu auch schon Furmark und Prime95 gleichzeitig laufen lassen, wo die CPU dann bei ca. 90 Grad war und der GPU Hotspot bei über 100 Grad. Kein Absturz. Habe es dann sogar selbst beendet irgendwann, weil ich nicht wollte, dass der PC explodiert. :D
 
Ja die 100Grad kommen zustande wenn die Lüfter drehen. Also den Link doch nicht gelesen. Na ja ich würde es probieren mit neuer Paste. Es muss nur für ms. ein Spike entstehen welcher zu hoch ist und das System schaltet ab.


Die Lüftersteuerung aller Karten reagiert primär auf den Wert, den man auch aus dem Wattman und z.B. GPU-Z als GPU-Temperatur kennt. Doch ich hatte mehrere Karten, die trotz augenscheinlich guter (weil niedriger) GPU-Temperaturwerte (teilweise sogar im Idle beim Fan-Stopp) durch Notabschaltungen glänzten. Doch wo liegt eigentlich die Ursache für dieses Phänomen? Dazu habe ich einmal die Messwerte einer solchen Karte in einem Diagramm festgehalten.
 
Gibt es eine Software, mit der man in noch schnelleren Abständen die Temperaturen auslesen kann - um eben solche Spikes festzustellen? Habe GPU-Z benutzt.

Ich bin kein mega Experte - Ich denke allerdings, dass es schon relativ unwahrscheinlich ist, dass ich 20 Spiele spiele - die Temperatur in allen Spielen zwischen 50 und 60 Grad liegt und im 21. Spiel dann auf einmal im gleichen Spiel ein Spike mit über 110 Grad entsteht.

Und dann zusätzlich bei dauerhaften High-Temps mit Furmark und Prime95 ebenfalls nichts passiert. Das klingt halt eher unlogisch und wenig plausibel. Oder hab ich da einen Denkfehler?

Grundsätzlich ist es ja anscheinend sowieso sinnvoll die WLP zu wechseln. Ich habe allerdings noch Garantie auf der Karte und will daher vorher am liebsten ausschließen, dass die GPU schuld ist. Weil was bringt es mir dann, wenn ich die WLP getauscht habe, der Fehler aber nicht weg ist? Und großartige Alternativen am Markt in Sachen Garfikkarte gibts aktuell nicht wirklich, wenn ich bedenke, dass ich für die Vega 56 nur 269€ bezahlt habe.
 
Zuletzt bearbeitet:
In GPU-Z kann man in den Einstellungen 0,1sek einstellen. Und das ROT markierte beschreibt den Fehler sogar im IDLE aber was erzähle ich. Wenn meine Hardware auch nur in die nähe von 100Grad kommt werde ich tätig.
 
Daher habe ich ja dann auch den Test mit Furmark und Prime95 unterbrochen.

Komisch ist halt, dass im ersten Jahr dieser Fehler nicht vorhanden war. Quasi mit dem Tausch der SSD von der Crucial zur Samsung und dem Wechsel des PCIe Slots (hatte die GPU ja im ersten Jahr fälschlicherweise am 4x PCIe anstelle am 16x PCIe angeschlossen) trat dann dieser Fehler das erste Mal auf und seitdem regelmäßig immer wieder zwischendurch.

Das ändert nichts daran, dass ein Wechsel der WLP bei dieser Karte durchaus sinnvoll ist - aber spricht halt wieder nicht unbedingt dafür, dass die Temperatur hier der ausschlaggebende Punkt ist.

Ich kombiniere einfach nur die Ereignisse und versuche dann möglichst logisch die Fehler auszuschließen.
 
Wärmeleitpaste trocknet mit der Zeit, der Wechsel vom PCIe x4 Slot zu X16 sollte auch dazu geführt haben, dass die Karte mehr ausgelastet wird. Mehr Auslastung mehr Strom, mehr Hitze ist die Folge, dann kommt es das man andere Spiele spielt etc. etc. . Was soll dies mit ner SSD zu tun haben?

100° sollten weder GPU noch CPU, noch irgendein anderes Bauteil in nem PC dauerhaft anliegen haben.

Hatte ich selbst mal bei nem Kühlertausch, diesen falsch montiert und sobald man was startete war indess der Rechner aus.Wegen eben zu hoher Temperatur und selbiges kann auch bei nicht korrekt aufgetragener, ausgetrockneter etc. WLP passieren. Niemand weiß wo der Hotspotsensor sitzt und es müssen ja auch nicht unbedingt 110° erreicht werden, bevor die/deine Karte die Grätsche macht.

Das wäre es dann bis hier hin, natürlich kann ich auch auf dem Holzweg sein aber wenn man nicht eines nach dem anderen ausschließt weiß ich es auch nicht. Und Kartenhersteller lassen selbst den Tausch des Kühlers zu,wieso sollte es dann Probleme bei dem Tausch der Wärmeleitpaste geben.

https://www.computerbase.de/2016-09/grafikkarten-garantie-vergleich/

Ich weiß ist von 2016 vielleicht existiert noch iwo was neues im Internet.
 
Jetzt ist mir gerade noch was aufgefallen beim Durchforsten meiner Bestellungen...

Ich habe zu besagtem Zeitpunkt auch meinen RAM von 16GB auf 32GB aufgerüstet - das habe ich wohl verdrängt...Memtest86 war ohne Fehler. Kann ich den RAM daher ausschließen oder sollte ich da noch andere Tests machen?
 
Viper1982 schrieb:
Man sollte bei Multirailnetzteilen ... zwei separate Kabel verwenden
Nicht nur zur Sicherheit sondern definitiv!

Es kann gut sein das durch die ständige Überlastung einer Rails diese nun nicht mehr ganz so funktioniert wie sie sollte, hatten wir in letzter Zeit des Öfteren hier im Forum.

Quarkii schrieb:
Ich habe allerdings noch Garantie auf der Karte und will daher vorher am liebsten ausschließen, dass die GPU schuld ist. Weil was bringt es mir dann, wenn ich die WLP getauscht habe, der Fehler aber nicht weg ist?
Asus erlaubt den Kühlerwechsel, somit verfällt deine Garantie nicht wenn du die WLP tauschen solltest. Für Schäden die beim Wechsel passieren gibt es allerdings keine Garantie!
In dem Zuge könnte man dann auch gleich die Wärmeleitpads tauschen.

Bei den ersten Asus Vega Karten gab es Probleme mit der Kühlung sodass die Spannungswandler zu heiß wurden, wenn du also eine der ersten Karten hast ...
Bei AMD Karten sollte man zu Sapphire oder PowerColor greifen.

Was du aber auf jeden Fall machen solltest wäre die Karte zu UV, das bringt bei der Vega einiges.

Wie sieht denn deine Gehäusebelüftung aus? Das PureBase 600 ist ein richtiger Backofen, war leider auch nicht die beste Wahl.

Den RAM kann man nie ausschließen, auch wenn Memtest ohne Fehler durchläuft. Die AM4 Plattform ist da recht anspruchsvoll und dein verbauter RAM ist nicht gerade die beste Wahl gewesen. Dazu kommt noch die Vollbestückung, was die Last auf den Speichercontroller unnötig erhöht.

Warum läuft der eigentlich ohne XMP, damit lässt du massiv Leistung liegen, oder nur zum Test deaktiviert?
 
Zurück
Oben