Rechner stürzt ab und löst eine Machine Check Exception

Arif12

Cadet 4th Year
Registriert
Apr. 2020
Beiträge
74
[Bitte fülle den folgenden Fragebogen unbedingt vollständig aus, damit andere Nutzer dir effizient helfen können. Danke! :)]

1. Nenne uns bitte deine aktuelle Hardware:
(Bitte tatsächlich hier auflisten und nicht auf Signatur verweisen, da diese von einigen nicht gesehen wird und Hardware sich ändert)
  • Prozessor (CPU): AMD Ryzen 9 3900X
  • Arbeitsspeicher (RAM): 32GB G.Skill RipJaws V DDR4-3600 DIMM CL16 Dual Kit
  • Mainboard: MSI Mag B550 Tomahwak
  • Netzteil: 450 Watt be quiet! Straight Power 11 Modular 80+ Gold
  • Gehäuse: be quiet! Pure Base 500DX
  • Grafikkarte: 2GB ASRock Radeon RX 550 Phantom Gaming Aktiv PCIe 3.0 x16
  • HDD / SSD: …
    • 1x 500GB Samsung 970 Evo M.2
    • 2x 2000GB WD Blue WD20EZRZ 64MB 3.5" (8.9cm) SATA 6Gb/s
  • Weitere Hardware, die offensichtlich mit dem Problem zu tun hat(Monitormodell, Kühlung usw.):
  • Kühlung: be quiet! Dark Rock Pro 4 Tower Kühler

2. Beschreibe dein Problem. Je genauer und besser du dein Problem beschreibst, desto besser kann dir geholfen werden(zusätzliche Bilder könnten z.b. hilfreich sein):
Der Rechner funktioniert an sich ganz normal, aber manchmal bleibt er in einer Schleife stecken und startet sich neu.
Beim Booten wird die folgende Fehlermeldung angezeigt:
mce: [Hardware Error]: CPU 6 Machine Check: 0 Bank 5: bea0000000000108
mce: [Hardware Error]: TSC 0 ADDR 1ffffc0cf9028 MISC d012000100000000 SYND 4d000000 IPID 500b000000000
mce: [Hardware Error]: PROCESSOR 2: 870f10 TIME 1615507278 SOCKET 0 APIC 10 microcode


3. Welche Schritte hast du bereits unternommen/versucht, um das Problem zu lösen und was hat es gebracht?
Ich habe das Mainboard, die CPU und die Grafikkarte eingeschickt. Den Arbeitsspeicher und die HDDs habe ich mit MemTest86 und smartctl getestet (pro Test ca. 6 Stunden). Die CPU und die Grafikkarte sind fehlerfrei, jedoch das Mainboard war defekt und wurde ausgetauscht. Das Problem blieb trotzdem bestehen, die Fehlermeldung hat sich auch kaum verändert

Apr 27 04:27:42 arif-pc kernel: mce: [Hardware Error]: CPU 15: Machine Check: 0 Bank 5: bea0000000000108
Apr 27 04:27:42 arif-pc kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffffc067e008 MISC d012000100000000 SYND 4d000000 IPID 500b000000000
Apr 27 04:27:42 arif-pc kernel: mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1619490458 SOCKET 0 APIC 9 microcode 8701021
Die erste Fehlermeldung stammt vor dem Austausch des Mainboards und die zweite nach dem.
Ich halte es ehrlich gesagt für sehr unwahrscheinlich, dass das neue Mainboard auch defekt ist.
Im Bios habe ich das XMP Profil 1 aktiviert, damit der RAM mit 3600 Mhz läuft, und die C-States deaktiviert (Hat was mit Energiersparmodus zu tun). Außerdem benutzte ich Manjaro Linux. Ich sitze seit 2 Monaten an dem Problem und bin verzweifelt.
Wäre dankbar, wenn jemand eine Idee hätte was das Problem sein könnte.


P.S.: Beachte auch die verschiedenen angepinnten Themen und die Forensuche. Möglicherweise findest du da bereits die Lösung zu deinem Problem.
 
Moin,
Klingt für mich erstmal nach einer CPU Inkompatibilität.
Hast du ein aktuelles Bios drauf? Da würde ich zuerst ansetzen. Falls das aktuellste, mal das vorherige Bios aufspielen, bzw das welches als erstes für den 3900x benötigt wird
mfg
 
Arif12 schrieb:
Die erste Fehlermeldung stammt vor dem Austausch des Mainboards und die zweite nach dem.
Ich halte es ehrlich gesagt für sehr unwahrscheinlich, dass das neue Mainboard auch defekt ist.
Im Bios habe ich das XMP Profil 1 aktiviert, damit der RAM mit 3600 Mhz läuft, und die C-States deaktiviert (Hat was mit Energiersparmodus zu tun). Außerdem benutzte ich Manjaro Linux. Ich sitze seit 2 Monaten an dem Problem und bin verzweifelt.
Wäre dankbar, wenn jemand eine Idee hätte was das Problem sein könnte.

Setz die Maschine auf möglichst konservative Defaults im Bios zurück und schau ob die Probleme dann noch auftreten. Ohne nach den Meldungen zu googlen klingt das nach RAM-Problemen, dieses ganze bunte Overclocker-RAM ist auch in der Regel überteuerter Sondermüll.
 
  • Gefällt mir
Reaktionen: Firle, T.N. und Aduasen
Persönlich würde ich in so einen Fall den PC auf Herz & Nieren überprüfen mit Windows und etlichen Programmen die zur Stabilität beitragen.

Weiter könnte man auch mal ein anderes Linux benutzen und die Stabilität testen.

Es gibt so vieles. Warum versteift man sich nur auf eine Sache, um Fehler zu finden?
 
foofoobar schrieb:
dieses ganze bunte Overclocker-RAM ist auch in der Regel überteuerter Sondermüll.
.....hey, das ist aber eine sehr toxische Einstellung all den RGB Helden gegenüber, die tagein, tagaus für ein möglichst gut ausgeleuchtetes und spektrales Leben in den Krieg ziehen. Das prangere ich an. :evillol:
 
  • Gefällt mir
Reaktionen: Corbana01
Hast Du die Möglichkeit mal ein Netzteil mit gleich oder mehr als 550Watt gegenzutesten?
Das riecht irgendwie nach einem POWER-Problem, dass hier irgendwas rumspackt. 450Watt könnten hier ein Flaschenhals sein. Laut NT-Rechner von Bequiet würde dein 450er schon mit 92% im roten Lastbereich hängen, klar die zippeln sich dass schon so zurecht dass man immer über Bedarf kauft aber vielleicht haut Dir hier der Ryzen wirklich soviel Last in den Peak. (Meine Annahme, habe schon öfter gelesen dass so einige unerklärliche Probleme mit einem NT-Tausch gelöst wurden.)

Nimm mal Last raus indem Du nur EINE GPU im System drin hast, also wirklich physikalisch rausnehmen und gegentesten.

Ansonsten nach MB-Wechsel mal ein frisches OS ohne die alten Daten aufgesetzt falls ein Fehler im Dateisystem exotische Effekte produziert?

Ansonsten, um alles andere Auszuklammern:
RAM auf der Kompatiblitätsliste des MB-Herstellers und umgekehrt beim RAM-Hersteller MB auf deren Liste?
RAM mal auf XMP aber mit niedrigerer Frequenz eingestellt um hier Druck rauszunehmen?
Aktuelles BIOS drauf? (Nehme ich an wenn Du schon mit Linux hantierst.)
RAM nur XMP? Spannung 1.35Volt oder ggf. die Herstellerempfehlung gelegt? Mal 1.37 versucht?. Beziehungsweise hier im Forum den RAM-OC-Guide für Ryzen anwenden um 1. mit Taiphoon Ram auszulesen und 2. mit dem Safepreset möglichst nahe an den original XMP-Hauptsettings die korrekten Subtimings und vor allem die dort angegebenen Spannungswerte u.a. manuell einzutragen.

Eine letzte Sache noch zum RAM, zumindest was den Boot angeht, bei vielen Boards kannst Du die Voltage für den RAM für die Bootsequenz, (für den Kaltstart gedacht) seperat einstellen, viele gehen hier dann auf 1.37 oder 1.4.
 
Zuletzt bearbeitet:
BIOS ist aktuell. Das XMP-Profil habe ich jetzt deaktiviert, anscheinend habe ich übersehen, dass die CPU maximal 3200 MHz unterstützt. Hatte extra 3600er RAM gekauft.
Leider habe ich auch keine alternativen Komponenten.
 
Im Ordner C:/Windows/Minidump
befinden sich die Informationen zum blue screen.
Die letzten fünf Files auf den Desktop kopieren.
Mit rar oder zip verpacken.
Hier im Forum hoch laden.
 
Arif12 schrieb:
anscheinend habe ich übersehen, dass die CPU maximal 3200 MHz unterstützt. Hatte extra 3600er RAM gekauft.
Das ist nicht überhaupt nicht schlimm. Wenn der RAM schneller läuft als vom CPU Controller unterstützt, gilt das bei den Heinis von Intel sogar als Overclocking und ist nicht von Gewährleistung und/oder Garantie angedeckt. Aber egal, das nur am Rande. Dein Mainboard arbeitet sogar mit RAM bis 4866 Mhz. Ob Linux bzw. die CPU damit arbeitet, steht wieder woanders geschrieben.

Läuft das System denn nun nach dem Rücksturz auf langsameren RAM Speed fehlerfrei?
Ansonsten hat "Jossy82" eine denkbare Lösung aufgezeigt. Vielleicht läuft der RAM wirklich mit zu wenig Spannung. Das kommt bei RAM mit einer 1.35V Spezifikation immer mal wieder vor. Ich würde mit 1.4V mit der Stabilitätsbeobachtung beginnen.

Ganz am Schluss würde ich einmal eine andere Distribution ausprobieren. Was macht denn das System bei Last?

Link
 
T.N. schrieb:
Ganz am Schluss würde ich einmal eine andere Distribution ausprobieren. Was macht denn das System bei Last?

Was soll das bei einer MachineCheckException bringen?
 
@Arif Sie 3600 MHz -sollten- eigentlich passen, ist zwar tatsächlich oc aber selbst der Hersteller der CPU sagt dass 3600 MHz der anzustrebende Sweetspot für den 3900x ist.

Aber auf 3200 runterzugehen ist schonmal ein guter Ansatz, zusätzlich versuche bitte statt der 2 GPUs nur 1 im System zu haben um dem Netzteil eine dickere Reserve zu geben für den Testlauf.

Und das mit einer andere Distro: Ich kenne mich nicht mit Linux aus allerdings kann wirklich alles eine Ursache sein, drück Dir doch einfach eine Live-Distro für den USB-Stick oder auf DVD rein, so hat man eine Komponente weniger im Spiel. (Support läuft meistens so dass man mehr und mehr Teile auswechselt so das der Ghost in the Machine weniger Platz zum ausweichen hat. ;) Irgendwann hat man Ihn auf ein Teil eingegrenzt, egal ob es nun logisch ist oder nicht, haupsache er hockt nicht mehr im System.)

Hier wird ja auch software zum Schluss inkludiert:
Machine check exceptions (MCEs) can occur for a variety of reasons ranging from undesired or out-of-spec voltages from the power supply, from cosmic radiation flipping bits in memory DIMMs or the CPU, or from other miscellaneous faults, including faulty software triggering hardware errors.
 
Der Rechner läuft seit 8 Stunden problemlos, nachdem ich das XMP-Profil deaktiviert habe.
Der RAM den ich verwende hat eine Spannung von 1.35V. Was ich mich frage ist, wenn man XMP verwendet, dann werden die Einstellungen doch vom Profil festgelegt, oder nicht?
Ergänzung ()

Jossy82 schrieb:
@Arif Sie 3600 MHz -sollten- eigentlich passen, ist zwar tatsächlich oc aber selbst der Hersteller der CPU sagt dass 3600 MHz der anzustrebende Sweetspot für den 3900x ist.

Aber auf 3200 runterzugehen ist schonmal ein guter Ansatz, zusätzlich versuche bitte statt der 2 GPUs nur 1 im System zu haben um dem Netzteil eine dickere Reserve zu geben für den Testlauf.

Und das mit einer andere Distro: Ich kenne mich nicht mit Linux aus allerdings kann wirklich alles eine Ursache sein, drück Dir doch einfach eine Live-Distro für den USB-Stick oder auf DVD rein, so hat man eine Komponente weniger im Spiel. (Support läuft meistens so dass man mehr und mehr Teile auswechselt so das der Ghost in the Machine weniger Platz zum ausweichen hat. ;) Irgendwann hat man Ihn auf ein Teil eingegrenzt, egal ob es nun logisch ist oder nicht, haupsache er hockt nicht mehr im System.)

Hier wird ja auch software zum Schluss inkludiert:
Machine check exceptions (MCEs) can occur for a variety of reasons ranging from undesired or out-of-spec voltages from the power supply, from cosmic radiation flipping bits in memory DIMMs or the CPU, or from other miscellaneous faults, including faulty software triggering hardware errors.
Ich habe nur eine Grafikkarte.
 
Ah sorry ich habe die 2GB als 2x gelesen. :D

Aber Ja, XMP laden heißt das Profil der Sticks zu laden, betrifft Frequenz, Haupttimings, ein paar Subtimings, DRAM-Voltage aber AUCH ein paar andere Spannungswerte die teilweise leider nicht immer dokumentiert sind. - Daher schaut man auch immer beim Mainboardhersteller im Support-Bereich nach ob der Speicher mit der Taktung auch auf der QVL-Liste auftaucht. (Heißt MB-Hersteller hat den RAM erfolgreich getestet in der Combo. Grade bei AMD-Systemen nicht unwichtig.)

Ansonsten: Jetzt könntest Du versuchen XMP bzw bei AMD heißt das auch DOCP zu laden und die RAM-Spannung manuell auf 1.36 oder 1.37 zu legen, anzumerken ist dass erst ab 1.4 für ängstliche die Kacke anfängt zu stinken. (Will sagen es gibt auch einige die sich noch mit 1.45 bis 1.5 wohlfühlen... Das letztere ist dabei tatsächlich schon extrem.)

Wenn das dann läuft oder eben auch nicht Du aber am Ball bleiben willst schau hier mal im RAM-OC-Bereich rein, da könnten Dir auch ein paar Leute mit den Feinjustierungen der einzelnen RAM-Timings helfen um das XMP bei 1.35 oder tiefer stabil zu wuppen, die kennen auch die ganzen Fehler und Probleme die auftreten können.

-Und versuch auch irgendwann mal ein stärkeres NT oder leih Dir eins von jemanden, dass kann es auch durchaus sein. (Montagsgerät oder halt wirklich zu wenig Watt.)
 
Zuletzt bearbeitet:
Ich frage mich manchmal, ob es an Linux liegt. Ich habe eine andere HDD-Festplatte wo darauf Windows installiert ist. Ich werde es mal testen. Solche Tests berauben sehr viel Zeit :o.
Was mich stutzig macht: Ich habe mehrere Stresstests durchgeführt (30 Minuten pro Durchlauf) und der Rechner lief unter Vollast ohne Probleme. Alle Kerne wurden konstant mit 4.2 GHz betrieben. Und wie gesagt, die CPU ist fehlerfrei, ich habe es an Mindfactory gesendet.
 
Zurück
Oben