Ryzen und random reboots / freezes

sini

Lieutenant
Registriert
Dez. 2012
Beiträge
862
Hallo zusammen,
ich habe die letzten 2 Jahren mehrere Server auf Basis von Ryzen-CPUs gebaut. Die Leistung ist enorm und die Preis-Leistung phänomenal. Jedoch weisen die 3xxx und 5xxx Chips ein seltsames Verhalten auf, welches ich mir nicht ganz erklären kann.

Vielleicht hat hier ja jemand eine Idee dazu oder eine Ausführungen helfen sogar irgendwem.

4x Server
  • AMD Ryzen 3900X
  • ASRock Rack X470D4U
  • 4x Kingston KSM32ED8/32ME (DDR4 ECC)
  • XenServer XCP-ng

1x Server
  • AMD Ryzen 5700X
  • ASUS B550M-C
  • 2x Kingston KSM32ED8/32ME (DDR4 ECC)
  • Server 2022 STD HyperV

1x Server
  • AMD Ryzen 5900X
  • ASUS B550M-C
  • 2x Kingston KSM32ED8/32ME (DDR4 ECC)
  • Server 2022 STD HyperV

1x Server
  • AMD Ryzen 5950X
  • ASUS B550M-C
  • 4x Kingston KSM32ED8/32ME (DDR4 ECC)
  • Server 2022 STD HyperV


"Probleme" Windows Maschinen
  • Die CPU taktet scheinbar nicht korrekt herunter. Auch ohne Last stets >3 GHz
  • Taskmanager, Hardwaremonitor und CPU bestätigen dies
  • Energieaufnahme und Temperaturen sind entsprechend hoch
  • Nach ein paar Tagen (ca. 1-14 Tage) kommt es zu einem Crash
  • Kein Bluescreen kein nix, einfach tot
  • Das Gerät lässt sich weder per Reset- noch Power-Knopf neu starten oder ausschalten.
  • Netzteil muss ausgeschaltet werden
"Probleme" Xen-Server Maschinen
  • Nach längerer Zeit (paar Monate) kommt es zum Crash
  • Kein Bluescreen kein nix, einfach tot
  • IPMP läuft noch, Console (Bildschirmausgabe) ist eingefroren
  • IPMP Neustart Befehl funktioniert nicht
  • IPMP Herunterfahren Befehl funktioniert nicht
  • IPMP Ausschalten Befehl funktioniert nicht
  • Das Gerät lässt sich weder per Reset- noch Power-Knopf neu starten oder ausschalten.
  • Netzteil muss ausgeschaltet werden

Späteres Verhalten
  • In beiden Konstellation fahren die Systeme nach dem Einschalten des Netzteils wieder hoch
  • Keine Meldung von den Mainboards zu dem Ereignis
  • Unter Windows takten die CPUs nun herunter und benötigen angemessen viel Energie mit entsprechend niedrigeren Temperaturen
  • Nach diesem einmaligen "Blackout" laufen die Systeme seither normal
  • Nachdem das Phänomen aufgetreten ist, passierte dies bislang (ca. 1-2 Jahre Laufzeit) nie wieder

Vermutung
Da das Problem nur einmal vorkommt und es scheinbar irgendwas mit dem Takt der CPUs zu schaffen hat, denke ich, dass dieses Verhalten von den C-States produziert wird. Der dabei entstehende Crash ist so hart, dass das Mainboard / CPU komplett aussteigt und nicht mal einen Reboot hinbekommt. Bei dem Ereignis, scheint aber irgendwas zu passieren welches das "Problem" behebt. Als würden z.B. die C-Statets oder das Energiemanagement neu kalibriert ...
 
Zuletzt bearbeitet:
sini schrieb:
  • Das Gerät lässt sich weder per Reset- noch Power-Knopf neu starten oder ausschalten.
  • Netzteil muss ausgeschaltet werden
Wenn sich das so durch mehrere Maschinen zieht, würde ich ja eher an deinen Bastelkünsten zweifeln.
 
  • Gefällt mir
Reaktionen: DannyA4
Bios der mainboards aktuell ?
AMD chipsatztreiber aktuell?
Wird der Ryzen Powerplan genutzt bei den 3xxx Ryzen?
 
joshim schrieb:
Wenn sich das so durch mehrere Maschinen zieht, würde ich ja eher an deinen Bastelkünsten zweifeln.
Stimmt, daran wird es liegen. Die Intel-Computer die ich baue laufen alle 1a und bei den AMDs bin ich unfähig die CPU richtig aufs Board zu stecken ... 😉

Denniss schrieb:
Bios der mainboards aktuell ?
AMD chipsatztreiber aktuell?
Wird der Ryzen Powerplan genutzt bei den 3xxx Ryzen?
Bios ist aktuell, Chipsatztreiber ist aktuell. Powerplan wird nicht genutzt. Laufen unter Windows mit "Ausbalanciert", keine Ahnung was XenCenter damit macht.

harrysun schrieb:
Die Hardware ist okay, daran liegt es nicht. Das Phänomen tritt auch nur 1x auf und danach nie wieder ...


Ich suche hier keine Lösungsansätze, das Problem löst sich ja von alleine. Meine Frage ist ganz klar ob das jemand auch schon mal beobachtet hat.
 
Also ich habe das bei meinem Gaming PC beobachtet. Freezes und Blackscreens(Bluescreens) ja...
Absolut random... Ich kann auch einen Hardwaredefekt ausschließen.

Einmal kam es zum Bluescreen und es wurde eine .dmp erstellt. Nach einer langen Odysee im Internet setzte ich folgendes um:
- SVM deaktiviert und die dazu gehörigen Features (Kernisolierung,VBS,Hyper-V)

Meiner Meinung nach liegt es an Windows und AMD... Ob es aber am Chipsatz liegt oder an der CPU/GPU kann ich nicht beurteilen. Seit dem ich das verändert habe, habe ich keinerlei Ausfälle mehr.
 
OliMz1990 schrieb:
SVM deaktiviert und die dazu gehörigen Features (Kernisolierung,VBS,Hyper-V)
Das ist in meinem Einsatzzweck leider nicht möglich. Ich brauche ja zwingend die Virtualisierung. Mir ist aber einmal aufgefallen, dass der Host exakt in dem Moment einen crash hatte, als eine VM neu gestartet ist. Keine Ahnung was bei einem Neustart einer VM aus Sicht der Hardware technisch passiert, aber das war extrem seltsam. Bekräftigt deine Theorie mit dem SVM.

OliMz1990 schrieb:
Meiner Meinung nach liegt es an Windows und AMD... Ob es aber am Chipsatz liegt oder an der CPU/GPU kann ich nicht beurteilen.
Windows kann ich ausschließen, da das Selbe ja auch unter Linux passiert. GPU ebenfalls, da die oben genannten keine iGPU haben und andere unterschiedliche GPUs verwendet werden.

Es könnte auch eine Wechselwirkung der C-States und SVM sein. Irgendwas scheint jedenfalls buggy zu sein.
 
  • Gefällt mir
Reaktionen: OliMz1990
Hm… ja in deinem Anwendungsbereich eher etwas schwierig… wenn man aber mal explizit nach den genannten Features googlet im Zusammenhang mit Crashes, BSODS, Blackscreens etc. finden sich einige. Für mich kann ich behaupten das ich nach der Deaktivierung der Features keinerlei Probleme habe.
 
Soooooooooo! Ich habe die Ursache des Problems scheinbar ausfindig machen können. Der Übeltäter ist PBO! Bei den ASUS Mainboards steht die Einstellung im Standard auf [Auto]. Laut ASUS wird bei [Auto] kein PBO verwendet.

Setzt man die Einstellung aber auf [Disabled], passiert folgendes:
  • IDLE Takt wird deutlich reduziert <2 GHz, statt vorher >3,x GHz
  • System läuft ohne Crashes seit nunmehr 50 Tagen im Dauerbetrieb
Meine Vermutung ist, dass die Einstellung mit [Auto] nicht korrekt an die CPU kommuniziert wird und diese entweder den letzten ihr bekannten Zustand von PBO verwendet oder einfach PBO macht. Davon weiß natürlich das Mainboard nichts und steuert die VRMs nicht entsprechend an. Bei den krassen Lastzuständen und Lastsprüngen die PBO versursacht, können die VRMs nicht das Benötige bereitstellen und das gesamte System crasht spektakulär in den Hirntot.

Scheinbar erhalten die CPUs (außer dem 5950) dann nach dem Crash die Information, dass PBO deaktiviert ist. Zumindest würde es erklären, dass die CPUs sich dannach "normal" verhalten.

AMD und ASUS waren bei der Suche nach der Ursache leider absolut keine Hilfe ... Da kommen nur 0815 Antworten bezüglich OS-Unterstützung, Treiber und RAM-WHQL 🙄
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: OliMz1990
Tag eins ohne Shutdown (Reset ohne Bootvorgang), alle PBOs beim Gigabyte deaktiviert und der Fehler lässt sich nicht reproduzieren.
 
Zurück
Oben