seltener crash mit black screen bei niedriger Last

RockNLol

Lieutenant
Registriert
Aug. 2008
Beiträge
828
hi,
ich habe seit über einem Jahr einen wirklich lästigen Fehler bei meinem Hauptrechner, den ich einfach nicht diagnostiziert bekomme.

Es handelt sich um den PC aus meiner Signatur, also folgende specs:
Ryzen 9 5900X
Gigabyte X570 Aorus Elite
4x16GB G.Skill TridentZ RGB 3600MT/s (XMP Profil)
EVGA RTX 3070 FTW3 an einem Riser-Kabel
Seasonic Prime TX 750W
WD Black SN850X 4TB als System-SSD
2x Samsung 870 QVO 4TB SATA, eine für lokale Daten, eine für Hyper-V
Intel X550-T1 10GBE-NIC an einem Riser-Kabel
Custom Wasserkühlung mit Monoblock, GPU und Chipsatzkühlung

OS ist ein aktuelles Windows 11 Pro, zusätzlich läuft permanent eine Proxmox Backup Server VM in Hyper-V.

Übertaktet ist nichts, außer das XMP-Profil des Arbeitsspeichers

Mein PC läuft 7 Tage die Woche zwischen 10 und 14h am Tag. Üblicherweise nutze ich Nachts den Ruhezustand und trenne den PC dann vom Strom. Selten, also alle zwei drei Wochen mal und nicht reproduzierbar wird der Monitor plötzlich schwarz (kein Bluescreen) und 5s später kommt der BIOS Screen und der PC bootet wieder ganz normal. Das Netzteil schaltet nicht vollständig ab, der PC scheint weiterzulaufen. Es hat nichts mit hoher Last zu tun, meist bin ich da gerade bei normaler Office-Arbeit.

Im Eventlog tauchen da immer 3 Fehler gruppiert in derselben Sekunde auf:
  1. Event 11, stornvme, "Der Treiber hat einen Controllerfehler auf \Device\RaidPort2 gefunden."
  2. Event 161, volmgr, "Fehler beim Erstellen der Sicherungsdatei aufgrund eines Fehlers während der Abbilderstellung. BugCheckProgress war: 0x00040049"
  3. Event 41, Kernel-Power 🫡, "Das System wurde neu gestartet, ohne dass es zuvor ordnungsgemäß heruntergefahren wurde. Dieser Fehler kann auftreten, wenn das System nicht mehr reagiert hat oder abgestürzt ist oder die Stromzufuhr unerwartet unterbrochen wurde."
Soviel zur Problembeschreibung; folgendes habe ich probiert:
  • Netzteil tauschen. Blackscreen war für mich ein Strom-Problem, sonst gäbs ja einen BSOD. Erst war ein Enermax Platimax 750W drin, nun oben genanntes Seasonic
  • zwei RAM-Riegel wieder raus. Tut weh, weil ichs für Hyper-V und für die Arbeit oft brauche, nach ein paar Tagen aber wieder derselbe Fehler
  • XMP deaktiviert und RAM mit den default 2166MHz betreiben
  • Neu aufsetzen. Auch mit jungfräulichem Windows 11 keine Besserung
  • Temperaturen mit HW-Monitor gecheckt. Meine Theorie war, bei niedriger Last drehen die Lüfter langsam, vielleicht überhitzt irgendwas, VRMs? Chipsatz? Sowohl mit als auch ohne Last waren die Temps alle voll i.o. Meine Vermutung, dass die VRMs vielleicht den Monoblock nicht anständig kontaktieren war falsch, haben immer <50°C, der Chipsatz ziemlich das Gleiche. GPU hat selten über Wassertemperatur und die CPU war auch unproblematisch.
  • Stresstest mit Furmark und Prime 95. Damit konnte ich den Fehler auch nach Stunden nicht provozieren
Mit den Fehlern im Eventlog konnte ich nicht viel anfangen, weshalb ich sie eher als Resultat eines anderen Fehlers anstatt als die Ursache abgetan habe.

Habt ihr eine Idee oder einen Anhaltspunkt, was das Problem sein könnte?
Was kann ich noch testen?

LG
R'N'L
 
Probier mal positive Offsets beim curve optimizer (PBO). Also mehr Saft geben.
Wieso?
Ich hatte meinen 5950 4 Jahre lang mit -20 betrieben, in den letzten paar Monaten startete er nicht mehr sauber, nachdem ich die Offsets raus genommen hatte, war wieder alles io. Da ist irgendwas auf dem Chip gealtert.


Ansonsten, welches Gerät hängt an raidport2? Die WD SN850?

Ggf eine SSD am sterben, die sich aufhängt. Was sagt SSD healtchecks?
 
  • Gefällt mir
Reaktionen: RockNLol
RockNLol schrieb:
  1. Event 11, stornvme, "Der Treiber hat einen Controllerfehler auf \Device\RaidPort2 gefunden."
  2. Event 161, volmgr, "Fehler beim Erstellen der Sicherungsdatei aufgrund eines Fehlers während der Abbilderstellung. BugCheckProgress war: 0x00040049"
Deine WD Black macht wohl Probleme. Hast du die neueste Firmware drauf? Es gab Firmware Upgrades wegen Bugs bei der Serie.
 
  • Gefällt mir
Reaktionen: Viper1982 und RockNLol
CrystalDisk Info sagt bei allen SSDs, dass sie OK sind. Was der raidport2 ist weiß ich leider nicht. SATA? NVME?

PBO hab ich schon ewig nicht mehr angefasst, wird das nicht bei jedem BIOS-Update mit allen anderen Einstellungen zurückgesetzt? Dann wäre das ziemlich sicher auf default, BIOS habe ich nämlich gerade geupdatet.

Die Firmware der WD Black schau ich mir gleich mal an, wäre nie auf die Idee gekommen, dass man das Ding updaten könnte.
 
Vom Namen her ist's nvme. Probier mal die Firmware aus, ansonsten ggf mal auf gut Glück wechseln oder so
 
Also die FW der WD Black 850X war schon mal veraltet (hab ja auch immer noch die von der Auslieferung drauf). Ist nun up2date. Auch eine der Samsung SSDs hat ein Update, das mache ich jetzt zur Sicherheit einfach auch mal.
Und dann heißts warten :freak:
 
  • Gefällt mir
Reaktionen: NameHere
Üblicherweise nutze ich Nachts den Ruhezustand und trenne den PC dann vom Strom

Man fährt den PC runter und dann trennt man ihn vom Strom, sonst gehen die gespeicherten Daten verloren.

Und PC runterfahren geht ja seit Win 10 auch nicht mehr ohne eingreifen, Schnellstart unter Energieoptionen , einstellen was beim drücken des Netzschalters passieren soll Schnellstart Haken wegnehmen.

1.png

Dort wird dann der Schnellstart stehen wenns noch nicht deaktiviert ist.


Event 41, Kernel-Power

Iwo fehlt es an Strom und der Rechner startet neu. Es sei denn sowas kann auch durch die falsche Firmware der SSDs herrühren.


Es gab auch vereinzelt 5900X Prozessoren bei den es ein Problem mit PCIe 4.0 gab, dort mal im UEFI 3.0 bei der Grafikkarte auswählen falls es weiterhin zu abstürzen kommt.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: RockNLol und OSx86
Viper1982 schrieb:
Iwo fehlt es an Strom und der Rechner startet neu. Es sei denn sowas kann auch durch die falsche Firmware der SSDs herrühren.
nein , der Fehler kommt IMMER, wenn windows nicht fähig ist, dass man einen richtigen Fehler schreibt.
Und das sind zwar Stromprobleme aber auch genauso Probleme mit der Persistenz. Wenn zB die Festplatte abschmiert, kann Windows nichts schreiben. Windows schreibt dann beim nächsten Start einfach den Kernel-Power-Fehler, der im Grunde nur sagt "keine Ahnung was hier passiert ist, aber die Software war nicht mehr lauffähig".
 
  • Gefällt mir
Reaktionen: RockNLol
Viper1982 schrieb:
[...]
Man fährt den PC runter und dann trennt man ihn vom Strom, sonst gehen die gespeicherten Daten verloren.
[...]
Ich verwende den Ruhezustand (S4, suspend to disk) und nicht Standby (S3, suspend to RAM). Da geht nichts verloren, auch wenn man ihn vom Strom nimmt. Ist beim Aufwecken auch nicht schneller als ein normaler boot, aber alle meine Programme sind wieder da, wo ich sie gelassen habe.

PCIe 3.0 für die GPU werde ich probieren, wenn das Firmwareupdate nicht geholfen hat, danke für den Tipp.
 
Zurück
Oben