Nicht reproduzierbare Soft-Crashes nach SSD-Einbau

PS828

Der Flieseninspektor
Moderator
Registriert
Juni 2019
Beiträge
8.358
Guten Abend liebe Community,

Ich wende mich nun doch einmal umfangreich an die allgemeine Expertise hier im Forum, da ich mir langsam keinen Rat mehr weiß und evtl. das offensichtliche übersehe. Aber von beginn an. (wird leider etwas dauern alles zu beschreiben)

Das System um das es hier geht ist folgendes:

CPU: AMD Ryzen Threadripper 3970X (kein overclocking)
Mainboard: Gigabyte Aorus Master TRX40
GPU: Radeon RX 6900 XT (kein Overclocking) + Radeon Pro WX3200
RAM: 128 GB (8x16GB) Crucial Balistix 3000 MT/s CL15
Netzteil: Corsair AX1600i
Soundkarte: Creative SoundblasterX AE-7
Speicher: 3x HDD (2,4,8 TB) 1x AIC SSD Corsair Neutron NX500 (400GB)

In dieser Konfiguration lief das System seit Februar 2019 absolut stabil und es gab keinerlei Probleme.

aus Platzmangel für schnellen SSD Speicher habe ich nun bereits Anfang August 3 nvme SSDs eingebaut. (2x 1TB +1 x 2TB Samsung 970 EVO Plus)

Die drei M.2 Slots des Mainboards sind vorher seit dem kauf Anfang 2019 nicht benutzt worden. Aufgrund von Speichermangel sollte die AIC SSD nun durch die genannten drei nvme M.2 SSDs ersetzt werden. Nach dem Einbau der SSDs sind alle drei sofort erkannt worden und die Installation der aktuellsten nvme Treiber (direkt von Samsung) konnte durchgeführt werden. Die aktuellste Firmware war bereits installiert und auch die Windows-Installation vorher verlief ohne Probleme.

Leider tritt seit dem Einbau immer wieder der gleiche Fehler auf , welcher das System spontan deaktiviert. Dabei handelt es sich nicht um einen blitz-Shutdown wie man ihn von Stromausfällen kennt, sondern einen langsameren Shutdown. Der einzige Hinweis auf den Absturz findet sich in der Windows Ereignisanzeige:

"Ereignis 56" , Application Popup

ACPI
15


Bei diesen Abstürzen verliert das System zunächst sämtlichen Ton, bleibt aber völlig normal benutzbar. Im Taskmanager liegt zeitgleich kurz auf allen installierten Festplatten und SSDs eine schreiblast an (zurückschreiben des Caches auf die Festplatten vielleicht?) und dann geht das System ohne abschaltbildschirm einfach aus ohne Fehlermeldung oder Bluescreen. Zwischen dem Ausfall des Tons und dem ausgehen des Systems vergehen ca. 5-10 Sekunden. Anschließend lässt es sich normal wieder einschalten und funktioniert normal bis dieser Fehler erneut auftritt. Daten oder fortschritt verliere ich bei diesem gesamten Vorgang nicht.

Die Zeitpunkte des Auftretens dieses Fehlers sind völlig willkürlich können von zwei mal binnen 15 Minuten bis einmal in zwei tagen schwanken.

Auch spielt die Anwendung oder systemlast keine rolle. Der Absturz tritt auf im Leerlauf, aber auch nach stundenlanger Volllast bei Computing oder Gamingaufgaben mit mäßiger gesamtlast.


Um die Ursache einzugrenzen habe ich jede andere Hardwarecomponente auf Stabilität und Funktionalität geprüft. Alle Tests wurden bestanden.

Ich habe getestet:
-aktuellste BIOS Version aufgespielt, System lief aber auch mit alter Version stabil
-Die CPU: vor SSD-Einbau dauerlast über Tage, absolut stabil, egal ob mit oder ohne PBO und Single Core oder alle 64 Threads unter Volllast
-GPU: Im dauertest nie auffällig gewesen, beide karten laufen ohne Probleme.
-Netzteil: dank 1600 W eigentlich kein Problem, dennoch CPU (PBO 415+W) und beide GPUs (ges. nochmal 400 W) dauerlast über viele stunden stabil, power Spikes bis 1200 W, weit unterhalb der 1600W Kapazitätsgrenze, kein auslösen der Schutzschaltungen oder abstürze vor oder nach dem Einbau der SSDs.
-soundkarte: System Stabilität mit und ohne getestet, in keinem fall bedenklich oder auffällig
- Windows und alle Programme bis auf Davinci Resolve und spiele Bibliotheken auf SATA SSD installiert, abstürze traten auch auf obwohl nur minimale Last an den nvme SDDs anlag
-SMART werte der drei SSDs überprüft und Scan mit Samsung Magican durchgeführt: keine Auffälligkeiten Leistungsdaten entsprechen ebenfalls vorgaben. Abstürze sind weiterhin zufällig, egal ob SSDs starker, mittlerer oder geringer/keiner Belastung ausgesetzt sind.
-RAM mit Hilfe von MEMTST86 auf Instabilitäten geprüft. Sowohl unter JEDEC als auch XMP Timings kein einziger Fehler im Test mit vier kompletten Durchläufen.

Das einzige was nicht final ausgeschlossen werden kann, ist dass die Anschlüsse des Mainboards irgendetwas mit den Abstürzen zutun hatten, da diese bis zum Kauf dieser SSDs nicht benutzt worden sind. Falls der Fehler im UEFI liegt dann existiert er länger als ein Jahr und tritt auf allen UEFI-Versionen des Boards auf.

Bei einer Umfangreichen Onlinesuche zu speziell diesem Absturz mit diesem Absturzbericht gibt es eine leichte Tendenz, dass dieses Problem besonders bei Systemen mit Gigabyte Mainboard (AMD AM4, X399, TRX40, Intel Z und B chipätze der letzten jahre (300er 400er und 500er) und Samsung 970 Evo plus SSDs auftritt.

In folge dieser Ereignisse und der recherche habe ich die drei SSDs zurückgeschickt um erstmal auf der SATA SSD von 2015 (Kingston HyerX 240 GB) ein minimalsetup zu betreiben damit der PC benutzbar bleibt und zu schauen ob der Fehler nun immer noch auftritt. Diese SSD hat schon meine alte x99 Plattform von ende 2015 bis Februar 2019 begleitet und hat nie Probleme verursacht.

Doch leider tritt der oben beschriebene Fehler, welcher seit Installation der 3 M.2 SSDs zum ersten mal auftrat, nun weiterhin auf und verschwindet nicht mehr, obwohl das System nun wieder wie vor dem Einbau ist, mit dessen Setup es fehlerfrei funktionierte.

Neuinstallationen von Windows helfen leider auch nicht, also habe ich versucht auf Linux auszuweichen um dort evtl. keine Abstürze mehr zu haben, diese kamen auch in den wenigen stunden in denen ich mich an Manjaro versucht habe nicht mehr vor. Problem ist aber dass bestimmte Treiberfeatures der Radeon Pro Software und meine Soundkarte unter Linux nicht funktionieren, weshalb ein umstieg nicht möglich ist.

Da das Problem weiterhin besteht gehen mir nun langsam die Ideen aus ob es nun ein Hard, oder software problem ist. An windosw 11 hab ich mich noch nicht herangetraut und diese Seltsamen, nicht reproduzierbaren Soft-crashes scheinen auch erstmal nicht an der Hardware zu liegen.

Die Sache ist dass das Mainboard und dessen UEFI so ziemlich das einzige ist was ich nicht ausschließen kann, doch sollte ein 600 Euro Board nach knapp 3 Jahren fehlerfreien Betriebs wirklich kaputt gehen, und das einfach so?

Ich möchte auch ohne Garantie bei dieser teuren Hardware nicht auf verdacht anfangen irgendwelche dinge auszutauschen solange die Ursache nicht zweifelsfrei identifiziert ist.

Ich hoffe hier sieht einer noch einen weiteren Ansatz was ich versuchen kann, so wie es jetzt ist ist es Ziemlich belastend. Falls noch Informationen für bestimmte Lösungsvorschläge fehlen bitte einfach fragen! :)

Mit freundlichen Grüßen

Philipp/PS828
 
Interessant wäre welche Windows Version benutzt wurde, ob auch andere Versionen benutzt wurden oder ob diese immer gleich war, wahrscheinlich nicht, ob Windows beispielsweise einmal auf die und einmal auf die SSD installiert wurde und in welchem Slot die SSD mit dem OS verbaut war. Normalerweise kann man hier viel testen (nur eine SSD verbauen, dann zwei, in unterschiedlichen Slots usw.) da aber der Fehler nicht reproduzierbar ist, ist das natürlich schwer.

Da das System vor dem Aufrüsten einwandfrei funktioniert hat, jetzt aber nicht mehr obwohl die gleiche Hardware verbaut ist würde ich rein logisch betrachtet einen Hardwarefehler ausschließen. Hardwarefehler sind ja eigentlich auch reproduzier- bzw. besser eingrenzbar.

Wurden die SSDs auch allesamt mit Benchmarks getestet?
BIOS zurückgesetzt?
 
Windows Versionen habe ich alle getestet seit 21H1 bis die aktuellste die für mein System verfügbar ist. Bei keiner ist die Sache bisher verschwunden (war ja auch so ein wenig meine Hoffnung)

Benchmarks habe ich für alle SSDs ebenfalls gemacht, nichts auffällig soweit, waren auch nagelneu
 
Somit hast du denke ich die komplette Hardware soweit es geht durchgecheckt und deshalb würde ich Ältere Versionen als 21H1 (20H2 o.Ä.) probieren. Eine Idee wäre noch das BIOS nach diversen Einstellungen durchzuforsten (oder zurücksetzen) und unterschiedliche RAM-Konfigurationen auszuprobieren. Rein aus Testzwecken kannst du natürlich auch Windows 11 probieren.

Auch wenn es vorher funktioniert hat, wir wissen denke ich beide wie Windows ist.
 
Also mich plagen auch so gleiche / ähnliche Probleme seit einen halben Jahr . Ich konnte ziemlich sicher die Hardware auschließen ( auch nach tausch ) bis auf die SSD von Samsung 860 Evo da bin ich mir noch nicht sicher. Jedenfalls sofern ich mich richtig entsinne fingen bei mir die Probleme mit den 1H/21 Update von Windows an! Auffällig bei mir ist das Windwos Hello als Fehler sehr oft in der Ereignisanzeige kommt , obwohl ich garnichts installiert hab davon. Ich vermute das Problem aktuell in Windows . Eine Lösung konnte ich auch noch nicht finden.
 
@Drewkev kleine Ergänzung noch.

Hab Windows damals auf allen platten Mal installiert, selbst auf einem RAID zwischen den 1 TB platten zum Testen. Hat leider nichts geändert.

Das media Creation Tool bietet ja immer nur die aktuelle Version an, wie Kommt man an 20H2 zum Beispiel rann?

@Papabär bei kritischen Fehlern kommt bei mir halt auch nie was. Nur das plötzliche Herunterfahren wird angezeigt und eben ID56 Applikation Pop-up mit ACPI 15

Das scheint aber kein häufiges Problem zu sein im allgemeinen.

Weiß nicht ob ich nicht einfach mal Windows 11 installieren sollte Nachdem ich 20H2 getestet habe
 
@PS828
Hab Windows damals auf allen platten Mal installiert, selbst auf einem RAID zwischen den 1 TB platten zum Testen. Hat leider nichts geändert.
Schade.

Das media Creation Tool bietet ja immer nur die aktuelle Version an, wie Kommt man an 20H2 zum Beispiel rann?
Rufus kann das. Falls du aber bei einer bestimmten Version bleibst, kleine Anmerkung:
https://endoflife.date/windows

In Verbindung mit deinem "Fehler" aus der Ereignisanzeige habe ich mittlerweile schon öfter ein zu deaktivierendes "Power State" im BIOS gelesen (natürlich immer nur mit Threadripper). Vielleicht hat dein BIOS sowas.
 
  • Gefällt mir
Reaktionen: PS828
Das mit Power state C6 deaktivieren habe ich auch schon gelesen, habe dazu im bios leider nur "disabling D-CStates gefunden" leider hat es das Problem auch nicht gelöst

Mich ärgert auch dass es quasi immer Gigabyte Boards sind
 
Ich hab jetzt erstmal auf Höchstleistung in Windows gestellt, evtl fallen die kerne jetzt nicht mehr auf C6 runter. Aktuell läuft's Erstmal.

BIOS ist das aktuellste drin, hab letzte Woche dank dual BIOS auf Zwei Versionen die gleichen Probleme gehabt leider. Immer das selbe :D
 
  • Gefällt mir
Reaktionen: Drewkev
Hier mal ein Fehlerbild von mir was öfters kommt
3.JPG
 
@Papabär ja das scheint was anderes zu sein :D passt nicht wirklich zu dem was ich habe leider.
 
@Drewkev Die Sache ist dass die Abstürze wahrscheinlich induziert werden wenn die CPU entweder von Last runterkommt oder im idle ist.

C6 ist ja quasi ganz abgeschaltet was die core Power angeht und Dort scheint ja irgendwas Schief zu laufen

@Restart001 danke, hab geschaut, die ist schon auf disabled, muss ich vor einigen Tagen auch gemacht haben :)
 
  • Gefällt mir
Reaktionen: Restart001
Gut, dann erstmal Daumen drücken ob die Sache mit dem Powerplan das ganze jetzt schon entschärft. Wäre natürlich schön.

8 Wochen geärgert, einfache Lösung :D

Ich halt euch auf dem Laufenden
Ergänzung ()

Meine CPU taktet Jetzt auf 4,09 GHz all Core Dank Ryzen High Performance. Hat sie vorher nicht gemacht. :D mir soll's Recht sein. (Vorher 3,85GHz bei Ryzen Balanced)
 
  • Gefällt mir
Reaktionen: Drewkev
Ich belasse es erstmal beim Ryzen High Performance Profil, das sollte das ganze gut abdecken :) Mal sehen was es bringt
 
  • Gefällt mir
Reaktionen: Restart001
Ich würde auch alle Steckkontakte die belegt sind einmal neu einstecken.
Hatte jetzt den Fall von sporadischen Rechenfehlern auf einer GTX 1080, die Karten quergetauscht, Fehler weg.
Da sucht man auch an allen anderen Stellen und und nichts nützt was.
 
  • Gefällt mir
Reaktionen: PS828
Zurück
Oben