AMD 7950X / ASRock X870E Taichi: instabil!

Teccie

Cadet 2nd Year
Registriert
Nov. 2012
Beiträge
28
Hi,
ich hoffe hier kann mir jemand Rat geben was ich noch tun soll. Ich bin nämlich langsam fertig mit dem ganzen Mist und zweifle am Universum.

Kontext:
Ich nannte einen fast 11 Jahre alten Desktop mein Eigen und das war auch mein Hauptsystem. Nun sollte ein neuer her, das war im Jahr 2023.

Versuch 1:
Entschieden hatte ich mich nach einiger Recherche für die AM5-Plattform. Nach unzähligen Mainboards, Netzteilen und RAM-Kits (jede Komponente jeweils mindestens 5 Mal getauscht; dies ist keine Übertreibung ich zählte 7 Mainboards!) habe ich jedoch dieses System nicht stabil bekommen und habe entnervt aufgegeben. Rückblickend muss es ja dann eigentlich die CPU (7800X3D) gewesen sein, die wahrscheinlich defekt war.
Nun denn, an AM5 die Finger verbrannt habe ich dem Ganzen kein Vertrauen mehr schenken können. Alles retourniert oder verkauft (die Versuche zogen sich über Monate).

Versuch 2:
Versuch 2 war dann Intel 1700, genauer gesagt ein 14900K. Ihr könnt euch wohl denken was passiert ist. Einige Monate war ich endlich zufrieden. Bis die Degradations kamen. Zwei CPU-Reklamationen später, die jeweils für 2-3 Monate Besserung brachten, war klar: so kann das auch nicht weiter gehen.

Was aber tun? Ich kann ja nicht weiter mit einem - Stand 2024 - nochmal mehr veralteten Desktop rumgurken.

Versuch 3:
Also nochmal AM5.
Und wie soll es schon bei meinem Track-Record schon sein: Das System ist nicht stabil.

Vorhandene Komponenten:
  • PSU: Seasonic Vertex GX 1000
  • GPU: PNY RTX 4080 XLR8
  • CPU: AMD 7950X*
  • MB: ASRock X870E Taichi*
  • RAM Kit 1: (ECC) 2x Kingston KSM56E46BD8KM-48HM*
  • RAM Kit 2: (non-ECC) 2x G.SKILL F5-6400J3239G32GX2-TZ5RK
  • Die RAM-Kits sind nicht gleichzeitig drin! Ich habe unten genauer erklärt, wie ich diese verbaut und getestet habe! Das System ist mit nur einem einzigen Riegel ebenfalls instabil!

Die PSU und GPU sowie der G.SKILL RAM waren alle bereits für >1 Jahr mit dem Intel-System in Benutzung und das System war dort abseits der irgendwann aufgetretenen Degradation komplett in Ordnung. Ich gehe also davon aus, dass diese Komponenten in Ordnung sind.
Die mit * markierten Komponenten sind der aktuelle Neukauf, dort befinde ich mich also noch im Zeitfenster für Retouren.

Die Situation / das Problem:
Ich habe auf dem Mainboard die aktuellste stabile non-beta Firmware, nämlich 3.16 vom Dezember 2024.
Egal ob ich Windows oder Linux (Kernel 6.12.16, 6.13.1) drauf habe und egal welche RAM-Konfiguration, ich habe diverse Fehler und Abstürze:
  • Linux: Kernel null pointer dereferences und diverse andere oopses
  • Linux: Sporadische USB-Disconnects (sowohl USB 2 als auch USB 3)
  • Linux: Bei höherer USB-3-Aktivität teils Systemcrashes mit eingefrorener Maus (reproduziert mit 2,5'' HDD an USB-C-Adapter sowie NVMe-USB-C-Adapter; beide funktionieren an anderen Systemen fehlerfrei)
  • Windows: sporadische BSODs jeder möglicher Art (kein bestimmter Treiber oder Modul) und zwar auch schon kurz nach der Installation noch während der Ersteinrichtung (wo man den Benutzernamen einstellt etc.)

Bisherige Versuche:
  • UEFI Reset auf Defaults (der G.SKILL defaultet dabei auf Takt 4800, der Kingston auf 5200)
  • Nur ein RAM-Stick (Kingston oder G.SKILL) in Slot A2 / B2; damit wurden die BSODs in Windows gefühlt etwas seltener, verschwinden jedoch nicht gänzlich
  • Nur ein RAM-Stick in Alot A1 / B1; damit bekam ich POST-Code C5
  • Passmark MemTest v11.2 Pro für 4 Stunden durchlaufen lassen jeweils mit beiden G.SKILL und beiden Kingston-Riegeln: keine Fehler
  • Y-Cruncher mit allen Tests für 2-3 Stunden laufen lassen: keine Fehler

Aktueller Zustand:
  • UEFI auf Defaults, neueste stable Version (3.16 von 12/2024)
  • Windows 11 24H2 komplett up-to-date inkl. Chipset-Treibern von der ASRock-Seite
  • Einen der G.SKILL-Riegel (einer der stabilen aus dem Intel-System) in Slot B2, wegen UEFI-Defaults auf 4800 40/40/40/117
  • Damit heute einen Bluescreen gehabt, und zwar wieder einen einzigartigen den ich bisher noch nicht hatte (ist wie gesagt jedes Mal ein komplett zufälliger). War leider schnell weg, aber wenn ich ihn richtig erkannt hab dann war es "PFN List Corrupt"

Ich bin ehrlich, ich habe langsam den Glauben an mich selbst und an den modernen PC-Markt verloren und bin kurz davor einfach die AM5-Sachen zurückzuschicken und mir die Idee eines modernen Desktops aus dem Kopf zu streichen. Es kann doch nicht sein, dass ich drei Bauversuche auf zwei Plattformen mit Neuware probiere und immer irgendwas total komisches passiert.

Was nun?
Hat jemand noch eine Idee, was hier los sein könnte? Was könnte ich noch tun?
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: NerdmitHerz und Sinatra81
Teccie schrieb:
  • RAM Kit 1: (ECC) 2x Kingston KSM56E46BD8KM-48HM*
  • RAM Kit 2: (non-ECC) 2x G.SKILL F5-6400J3239G32GX2-TZ5RK

sind die gleichzeitig drin?

6400 sind auch oft zu hoch für Ryzen.

Test: Profil laden und dann Takt manuell auf 6000 setzen. (natürlich nur mit einem der zwei Kits in A2/B2)

Ergänzung ()

Bios up2date?
 
MehlstaubtheCat schrieb:
Wird an deinem gemischten RAM wohl liegen!
Welcher gemischte RAM? Ich habe explizit erwähnt dass es zwei getrennte RAM-Kits sind, einer aus dem alten Build und ein Neukauf, der exklusiv verwendet werden soll.

Ich habe auch extra dazugeschrieben, dass ich aktuell nur einen Riegel drin habe und es damit Bluescreens gibt.

Sinatra81 schrieb:
sind die gleichzeitig drin?
nein

Sinatra81 schrieb:
6400 sind auch oft zu hoch für Ryzen.
Ich habe mehrfach geschrieben, dass die nicht eingestellt sind.

Sinatra81 schrieb:
ja
 
  • Gefällt mir
Reaktionen: fr13del und madmax2010
Teccie schrieb:
Versuch 2 war dann Intel 1700, genauer gesagt ein 14900K. Ihr könnt euch wohl denken was passiert ist. Einige Monate war ich endlich zufrieden. Bis die Degradations kamen. Zwei CPU-Reklamationen später, die jeweils für 2-3 Monate Besserung brachten, war klar: so kann das auch nicht weiter gehen
Der hätte lediglich etwas eingefangen gehört, z.B. den schwachsinnigen 6GHz Boost abschalten.
Ab Werk sind die i9 eine Frechheit.
Die Plattform an sich: Rockstable

Teccie schrieb:
265K/Z890 und glücklich sein. Dein 6400er G.Skill RAM passt.
 
Zuletzt bearbeitet:
Sinatra81 schrieb:
Evtl. anderen RAM mit Expo und <=6000Mhz, bzw. einen aus der QVL testen.
Ich kann jetzt natürlich noch mehr Komponenten bestellen und wieder zurückschicken, aber ehrlich gesagt gehe ich fest davon aus, dass es nicht daran liegen wird. Der ECC-RAM ist erstens ECC und zweitens weder mit UEFI-Defaults (5200) noch mit JEDEC-Profil (5600) stabil (Expo, XMP hat der natürlich nicht).
Der G.SKILL RAM war ja auf dem Intel-System stabil und läuft aktuell mit nur einem Riegel mit 4800, siehe Screenshot. Wie viel mehr konservativ muss man denn noch mit den Einstellungen sein, damit man sich ein drittes RAM-Kit sparen kann?

1740607224278.png

1740606953701.png


Sinatra81 schrieb:
Verbaute SSDs gecheckt?
Ja, ist ok. Aktuell verbaut eine NM620, passiert aber alles auch mit einer Samsung 990 Pro.
 
Das magst du womöglich als Angriff gegen dich werten, was es jedoch nicht ist, aber ich glaube der fehler liegt bei dir.

Keine Ahnung warum genau, aber es kann an vielen liegen, Grobmotoriker mit zwei linke Hände beim Zusammenbauen, oder fünf verschiedene RGB Software aktiv.

Ich baue seit 25 Jahren PCs privat für mich und andere, aber mir ist so etwas nicht mal ansatzweise passiert.

Wie wäre es wenn du das Zusammenbauen und installieren jemand anderen überlässt, einer Person oder einer Firma.
 
  • Gefällt mir
Reaktionen: SP1D3RM4N
Ich glaube zwar nicht dass es daran liegt, aber du solltest dennoch wissen, dass auf den meisten AM5-Boards ECC, obwohl die Plattform es supportet, im BIOS abgeschaltet ist und irreführenderweise ist auch gerne Auto = Disabled. Nur für den Fall, dass du ECC-RAM gekauft hast in der Hoffnung, dass er zur Stabilität beiträgt (würde er tun, aber in dem Fall vielleicht nicht unbedingt) und jetzt glaubst, dass du trotz ECC diese Probleme hast. Wenn du es nicht explizit eingeschaltet hast, dann ist ECC womöglich aus, obwohl du ECC DIMMs eingebaut hast.

Ob ECC aktiv ist kannst du z.B. in der Powershell mittels
PowerShell:
Get-CimInstance Win32_PhysicalMemoryArray | Select MemoryErrorCorrection
testen.
3 = ECC aus
5 = Single Bit ECC (sollte nicht dabei rauskommen)
6 = Multi Bit ECC (kommt bei AM5 raus wenn ECC an ist)

Was dein eigentliches Problem betrifft, wenn du alles wahrscheinliche und offensichtliche schon (mehrfach) probiert hast, dann muss die Ursache beim Rest liegen, egal wie unwahrscheinlich.

Ist die GPU bisher immer mitgewandert? Einfach mal rausnehmen und die Videoausgänge des Boards nutzen.
Und guck mal ob du die Verschraubung des CPU-Kühlers nicht zu feste angezogen hast.
Und wie siehts mit dem Gehäuse aus?
 
  • Gefällt mir
Reaktionen: Teccie
Wolfgang.R-357: schrieb:
Ich baue seit 25 Jahren PCs privat für mich und andere, aber mir ist so etwas nicht mal ansatzweise passiert.
Mir auch nicht, vor dem PC-Neubauprojekt 2023-2025.

Wolfgang.R-357: schrieb:
(...)
Keine Ahnung warum genau, aber es kann an vielen liegen, Grobmotoriker mit zwei linke Hände beim Zusammenbauen, oder fünf verschiedene RGB Software aktiv.
(...)

Ich weiß, das kann jetzt jeder sagen, aber: nein, daran liegt es nicht.
Ich baue jetzt nicht 25 Jahre lang PCs, aber immerhin ca. 14-15 Jahre. Ich bin technisch kompetent, programmiere, RGB-Software kommt mir nicht auf's System, maintaine zahlreiche Server und Familienrechner.
Grobmotorisch bin ich definitiv auch nicht. Ebenfalls verstehe ich was von Hardware (ich designe hobbymäßig manchmal PCBs in KiCad und habe zahlreiche erfolgreiche Projekte vorzuweisen).
Das musst du mir natürlich nicht glauben und ich will und kann es dir auch nicht beweisen oder dich zufriedenstellen. Entweder du glaubst mir und kannst mir inhaltlich weiterhelfen oder du glaubst mir nicht und belässt es bei diesem Beitrag der - da stimme ich dir zu - allgemein natürlich schon seine Relevanz hat.


Khorneflakes schrieb:
irreführenderweise ist auch gerne Auto = Disabled
Zwei Punkte dazu:
  • ASRock schreibt in der Manual offiziell, dass es supported ist
  • Default ist bei diesem Board "Auto", ich hatte es an Tag 0 bereits auf "Enabled" geändert

Dein Powershell-Befehl gibt jetzt natürlich 3 aus, ist aber auch klar, da ich erstens default Settings habe (Auto) und der eine RAM-Riegel, der gerade drin ist, der Nicht-ECC-RAM ist.

Khorneflakes schrieb:
Ist die GPU bisher immer mitgewandert? Einfach mal rausnehmen und die Videoausgänge des Boards nutzen.
Ja, ist sie. Guter Tipp, werde ich morgen testen. Müsste dafür aber nen zweiten RAM-Riegel dazutun, mit einem hatte ich nämlich heute einen Bluescreen, aber auch nur einen. Jedes Mal ein paar Stunden zu warten ist natürlich zu lang.

Khorneflakes schrieb:
Und guck mal ob du die Verschraubung des CPU-Kühlers nicht zu feste angezogen hast.
Eigentlich nicht, denke ich. Ich bin genau so vorgegangen, wie bei allen anderen gebauten Systemen, die keine Probleme hatten. Soll ich auch hier morgen einmal den Kühler neu montieren und die Verschraubung etwas lockerer lassen, auch wenn das dann meiner Meinung nach wieder zu locker sein könnte?

Khorneflakes schrieb:
Und wie siehts mit dem Gehäuse aus?
Ist ein Fractal Define 7 XL. Das hatte ich auch schon mit dem Intel-System benutzt, das ja grundsätzlich stabil war.

Khorneflakes schrieb:
Was dein eigentliches Problem betrifft, wenn du alles wahrscheinliche und offensichtliche schon (mehrfach) probiert hast, dann muss die Ursache beim Rest liegen, egal wie unwahrscheinlich.
Genau das war eine meiner Hauptintentionen mit meinem Thread. Ich weiß nicht mehr weiter und bin daher über Ideen, was es noch sein könnte, und Vorschläge für weitere Tests, sehr dankbar.
 
Hört sich alles stark nach Ram Inkompatibilität an.
Asrock ist etwas empfindlich beim verbauten Ram. Neuestes Beta-Bios ist 3.20
Probier das mal aus. https://www.asrock.com/mb/AMD/X870E Taichi/index.asp#BIOS
und denk an den Chipsatztreiber, gibt es neu seit gestern.

Der Ram der am besten auf Asrock Boards läuft ist dieser Corsair.
32GB-Version
https://geizhals.de/corsair-vengeance-grau-dimm-kit-32gb-cmk32gx5m2b6000z30-a2998430.html

64GB-Version
https://geizhals.de/corsair-vengeance-grau-dimm-kit-64gb-cmk64gx5m2b6000z30-a2952275.html

neuestes Beta-Bios plus diese Corsair Rams sollten dein Problem lösen.
 
ascallon schrieb:
Hört sich alles stark nach Ram Inkompatibilität an.
Verbaut ist aktuell ein Riegel F5-6400J3239G32GX2-TZ5RK.
Der RAM ist zwar nicht in der Support-Liste, aber der F5-6400J3239G32GX2-TZ5RS schon.
Soweit ich das erkennen kann, steht S für Silber und K für Schwarz, sonst dürften die identisch sein.
Laut Hersteller ist der mit 6400 getestet worden und zwar auf 3.06. Ich bin auf 4800 und 3.16.

Ich gehe also weder davon aus, dass es an K vs S scheitern würde noch dass 3.20 in diesem Fall etwas gegenüber 3.16 verbessern sollte, zumal es ja Beta ist und ich noch nicht sicher bin, ob ich das Board zurückschicken muss. In so einem Fall will ich eigentlich eher ungerne Beta-Firmware flashen.

Darüber hinaus würde ich schon sehr gerne eigentlich ECC-RAM einsetzen; dass es aber selbst mit dem quasi supporteten G.SKILL-RAM nicht funktioniert, spricht in meinen Augen aber nicht gegen den ECC-RAM sondern gegen irgendwas anderes bzw. eine andere Komponente.
 
Teccie schrieb:
Soll ich auch hier morgen einmal den Kühler neu montieren und die Verschraubung etwas lockerer lassen, auch wenn das dann meiner Meinung nach wieder zu locker sein könnte?
Neu montieren ist nicht nötig, Schrauben etwas lösen reicht. Eine Viertelumdrehung kann schon reichen, sofern das denn überhaupt die Ursache ist. Das ist nur dann ein Problem, wenn du die wirklich sehr fest angezogen hast. Wenn du dir sicher bist, dass das nicht der Fall ist, dann kannst du dir das eigentlich sparen. Allerdings hast du immer noch unerklärbare Probleme, daher würde ich es sicherheitshalber zumindest mal überprüfen um es sicher auszuschließen. Schrauben lösen und leicht handfest wieder anziehen um sicherzustellen, dass sie mit richtigen Drehmomentbereich angezogen sind. Die meisten Montagelösungen haben einen Endanschlag, den man mit sehr wenig Kraft erreichen kann. Der nötige Anpressdruck ergibt sich dann von selbst.

Teccie schrieb:
Ist ein Fractal Define 7 XL. Das hatte ich auch schon mit dem Intel-System benutzt, das ja grundsätzlich stabil war.
Du könntest trotzdem mal alle Teile des Gehäuse vom Board trennen bzw. die Hardware ausbauen und ohne Gehäuse betreiben. Nur um es auszuschließen. Es würde sich auch anbieten alle sonstige Peripherie, die zum Betrieb nicht nötig ist, abzuklemmen. Und vielleicht auch mal andere Eingabegeräte probieren.
 
Teccie schrieb:
zumal es ja Beta ist und ich noch nicht sicher bin, ob ich das Board zurückschicken muss
Das eine hat dem anderen nichts zu tun.

Teccie schrieb:
In so einem Fall will ich eigentlich eher ungerne Beta-Firmware flashen
Jede Firmware ist "Beta", merkt man dann, wenn die nächste kommt ;)

Teccie schrieb:
Verbaut ist aktuell ein Riegel F5-6400J3239G32GX2-TZ5RK.
Der RAM ist zwar nicht in der Support-Liste
Die Listen kann man getrost vergessen.
Dein 7950X mag den G.skill wahrscheinlich nicht, weil Dual-Rank.
Und den Kingston mag er auch nicht, evtl. weil 2x24GB.

Jedes neue Kit in jedem Fall damit testen. Ich hatte mal 6 Kits die beim Test durchfielen. Nr. 7 lief dann:
MehlstaubtheCat schrieb:
TM5 mit Anta777 Absolute mal durchlaufen lassen

Oder meinem Tipp aus #5 folgen und die RAM Probleme sind Geschichte.
 
Zuletzt bearbeitet:
Khorneflakes schrieb:
Du könntest trotzdem mal alle Teile des Gehäuse vom Board trennen bzw. die Hardware ausbauen und ohne Gehäuse betreiben. Nur um es auszuschließen. Es würde sich auch anbieten alle sonstige Peripherie, die zum Betrieb nicht nötig ist, abzuklemmen. Und vielleicht auch mal andere Eingabegeräte probieren.
Darauf werde ich vermutlich heute hinarbeiten, nützt ja nichts.

till69 schrieb:
Die Listen kann man getrost vergessen.
Weiß ich, ich wollte nur ascallon antworten weil er so sehr auf die Listen hingewiesen hat.

till69 schrieb:
Jedes neue Kit in jedem Fall damit testen. Ich hatte mal 6 Kits die beim Test durchfielen. Nr. 7 lief dann:
Ich stehe synthetischen Tests kritisch gegenüber.
Ich habe ja im OP schon erwähnt, dass ich Memtest und y-cruncher laufen hatte, die keine Probleme fanden.

1740664057614.png


Klar, wenn irgendein Tool irgendwas findet, ist das sicherlich kein false positive. Ich denke aber, dass ab DDR4 die false negatives statistisch schon sehr relevant wurden.

till69 schrieb:
Oder meinem Tipp aus #5 folgen
Intel bietet halt leider keine Möglichkeit für ECC-RAM an, das ist schon recht schade.
Außerdem wollte ich da besonders nach meiner katastrophalen Erfahrung mit den 14900Ks etwas Abstand von nehmen. Aber ich glaube mittlerweile, dass es hier keine kluge Wahl zwischen Intel und AMD gibt.
 
Zuletzt bearbeitet:
Zurück
Oben