Vega 64 instabil: Bild fällt aus, Treiber startet sich neu

dr. lele

Captain
Registriert
Sep. 2012
Beiträge
3.425
Einen schönen Sonntag an alle!

Bevor ich die Karte einschicke frage ich noch einmal hier nach ob jemand eine Idee hat.

Ich habe mir vor etwa zwei Wochen eine Vega 64 Air Boost bestellt, um sie jetzt mit meinem Morpheus 2 und in Zukunft mit Wasserkühlung zu betreiben. Leider bin ich von einigen Problemen geplagt. Ich habe die Karte mit dem Originalkühler eingebaut und etwa eine Stunde getestet und danach den Morpheus draufgebaut.`Temps sehen auch sehr gut aus. GPU 60°C, und HBM 64°C, VRM je nach Spiel bei 90°C, Hotspot bei etwa 80°C. Soweit alles im Rahmen mMn.

Restliches System:
  • CPU: Xeon 1231 v3
  • Mainboard: Asrock Z97 Pro4
  • RAM: 16 GB DDR3 2133MHz G Skill Ripjaws
  • GPU: MSI Vega 64 Air Boost (Mit Morpheus 2 gekühlt)
  • SSD: MX500 2TB + 2 HDDs (alle SMART Werte i.O.)
  • Windows 10 Pro 1809
  • 1440p Monitor: Asus MG278 (144 Hz Freesync)
  • 1080p Monitor: Asus VE278 (60 Hz)
  • Be Quiet Straight Power E9 480W (jetzt 11 750W)
Das System habe ich seit 2014 und habe es mit einer Radeon R7 280, R9 390X und 480 OC immer stabil betreiben können.

Mit meinem alten be quiet Straight Power E9 480W Netzteil hatte ich dauernd Bluescreens, Freezes, Crashes to Desktop in CS:GO und schwarze Bildschirme. Bei den Freezes half nichts außer das Netzteil aus und wieder einzuschalten, sonst ab es keinen Boot.

Zunächst habe ich dann mit DDU verschiedene Treiber durchprobiert, 19.1.1, 19.2.2 und 19.2.3 nachdem er raus war. Das hat alles nur kurzfristig geholfen. Dann habe ich Windows 10 komplett neu installiert. Dabei gab es beim ersten Versuch einen BSOD während der Installation, "KERNEL_SECURITY_CHECK_FAILURE". Der zweite Versuch hat dann geklappt und hat die Abstürze seltener gemacht aber sie traten immernoch auf. Auf Anraten eines weiteren Forenmitglieds habe ich mein BIOS auf default gesetzt und eine Nacht lang Memtest laufen lassen ohne Befund.

Dann habe ich, da auch viele andere ein ähnliches Problem hatten ein neues Netzteil bestellt (Straight Power 11 750W) und eingebaut. Die Karte lief damit @stock "fast" stabil, keine Bluescreens mehr. Jetzt nur noch selten Freezes und Blackscreens mit Treiberneustart. Dann habe ich ein einem weiteren Thread gelesen, dass es hilft HDCP in den Radeon settings für HDMI zu deaktivieren.

Jetzt läuft das Ganze stabil @stock in Metro Exodus, Apex Legends, Killing Floor 2, alles mehrere Stunden getestet. Nur in CS:GO (was die Karte nicht annähernd auslastet) hatte ich gestern wieder einen crash. In der Ereignisanzeige steht nichts, nur dass das System ohne ordentliches Herunterfahren neu gestartet wurde! Beide Bildschirme gehen aus und nur ein Ein- und Ausschalten des Netzteils bewegt meinen PC dazu wieder hochzufahren.

Dieses Problem besteht nun mit beiden Netzteilen und ist sehr schwierig zu testen, da ich echt stundenlang für einen Crash zocken muss. Witzigerweise treten diese Crashes nicht auf Communityservern auf, sondern nur im Matchmaking wo es noch frustrierender ist. CS:GO habe ich bereits neu installiert um es als Problem auszuschließen. Einmal hatte ich auch einen Crash to Desktop, der kommentarlos das Spiel beendet hat.

Weitere Probleme sind, dass sich UV/HBM OC extrem merkwürdig verhalten. Wenn ich das PT um auch nur ein Prozent bewege verhält sich die Karte komplett anders als @stock. Normalerweise hält sie ~1550 MHz @220W, mit PT-1 etwa 1300 MHz @219W. Genauso auch wenn ich nur den HBM-Takt ändere und den GPU-Takt nicht anfasse. Sofort läuft die Karte nur noch mit etwa 1300-1350 MHz. Ist das normal?

TL;DR:

Problem: seltene Abstürze in CS:GO (Blackscreen, nur Hard Reset fähr PC wieder hoch) aber auch nur alle paar Stunden.

Was ich versucht habe:
  1. verschiedene Treiber, Treiber neu installiert (mit DDU)
  2. Windows neu installiert
  3. BIOS defaults und Memtest
  4. Neues Netzteil (SP11 750W)
  5. HDCP im Treiber ausgestellt.
Hat noch jemand einen Tip oder muss die Karte zurück? Ich bin echt mit meinem Latein am Ende :D
 
Zuletzt bearbeitet:
dr. lele schrieb:
Problem: seltene Abstürze in CS:GO (Blackscreen, nur Hard Reset fähr PC wieder hoch) aber auch nur alle paar Stunden.
Das ist natürlich schwer zu testen.
Das die Karte abstürzt, wenn sie nicht ausgelastet ist, spricht entweder für eine andere Ursache oder für einen Fehler, der bei der Qualitätsprüfung nicht aufgefallen ist, weil sie da vermutlich mit Vollast testen.
Du kannst versuchen die Karte als super stabil zu konfigurieren....senk also alle P states ein gutes Stück ab...geh auch beim HBM2 ein Stück runter ...auf 850 z.B. und dann teste nochmal.

Wenn das das Problem behebt, würde ich die Karte reklamieren.

dr. lele schrieb:
Weitere Probleme sind, dass sich UV/HBM OC extrem merkwürdig verhalten. Wenn ich das PT um auch nur ein Prozent bewege verhält sich die Karte komplett anders als @stock. Normalerweise hält sie ~1550 MHz @220W, mit PT-1 etwa 1300 MHz @219W. Genauso auch wenn ich nur den HBM-Takt ändere und den GPU-Takt nicht anfasse. Sofort läuft die Karte nur noch mit etwa 1300-1350 MHz. Ist das normal?
Kommt mir auch komisch vor, aber ich habe auch noch nie das PT gesenkt^^.

Zum Strom sparen habe ich immer das PT auf +50 gesetzt und bin mit weniger Spannung und angepasstem Takt vom Power Limit Betrieb in den Takt limiterten Betrieb gewechselt.
...wobei der Takt bei Vega immer schwankt...blöde live Berechnung.
 
Hm, weiss nicht. Graka zurückschicken ist vielleicht der falsche Ansatz. Wie waere es mit nem custom-Kühler, wo die Vega als kompatibel aufgeführt ist? Der heisst dann zb. auch nicht morpheus II, sondern morpheus vega, kommt irgendwann mitte märz und kühlt auch ram und vrm's der vega mit. "Die" werden ja nicht nur aus spass extra ne version für vega anpassen.
 
Baal Netbeck schrieb:
Zum Strom sparen habe ich immer das PT auf +50 gesetzt und bin mit weniger Spannung und angepasstem Takt

Damit komme ich witzigerweise nicht stabil an die 1550 ran, die die Karte @stock macht. Ich hatte echt Schwierigkeiten ordentliches UV hinzukriegen, meist landete ich bei 1400 MHz @220W...
Das Problem ist, dass ich nicht deutlich über die 220W Verbrauch gehen will, da sonst die VRMs noch wärmer werden.

Baal Netbeck schrieb:
Fehler, der bei der Qualitätsprüfung nicht aufgefallen ist, weil sie da vermutlich mit Vollast testen.

Das mit den Lastwechseln war auch meine Idee. Die Karte ist ja stabil in allen Stresstest und benchmarktools, eventuell wurde da etwas übersehen.

Läuft deine Vega denn zufällig stabil in CS:GO trotz UV?

Mac_Fly schrieb:

Moin, habe deswegen schon Kontakt mit dem Raijintek Support gehabt. Der Morpheus Vega hat lediglich etwas mehr Abstand zwischen den Kühlfinnen und ist dadurch etwas länger. Es sind leider keine anderen VRM Kühlkörper dabei als beim Morpheus 2.


Baal Netbeck schrieb:
habe auch noch nie das PT gesenkt^^.

Das passiert auch wenn ich einfach PT+10 mache. Oder +1. Jede Änderung hat zur Folge dass die Karte bei gleichem Stromverbrauch deutlich niedriger taktet. Auch zB der HBM-Takt ist dann nicht mehr stabil und schwankt zwischen 800 und 945 MHz.
 
Zuletzt bearbeitet:
dr. lele schrieb:
[..]Kontakt mit dem Raijintek Support gehabt. Der Morpheus Vega hat lediglich etwas mehr Abstand zwischen den Kühlfinnen und ist dadurch etwas länger. Es sind leider keine anderen VRM Kühlkörper dabei als beim Morpheus 2.
Seltsam, lt. deren Webseite sind die Kühlfinnen und die Maße identisch, genauso wie die beigelegten Kühlkörper für rams und vrms, stimmt jetzt nicht so ganz mit Deiner Auskunft vom Support überein.
Und trotzdem gibts extra die vega-version, obwohl alles gleich sein soll?

Lt. Reviews wurden angeblich die heatpipes und was an der Kühlerbase selber geändert um um zwei Hotspots vom HBM-Modul besser abfangen zu können. (erstbeste Quelle)
 
Schon richtig, der Kühler ist etwas anders aufgebaut und die Coldplate ist jetzt besser für Vega geeignet. Aber ehrlich gesagt sieht man in der Quelle keinen Unterschied zwischen dem Morpheus 2 und dem Morpheus Vega, außer dass jetzt Platz für Kühkörper auf den Chokes ist. Meinst du die Probleme könnten vom Morpheus 2 kommen?

Zweitbeste Quelle, wobei hier eventuell nur ein Core 2 falsch belabelt wurde: https://www.reddit.com/r/Amd/comments/avbzkw/morpheus_ii_core_edition_vs_morpheus_vega/

Aber auch in deiner Quelle sehe ich nicht wirklich einen Unterschied...
 
Zuletzt bearbeitet:
Nee, sehen tu ich auch nichts. steht nur so im text. Hilft aber auch nur bedingt weiter.

Du hast halt die Karte verändert, bzw. nen Kühler draufgebaut, der zumindest lt. Produktblatt nicht kompatibel ist.
Und jetzt läufts nicht gescheit. Und ob "die Karte" vor dem Umbau schon die Macke hatte, weisste auch nicht.
Und obwohl die Sache noch nicht richtig rund läuft, biste schon mit oc und uv zugange.
Das macht die Sache nicht leichter.
Und den Fehler machste an einem einzigen Spiel fest, was sehr selten nicht gescheit läuft. Alles andere läuft ja anscheinend. Da sehe ich jetzt noch keinen zuverlässigen Anhaltspunkt, um gezielt auf Karte, Kühler, Spiel oder irgendeine andere Komponente Deiner Hard- oder Softwareinstallation zu zeigen. Zu viele Unbekannte.

Genausogut könnte es sein, daß Du jetzt CPU und RAM bei csgo mehr auslastest, weil die Vega mehr fps auf den Bildschirm bringt und so ne Schwachstelle im System aufdeckst, die vorher nicht zum tragen kam, vielleicht auch der ddr3 , der bei den hohen 2133Mhz läuft, also deutlich mehr als von Intel für die Plattform freigegeben oder irgendwas anderes.

Lediglich der Kernel Security Check-Fehler, der bei der Win-Neuinstallation kam, ist brauchbar. Der ist nämlich (auch) nicht normal und sollte nicht einfach übergangen werden, nur weil es beim 2. Versuch dann geklappt hat. Das darf ja nicht sein. Entweder irgendwas klappt immer oder es klappt nie.
Und daß der Fehler kam (und dann ohne was zu verändern wieder nicht), ist ja ein eindeutiger Hinweis, daß da irgendwas nicht stimmt mit Deinem System, vermutlich unabhängig von der Grafikkarte.
Da würde ich jetzt ansetzen und Dein System mal von Grund auf durchchecken wollen. Du hast z.B. was von memtest geschrieben. Was fürn memtest? Irgendwas, was unter Windows läuft oder was vernünftiges, was Du per Stick o.ä. gebootet hast, etwa memtest86+?
Weil bei ner Fehlerbeschreibung ala "verschiedene Fehler, mal dies, mal das".. waere man ja ganz schnell beim SystemRam..
 
Zuletzt bearbeitet von einem Moderator:
  • Gefällt mir
Reaktionen: dr. lele und Baal Netbeck
OC und UV habe ich nur probiert um zu schauen ob die Karte mit geringerem Takt stabil läuft. Mein Hauptaugenmerk und auch Hauptproblem waren natürlich dass die Karte auch @stock abstürzt. So hat das ganze ja begonnen. Der Kühler ist laut Datenblatt zwar nicht kompatibel, mechanische Beschädigung lässt sich aber denke ich ausschließen, da das Ganze ja unter Volllast stabil und kühl ist. MSI gewährt Garantie solange die Kühlleistung des neuen Kühlers passt. Ich kann mir nicht vorstellen wie der Kühler diese Probleme verursachen könnte, aber vielleicht hast du da ja eine Idee? Scheinbar bist du ja der Meinung es wäre der Kühler das Problem.

Ich fand ich habe im ersten Post schon relativ viel beschrieben. Vielleicht kennst du ja einen Test der Lastwechsel simuliert? Denn dass das Problem in einem Spiel auftritt, heißt ja noch lange nicht, dass es an dem Spiel liegt, sondern nur dass die Karte da häufig zwischen den Powerstates wechselt. Und da ist anscheinend etwas merkwürdig. Den Teil mit OC/UV habe ich lediglich hinzugefügt weil ich das Verhalten ebenfalls merkwürdig finde.
 
Das klingt alles recht komisch...
Ich habe die LC edition...also generell mehr Stromverbrauch, da würde normal um die 264W verbraucht werden.
Im moment habe ich sie auf 1050mV und 1702MHz bei P7 und 1050MHz HBM2 eingestellt....bei PT+50%.

Da braucht sie so 220-230W bei 1550-1620MHz und ca.1V, in verschiedenen Spielen,
Wird die GPU nicht ausgelastet, taktet sie auch stark runter und auch der HBM2 Takt geht immer wieder auf 800 runter.

Mit CS GO hatte ich kein Problem, bin da aber so schlecht, dass ich es nicht viel gespielt habe...ein paar Stunden aber schon.

Für alles wo ich die hohe GPU Leistung nicht brauche, habe ich ein "power save Profil" erstellt, wo ich nur 1000mV und 1580MHz bei p7 und generell weniger in allen PStates eingetragen habe.

wichtig ist z.B. auch, dass von links nach rechts alle Takt und Spannungs Wert gleich oder aufsteigend sein müssen.
Hat P6 z.B. 1050 aber P7 1000mV, dann wird entweder P7 auf 1050 gezwungen oder die Karte buggt sich sogar in irgendwelchen Pstates fest.

Der "zurücksetzen" Button oben rechts ist dein Freund;)
Den sollte man ab und zu mal betätigen, wenn irgendwas komisches passiert.
Und dann alles schön aufsteigend konfigurieren und sehen ob es damit funktioniert.
 
Nee, ich bin im Moment eher der Ansicht, daß da noch ein anderer bug versteckt ist, der nichts direkt mit der graka zu tun hat. Ich bin immer noch beim Systemspeicher, vielleicht oben nochmal gucken. Habe die blöde Angewohnheit meine Beiträge noch zig mal zu editieren.. ;)

Begründung: es gab ja auch nen anderen Fehler " Kernel Security..." , der sich erstmal nicht der graka zuordnen lässt und ausserdem ist mir auch noch so aufgefallen, daß Vega-Abstürze, die bei MIR (im Rahmen von oc-versuchen) aufgetreten sind (Vega56 nitro+ Limited Edition) niemals das ganze System lahmgelegt haben, sondern immer vom Treiber gefangen wurden und man nach zwei, drei Sekunden zum desktop "zurückgecrashed" wurde. Also kein dauer-freeze, kein dauer-blackscreen. Mal so am Rande, weiss nicht, wie das bei anderen aussieht.
 
Zuletzt bearbeitet von einem Moderator:
Alles klar, danke für den Tip! Ich habe in der Tat sowohl den alten Memtest86+ als auch den wohl neueren Memtest86 von dieser Seite vom Stick gebootet und durchlaufen lassen: https://www.memtest86.com/

Ich werde den RAM mal auf 1600 MHz stellen und damit testen. Oder gibt es noch andere RAM Tests? Prime95 hat ja auch einen Modus der wohl den RAM mehr belastet.

EDIT: Ja, der Kernel Security Check hat mir auch echt Sorgen gemacht... Auch dass in der Ereignisanzeige nichts steht deutet für mich auf etwas unabhängig von der Karte.

Was sagst Du denn dazu dass das System bisher problemlos lief?

EDIT2: Gerade fällt mir ein, dass meine CPU UV war beim ersten Windows-Installationsversuch. Ich habe erst nach dem Fehler bei der Installation alles im BIOS wieder auf default gestellt. Allerdings habe ich immernoch das XMP-Profil geladen, was ich jetzt mal ändern werde.
 
Zuletzt bearbeitet:
Wenn Du memtest86+ schon hast laufen lassen, alles gut war und nichts an den Speichereinstellungen geändert wurde, dann brauchste das eigentlich nicht zu wiederholen. Naja, mal mit 1600 zu testen, ob das Problem auftritt, kann ja nicht schaden, nur um das Speicherthema mal abzuhaken.
Ist halt schwierig wenn der Fehler nur selten ist und alles andere geht. Vielleicht kannste das Auftreten noch irgendwie weiter eingrenzen, keine Ahnung, aktivier vielleicht mal radeon chill, um die fps zu managen und letztendlich weniger last zu erzeugen. Dann guck, ob es damit besser wird. So als workaround, ist ja scheinbar nur das eine spiel.
Oder teste die Karte mal woanders, falls möglich, ob es da auch Auffälligkeiten gibt..
oder gib sie zurück, bevor es zu spät, ist in der Hoffnung, daß es wirklich an der Karte lag und mit der nächsten alles besser wird zumal die Probleme ja letztendlich wohl erst mit der Karte angefangen haben.
 
Mac_Fly schrieb:
Wenn Du memtest86+ schon hast laufen lassen..
Memtest86+ ist in seinem Fall zwar OK (DDR3) aber grundsätzlich sollte man diesen veralteten Memtest86+ (2013) der auch für DDR4 nicht gedacht ist, einfach abhaken und nur noch den aktuellen "Memtest86" empfehlen und verwenden um den Arbeitsspeicher auf defekt zu überprüfen.

Zudem ist "DDR3 2133MHz" schon ziemliches OC und nicht bei jedem stabil .
Standard wäre hier DDR3 1600.
 
Zuletzt bearbeitet:
Ich habe gerade einige Matches hinter mir (hat echt lange gedauert bis zum Crash) mit 1333, 9-9-9-24. Das ist der Standard den mein BIOS gesetzt hat für den RAM.

Beim dritten Match hatte ich einen Crash to Desktop. Komplett einfach am Ende einer Runde ist das Spiel weg gewesen. Konnte es direkt neu starten und danach ging es bis zum Ende.

Im Event Manager steht gar nichts bei dem Crash. Wie kann ich herausfinden woran das liegen könnte? Wird der RAM eventuell einfach zu warm?
 
Dann mach doch einfach mal einen Memtest86 mit dem oben verlinkten, Beitrag #13.
Wenn du einfach aus dem Game auf den Desktop fliegst, kann auf Probleme mit dem RAM hindeuten,
z.B. zu scharfe Timings. Aber bei 1333MHz und den genannten Timings sollte das eigentlich nicht passieren
in deinem Fall.
 
Ja, wundert mich auch extrem... Ich mache heute Nacht mal einen Memtest. Danke schonmal!
 
Hmm #14
Ah ok, hast es geändert.
Ich sehe eigentlich nirgends eine Info zu deinem Mainboard?
Hast du da die Riegel in A2 und B2 stecken?
 
Zuletzt bearbeitet: (ergänzt)
Ach verdammt, total vergessen. Habe ein Asrock Z97 Pro4. Japp, die Riegel sind wie nach Anleitung im 2. und 4. Slot.

Memtest habe ich gestern Abend im XMP-Profil gemacht, um einen Fehler zu provozieren. In der Free-Version sind nur 4 Passes möglich und die liefen ohne Probleme durch. Soll ich einfach mal Prime95 + OCCT eine Zeit lang laufen lassen? Mir fällt kein anderer Stresstest ein...

Ich werde heute die Grafikkarte mal in einem anderen Rechner mit CS testen und berichten.
 
Habe die Karte in einen zweiten Rechner eingebaut. Der hat einen Pentium G4560 und 8 GB RAM. Ich musste die Karte im PT -30% laufen lassen damit das 400W Netzteil das Ganze stemmt.

Direkt im Hauptmenü von CS:GO ist mir dann der Grafiktreiber abgeschmiert. PC neu gestartet und nochmal probiert und dann nach dem ersten Match hat sich das Spiel wieder komplett geschlossen, also wieder einen Crash To Dekstop. Damit denke ich dass es eindeutig die Grafikkarte ist.

Selbst wenn man jetzt sagt die Karte lief ja mit PT- 30 sollte sie dabei doch nicht abstürzen oder?
 
huhu,

dein eingangs geschildertes Problem kenne ich. Bei mir war es nur nicht CSGO, sondern WoW wo die Vega 64 mit schwarzen Bildschirm abgeschmiert ist (ohne Last, bei Benchmark und Stresstests passierte nichts) und nur Strom trennen geholfen hatte. Beim hochfahren meldete sich dann WattMan, es sei was zurückgesetzt worden im Treiber (frisches Windows, alles default m Treiber und Bios wohlbemerkt, also kein OC oder UV irgendwo ).

Hab die Karte eingeschickt und nun dauert das scheinbar paar Wochen bis zur Klärung. Ist mittlerweile drei Wochen unterwegs bzw beim Hersteller.


Habe ersatzweise eine, dann zwei 1070 Ti genutzt ohne Fehler und das auch dem Hersteller mitgeteilt, dass das System nun läuft. Bei mir ist ein MaxTytan 800 Enermax im Einsatz, was eig genug dimensioniert sein sollte. Auch auf der Schiene.

Vielleicht musst du deine Karte auch einschicken und hoffen, es zieht sich nicht über ein Monat. Bin gespannt, ob der Hersteller mir die Karte einfach zurückschicken will oder doch tauscht. :D

liebe Grüße
 
  • Gefällt mir
Reaktionen: dr. lele
Zurück
Oben