Vega64 Nitro+ stürzt regelmäßig ab

Nero1

Captain
Registriert
Nov. 2009
Beiträge
3.798
Hi zusammen,

ich brauch mal wieder euer Schwarmwissen, um mein Problem zu identifizieren.

Seit Windows 2004 hatte ich massive Performanceprobleme (ich denke v. a. im Zusammenhang mit WSL2 und Treiberproblemen), ewigen Startzeiten von Programmen usw., vor allem aber auch immer mal wieder Abstürze in verschiedenen Spielen. Nun habe ich mal mein Windows neu aufgesetzt mit 2004 Image und rein von der Performance her sieht es jetzt wieder top aus.

Jedoch habe ich weiterhin Abstürze, auf die man warten kann. Diese v. a. in Path of Exile(teils nach Minuten, teils nach ner Stunde), Anthem oder gerade Move or Die. Das Spiel scheint dabei vollkommen egal zu sein. Einmal hatte ich sogar einen Absturz mit Blackscreen während der Browser mit Streams und Videos lief (inkl. Hardwarebeschleunigung im Browser).

Der Fehler ist, wenn auslesbar, immer der gleiche: DeviceLostError. Manchmal kommt es nach dem Crash auch zu Artefakten wie diesem hier, bis das Programm geschlossen wurde und sich Windows wieder etwas gefangen hat:
IMG_7196.jpg


Ich habe das heute sowohl mit Adrenalin 20.9.2 als auch dem letzten 2019er Treiber 19.12.1 probiert, die Abstürze bleiben dabei identisch. Ein BIOS auf Defaults setzen um mein RAM OC auszuschließen habe ich ebenfalls vorgenommen, keine relevante Besserung. OC oder UV habe ich früher mal bei der Vega durchgeführt, aber seit langem gelassen, da ich nie die Ausdauer für ein stabiles Setting hatte. Seitdem lief sie auch in den meisten Spielen gut, Unreal hat nur immer mal wieder gerne rumgezickt. In letzter Zeit häufen sich die Ereignisse aber leider.

Ist die Karte ggf. am Sterben oder habt ihr evtl. sowas schon einmal gehabt und könnt Hinweise geben? Ich warte aktuell noch auf meine 3080, aber solange die nicht da ist wollte ich wenigstens etwas spielen können. Kann man da softwareseitig noch was machen? Im Falle eines Hardwaredefekts ist es zwar kacke, dass ich sie dann nicht mehr verkaufen kann, aber dann wirds immerhin ein schönes Ausstellungsstück in der Vitrine.

Danke schonmal für eure Mithilfe :)
 
Ich will den Teufel nicht an die Wand malen, aber Deine Fehlerbeschreibung + Dein Screenshot klingen für mich nach defektem VRAM.
 
  • Gefällt mir
Reaktionen: Masur25, Rego, muh0rsen und 2 andere
Sieht nach defektem RAM aus, kann entweder OC-bedingt sein, oder tatsächlich kaputt.
Kannst du den RAM-Takt mal unter stock senken?

Edit: Zu spät...
 
Oh man...ich wollt's ja nicht wahr haben :D
Chiller3333 schrieb:
Kannst du den RAM-Takt mal unter stock senken?
Das kann ich tatsächlich mal probieren. Die Stock 900MHz oder was das sind mal runter takten...vlt bringts was. Sonst funktioniert die ja 1a. Aber schade, wenn iwo ein kaputter Chip dann alles instabil werden lässt :)

Als Zweitkarte befindet sich aktuell noch ne RX550 im System, die ich für Dualboot Experimente angedacht habe, die unter Windows aber keinen Zweck erfüllt. Die Vega läuft daher auch auf 8 Lanes. Das sollte aber insgesamt keinen Einfluss auf die Stabilität haben, oder?
 
Nein, das sollte auf die Stabilität keinen Effekt haben.

Ansonsten muss ich mich anschließen, die Artefakte sehen nach einem Problem mit dem Speicher aus, könnte auch eine zu hohe Temperatur des HBM2 sein, da die Artefakte ja nicht permanent vorhanden sind.

Wenn sich seit gut zwei Jahren nichts geändert hat, dürfte die HBM2 Spannung nach wie vor nicht veränderbar sein, bzw. man kann sie verändern, aber die Einstellungen werden ignoriert, d.h. außer Speichertakt runter und mal die Kühlung überpüfen, ob alles Bauteile guten Kontakt zum Kühler haben, sehe ich da wenig Optionen.

Die Karte ist vermutlich schon älter und aus der Garantiezeit raus?
 
mykoma schrieb:
Die Karte ist vermutlich schon älter und aus der Garantiezeit raus?
Die Karte is vom 22.10.2018. Theoretisch kann ich da bei Sapphire vlt noch was probieren, aber ich glaub ehrlich gesagt nicht, dass ich damit durchkomme, geschweige denn, dass die sich die Mühe machen das so ausgiebig zu testen, damit der Fehler mal auftritt.
 
Hast du vll Temperaturen?
Vielleicht ist die Wärmeleitpaste nach den 2 Jahren mal fällig.
Wenn du eh keine Garantie mehr hast bzw sie nicht nutzen möchtest kannst du das ja mal Probieren.
 
Saphire Nitros gehen nicht kaputt...guck nochmal nach und machs halt richtig!!

Spaß beiseite,Ernst komm her.. ich vermute da auch den Vram als Bösewicht... Beileid.
 
Ich hab den HBM mal von 945 auf 850 MHz abgesenkt, werde morgen aber nochmal mit GPU-Z alle Temps loggen lassen. Ich glaube zwar nicht, dass sich da viel geändert hat in den letzten Monaten, aber man weiß ja nie. Wenn das unauffällig ist dann wirds wohl mein erster wirklicher Hardwaredefekt sein, muss ja auch irgendwann anfangen :heul:
Ich schau morgen/übermorgen mal wie das in meinen Sessions bis zum Crash aussieht. (Wenn ich Move or Die betrachte denk ich aber kaum, dass das die Vega so sehr herausfordert, dass der HBM da ins Schwitzen kommt :evillol:)

Ich werde berichten! Danke bisher schon mal für euren Input :daumen:
 
Nero1 schrieb:
Die Karte is vom 22.10.2018. Theoretisch kann ich da bei Sapphire vlt noch was probieren, aber ich glaub ehrlich gesagt nicht, dass ich damit durchkomme, geschweige denn, dass die sich die Mühe machen das so ausgiebig zu testen, damit der Fehler mal auftritt.
nicht nur vielleicht. MACH ES !! Sei froh, dass es innerhalb der zwei Jahre aufgetreten ist. Meldung an den Händler und an Sapphire, wie du es hier gemacht hast. Problembeschreibung und Screenshot. Das Teil ist defekt, da würde ich nicht mehr groß rumbasteln, sondern reklamieren. Dafür gibt es ja die 2 Jahre Gewährleistung. :)
 
  • Gefällt mir
Reaktionen: mykoma
n8mahr schrieb:
Dafür gibt es ja die 2 Jahre Gewährleistung. :)
Nur mit Beweislastumkehr :D Aber ja, werd Mindfactory und Sapphire mal anschreiben. Mal sehen wer sich da zuerst meldet. Mehr verlieren kann ich ja nicht wirklich...
 
Nero1 schrieb:

der SoC der karte crasht und die karte wird nicht mehr erkannt. da sitzt auch der speichercontroller - kann die speicherartefakte erklären.

vega hat ein designproblem mit der spannugsversorgung für den SoC - wer sich mit vega oc auseinandersetzt, weiß, dass soc/memory spannung im wattman mit den vcore verbunden ist. das liegt daran, dass der vsoc bzw. die "memory" spannung aus der vcore gezogen wird - die spannung hat keine richtige eigenständige phase (spannungswandler über pwm controller aus den üblichen 12v, 5v, und 3,3v spannungsquellen) und ist somit von der vcore abhängig und potentiell allem ausgesetzt, was die vcore durchmacht, vorallem den transienten mit spannungsabfällen und spitzen.

der soc auf vega verhält sich ca so wie der soc auf ryzen oder die cldo_vddp. d.h. mehr spannung ist nicht immer besser und es gibt einen sweetspot bereich für stabilität.

ich habe zwei vega 56 msi airboost (referenz design) die beide auf standardeinstellungen crashen. die gpus haben auch beide die gpu tach leds, die die aktivität anzeigen. wenn so ein crash auftritt, sind die dinger komplett aus, d.h. die karte ist "tot" und reagiert überhaupt nicht mehr. es ist auch unmöglich, die karte durch einen treiberreset wieder aufzuwecken, wie es ggf. mit einem core crash der fall ist.

eine potentielle lösung ist also eine möglichst gute spannung für den SoC zu finden und die vcore in pstate 7 auf die selbe spannug zu setzen, damit die umwandlung von vcore zu vsoc einfacher wird.

meiner erfahrung nach (basierend auf meinen zwei vega56s mit samsung hbm) liegt der sweetspot für vsoc (memory) und vcore p7 zwischen 1000 und 1100mV, ggf sogar eher in der unteren hälfte, also zwischen 1000 und 1050 mV.

standard ist eine asynchrone konfiguration mit 1200mV core und 1100mV SoC.

hier ein beispiel:

vega fix.JPG


es gibt noch die theorie, dass die spannungen für vcore und vsoc und für die anderen pstates dem SVI2 standard folgen sollen, d.h. in 12,5mV schritten, wobei bei X,5 ergebnissen abgerundet wird.

das entspricht dem beispiel oben im bild.

meine wakü vega 56 (die bessere) läuft derzeit mit 1025mV und die andere mit 1045mV.

der coretakt muss natürlich an die spannug angepasst werden.

meine gute schafft mit 1025mV core noch 1630mhz (wattman, sollwert) und 1150mhz hbm takt. nur mal als anhaltspunkt. d.h. eine niedrige soc spannung für stabilität muss nicht unbedingt leistung kosten - ich habe das glück, dass meine v56 hier eigentlich komplett im sweetspot läuft, was stabilität, verbrauch und performance angeht.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: n8mahr und Nero1
@duskstalker Interessanter Beitrag. Den werde ich mir mal als Lesezeichen abspeichern. Aber dieses Designproblem scheint dann quasi immer abhängig zu sein von der Güte des Chips oder der Verarbeitungsqualität der elektronischen Komponenten der Karte oder wie soll man das verstehen? Habe im Freundes-/Zockerkreis einige Leute mit Vega 56 Sapphire Pulse (mich eingeschlossen) und auch Vega 64 Sapphire Nitro+ OC oder wie diese Version heißt. Keiner von uns hatte oder hat jemals irgendwelche Stabilitätsprobleme gehabt ... gut, außer mir, aber das lag an meinem zu schwachen 500W be quiet Pure Power 7 Netzteil damals. Seit dem Straight Power 11 750W alles gut.
Ich weiß auch mit ziemlicher Sicherheit, dass da niemand von denen UV/OC betreibt, weil wir uns oft genug über die Karten ausgetauscht hatten (bessere Leistung/Effizienz hin oder her, niemand hatte die Geduld ein stabiles Setup zu finden ^^). Meine Sapphire und die von meinem Kumpel laufen sogar nur im 165W Sekundär-Bios.

Also letztlich so weit verbreitet kann das doch nicht sein, oder? Davon höre ich auch zum ersten Mal (was aber natürlich nichts heißt).
 
ja, das ist definitiv kein allgemeines problem und nur wenige karten sind davon betroffen - würde das im regelfall nicht funktionieren, hätte man das so sicherlich nicht auf den markt gebracht. es gibt auch karten, die einfach nicht stabil laufen (hatten wir hier auf CB auch schon) - da hilft wirklich nur RMA. ich kann aber aus eigener erfahrung mit zwei vega karten sagen, dass die oben erklärte methode funktionieren kann, sofern eben gewisse parameter bei der problematik zutreffen. es gibt bei vega auch einige probleme, die mit der zeit über treiberupdates behoben oder zumindest verbessert wurden. anfang 2019 waren meine beiden vegas eine absolute katastrophe - keine halbe stunde stabil unter teil oder vollast auf standardeinstellungen. das kam auch schleichend - die ersten 2 wochen bei der zweiten vega waren vollkommen in ordnung, und dann gings los und wurde immer schlimmer - unabhängig von der treiberversion. ich würde das als "einspielphase" bezeichnen, in der das silizium oder ein spannungswandler seine technischen eigenschaften durch verschleiß leicht verändert. sowas kann auch mal durch die qualitätskontrolle flutschen.

bei beiden v56 karten waren beide standard-bios (normal und energiespar) nicht stabil - und das geflashte v64 bios mit den standardeinstellungen auch nicht.

ich habe etliche netzteile durchprobiert (nur das teure zeug um 150€) und externe netzfilter - nichts.

mit dem fix laufen beide vegas mit den originalen netzteilen stabil mit denen die karten auch schon heftig gecrasht sind.

zwei unterschiedliche rechner, einmal win7, einmal win10. die vegas kamen von unterschiedlichen händlern mit ca 2 monaten zeitlichem abstand zwischen der anschaffung. eine vega hat ein vergossenes package, eine ein unvergossenes. "schlechte charge" und "windows problem" sowie "inkompatible hardware" sind eher unwahrscheinlich. es sind beides msi airboost karten - die aber gleichzeitig quasi referenz-blower karten sind - layout ist identisch.

ich wollte unbedingt vega 56 karten mit samsung HBM, und die zweite karte hatte dann einfach einen zu guten core mit zu gutem hbm als dass ich die karte hätte zurückgeben wollen - und so hab ich mich dann monatelang durch das troubleshooting gebissen, was dann zu den erkenntnissen geführt hat.

ich muss aber auch dazu sagen, dass ich keine karte mit einem oszilloskop durchgemessen habe, weshalb ich das ganze auch nicht mit messdaten belegen kann.

bei der radeon 7 hat der soc übrigens eine eigene spannungsversorgung bekommen, d.h. das wurde dann in der nächsten iteration "vega" auch behoben. es muss also auch einen grund geben, wieso das gemacht wurde.
 
  • Gefällt mir
Reaktionen: JAIRBS und Nero1
Nero1 schrieb:
Nur mit Beweislastumkehr :D Aber ja, werd Mindfactory und Sapphire mal anschreiben. Mal sehen wer sich da zuerst meldet. Mehr verlieren kann ich ja nicht wirklich...
Beweislastumkehr ist Unsinn, die gibt es nur bei Gewährleistung, du hast min. 2 Jahre GARANTIE, lass dich nicht abspeisen
 
malajo schrieb:
Beweislastumkehr ist Unsinn, die gibt es nur bei Gewährleistung, du hast min. 2 Jahre GARANTIE, lass dich nicht abspeisen
Nein, dein Beitrag ist (teilweise) Unsinn. Bitte informiere dich über die korrekten Begrifflichkeiten, bevor du so Kraftausdrücke wie Unsinn verwendest; es lässt deinen Beitrag nicht gerade intelligenter erscheinen. 2 Jahr Gewährleistung (in dessen Rahmen die Beweislastumkehr in den ersten 6 Monaten liegt). Aber Garantie ist freiwillig, und die gewährt Sapphire zb nur gegenüber Händlern.
 
Kurze Frage: Der Rücksendeassistent von Mindfactory bietet als "Gutschrift abzgl. Nutzungen" 173€ an. Is das annehmbar? Weil lagernd haben die vermutlich eh keine mehr. Was gäbe es dann als Alternative? Oder wird das dann wochenlang zu Sapphire geschickt und iwann im Februar seh ich die Karte ggf. wieder? :D
 
Wenn du Austauch/Reperatur angibst ist sie sicher ne Zeitlang unterwegs..
Im Prinzip kannst ne Nitro gebr. bis/um 200 loswerden,von daher ist das Angebot etwas niedrig.
Bin mir nicht ganz sicher aber bei defekt innerhalb der 24Monaten hast du Anspruch auf Gleichwertiges Produkt
was dann jetzt ca.RX5700 wäre bzw Rückerstattung des gesamten Kaufwertes..Hierbei hat aber der Verkäufer das Recht den Fehler zu beheben(bis zu 3x),sprich zu Sapphire zu schicken. Da dann während der Reperatur Garantie bzw Gewährleistung abläuft ist Heckmeck sollte sie z.B. defekt zurückkommen vorprogrammiert.

Um sich selbst (und dir) das hin und her zu ersparen versucht MF erstmal dich mit den 170ois abzuspeisen und
fettig ist der Lack.. Im Grunde steht dir mehr zu,musste wissen ob du drauf eingehst
 
ne, bei der rückgabe mit rückerstattung ist die karte weg.

hast du schon verschiedene spannungseinstellungen durchprobiert?

weil ich sags ganz ehrlich - falls nicht, und die karte lässt sich mit einer spannungseinstellung perfekt stabilisieren und du schickst sie jetzt voreilig zurück, verbrennst du ordentlich kohle, weil du dann ohne gpu dastehst und die 173€ nicht ansatzweise für eine ersatzkarte in der selben performanceklasse reichen.

man müsste dann schon etwas fürs doppelte geld in der rtx 2060 super / rx 5700 xt klasse nehmen, damit wenigstens irgendwie was dabei rumkommt, und dann hast zeitlich den dümmsten moment erwischt um diese karten zu kaufen, weil die in ein paar wochen ordentlich im preis rutschen werden oder es gibt einfach bessere karten fürs selbe geld. und dann kommt noch dazu, dass RDNA1 auch ein paar hardware-macken haben könnte und das ding ebenfalls zickt. was dich letztendlich zu einer nvidia option zwingen könnte, die jetzt im moment eine noch schlechtere preis-leistung hat.

ich würde unbedingt empfehlen ein paar einstellungen zu testen und so die vega im schlimmsten fall wenigstens bis nach dem release von rdna2 rüberzuretten, sodass du wenigstens ein paar solide kaufoption fürs geld aus der rückgabe hast, auch wenn der betrag hinterher etwas niedriger ausfallen könnte.

es kann aber auch sein, dass du keine zeit investieren willst, und geld eine untergeordnete rolle spielt, und du jetzt einfach ne lösung willst und dann kann man die 173€ nehmen und den wertverlust der neuen karte in kauf nehmen. muss ja nicht immer alles geldoptimiert sein.
 
duskstalker schrieb:
hast du schon verschiedene spannungseinstellungen durchprobiert?
Hab mal deine Werte spaßeshalber reingehackt, nur den HBM runtergeschraubt, und Stock mit den Reglern gespielt, damit sie mit weniger Power, max. HBM 800MHz und -5% Clock läuft. Macht alles aber keinen Unterschied, paar Minuten und sie is weg. Ich könnte natürlich mich jetzt noch tagelang hinsetzen und zig Spannungen ausprobieren aber ganz ehrlich, dazu hatte ich schon damals keine Lust mehr. Is mir zu viel Fummelei und am Ende klappts dann ne Woche, Gewährleistung is rum und iwas is wieder instabil. Da fang ich jetzt nicht mehr mit an.
duskstalker schrieb:
weil du dann ohne gpu dastehst und die 173€ nicht ansatzweise für eine ersatzkarte in der selben performanceklasse reichen.
Hab ne RX 550 noch drin, die reicht zum Benutzen bis die 3080 eintrifft (die is schon vorbestellt seit Releasetag, es sei denn die bleibt bis AMD Release nicht lieferbar und AMD liefert was besseres lieferbar ab). Zocken kann ich mit der Vega jetzt schon nicht, da macht die schwache 550er auch keinen Unterschied mehr :D
duskstalker schrieb:
es kann aber auch sein, dass du keine zeit investieren willst, und geld eine untergeordnete rolle spielt, und du jetzt einfach ne lösung willst und dann kann man die 173€ nehmen und den wertverlust der neuen karte in kauf nehmen. muss ja nicht immer alles geldoptimiert sein.
Ja, Geld spielt eher ne untergeordnete Rolle. Aber ich glaube dann teste ich erstmal was sie zur RMA sagen, vlt hat MF ja einen spontanen Moment des "geh mir nich auf die Ketten" und schicken mir was nettes zu :D

Danke für euren Input, mal sehen was bei rumkommt. Is sicher auch mal spannend, hatte noch keinen RMA Fall bei MF, kann ich direkt mal Erfahrungen schildern wenns was zu berichten gibt.

Edit:
Grad gesehen, dass die Gutschrift ja nur ne MF-Währung is. Das bringt mir dann auch nicht viel. Bleibt ja nur Austausch. Das wird ein Spaß. :D
 
Zuletzt bearbeitet:
Zurück
Oben