Vega 56 defekt? Merkwürdiger Fehler

Taxxor

Fleet Admiral
Registriert
Mai 2011
Beiträge
20.660
Hallo Leute,

vorweg: ich weiß nicht, ob die Grafikkarte wirklich das Problem ist, aber mittlerweile scheint mir das am wahrscheinlichsten.

Also erst mal zum Fehler:

Was passiert?
Bildschirme verlieren Signal, Grafikkarten Lüfter drehen auf 100%, PState LEDs der Karte komplett aus, System scheint im Hintergrund nicht mehr zu laufen, da z.B. die LED Steuerung meiner CPU AIO in den Standardmodus wechselt(passiert, wenn die Software geschlossen wird)
Der Power Button reagiert nicht, auch nach 5 Sekunden drücken schaltet sich der PC nicht ab, es hilft nur das NT direkt auszuschalten.
Wenn man das NT dann wieder einschaltet und den PC startet, geht die GPU ebenfalls nicht an, man muss die Prozedur 2-3mal wiederholen, bis sie angeht und der Rechner normal startet.

Wann tritt er auf?
Generell überall, egal ob in Spielen oder beim Youtube schauen, auch mal nur beim klicken durch Ordner auf dem Desktop.
Reproduzierbar ist er nicht, er tritt sehr sporadisch alle paar Stunden auf.
Im Ereignislog findet sich bis auf die Meldung dass der PC nicht ordnungsgemäß runtergefahren wurde nichts.
Temps der Karte sind alle in Ordnung.

Geschichte:
Das erste mal trat der Fehler 09/2018 auf, als ich auf einer LAN war. In gut 5 Stunden ist er 3mal aufgetreten, 2mal im Spiel und einmal auf dem Desktop. Danach ist er auch Zuhause jeden Tag aufgetreten unabhängig von der Situation, mal 2mal, mal 5mal am Tag.
Da auch der Power Button nicht reagiert war meine erste Vermutung das Mainboard(Prime X370), also habe ich das zuerst getauscht(Prime X470). Ich habe den PC 10 Tage lang Tagsüber ganz normal benutzt und nachts konstant laufen lassen, der Fehler ist nicht mehr aufgetreten, also habe ich das Board behalten.
7 Monate lief alles normal.

Am 15.04.2019 passierte fast der gleiche Fehler wieder, alles schwarz, GPU Lüfter auf 100%, PState LEDs aus nur dass sie diesmal wenige Sekunden später wieder an gingen und der PC hochgefahren ist. Exakt das gleiche Verhalten wie bei einem Druck auf den Reset Button.
Es war schon am Abend und ich habe mir erst nichts dabei gedacht, bis es dann am Tag darauf wieder passiert ist und diesmal blieb der PC in diesem Zustand und lies sich auch nicht über den Power Button ausschalten, alles wie vor 7 Monaten.


Dann habe ich überlegt, was ich denn in der unmittelbaren Zeit vor dem Fehler gemacht haben könnte und mir ist nur eingefallen, dass ich für Anno 1800 den 19.4.2 Treiber geladen hatte. Also habe ich wieder den 19.4.1 installiert.
An diesem Tag und am Tag danach ist der Fehler nicht mehr aufgetreten.

Dann kam am 18.4. der Community Benchmark von Anno 1800, für den ich wieder den 19.4.2 installiert habe. Alle Benches durchgeführt, noch ein Stündchen weitergespielt, danach ein Youtube Video geschaut -> Bildschirm Schwarz, GPU auf 100% Power Button reagiert nicht ect. pp.
Später am Nachmittag hatte ich den Rechner wieder angemacht, war aber erst mal ne halbe Stunde weg, sodass die Bildschirme aus waren. Als ich wiederkam und die Maus bewegt habe, um den PC zu wecken, gingen die Bildschirme an, ich konnte für eine Sekunde den Anmeldebildschirm sehen und der Fehler trat direkt wieder auf, diesmal aber wieder mit Neustart.

Nachdem der Rechner dann wieder hochgefahren war, habe ich den 19.4.1 wieder installiert, und den Rest des Tages und den Folgetag bis jetzt den Fehler nicht mehr gehabt.




Ich kann es mir schon nicht erklären, wie eine GPU diesen Fehler verursachen könnte, vor Allem die Tatsache, dass der Power Button nicht reagiert.
Dann noch die Tatsache, dass es mit einem bestimmten Treiber zu funktionieren scheint und mit einem anderen nicht, es scheint als wäre der Fehler vor 7 Monaten vielleicht auch durch die Karte ausgelöst worden in Verbindung mit dem damaligen Treiber.

Kann es sein, dass irgendetwas an der Karte defekt ist, was aber nur mit dieser Treiberversion so einen Fehler auslöst?

Da es nach dem Board Tausch 7 Monate lang funktioniert hat, könnte es auch sein, dass das neue Board nun den gleichen Fehler hat, aber das wäre schon ein 6er im Lotto.

Ich bin gerade etwas ratlos, beobachte jetzt mal die nächsten Tage, ob der PC stabil läuft, dann werde ich vielleicht noch mal den 19.4.2 installieren und schauen ob der Fehler wieder auftritt.

Aber vielleicht findet sich ja hier jemand, der dieses merkwürdige Fehlerbild irgendwie zuordnen kann.
 
Zuletzt bearbeitet:
Sebbi schrieb:
Die Angabe zum NT Fehlt - Hersteller / Modell

Super Flower Leadex II 650W
https://www.computerbase.de/2017-08/netzteil-test-aerocool-evga-sea-sonic-super-flower/5/


Das hat übrigens Mitte 2018 mein Corsair Vengeance 500W ersetzt, nachdem in verschiedenen Spielen der PC reproduzierbar an immer den gleichen Stellen komplett ausgegangen ist, also wirklich komplett aus, habe dazu nur von 980Ti Besitzern gelesen, die das gleiche Problem hatten(liegt wohl an Stromspitzen der GPU) und durch einen Tausch auf ein NT mit 100W mehr das Problem nicht mehr auftrat.
Bei mir war damit auch alles okay.
 
Zuletzt bearbeitet:
Nein @Taxxor. :o

Du sagst mit dem älteren Treiber tritt es nicht auf? Würd ich erstmal unter beobachtung halten, weil dann spricht viel dafür dass sie nicht defekt ist, sondern wohl der Treiber nur einen weg hat.
Kann sich dann mit nem neuem ReleaseTreiber wieder legen.

Komisch, seit Anno haben wir alle Probleme mit den neuesten Treibern :p
 
  • Gefällt mir
Reaktionen: GTrash81
@Silverangel Die Sache ist, dann müsste es doch alle AMD oder zumindest Vega Besitzer betreffen, auch vor 7 Monaten schon als ich den Fehler das erste mal hatte. Es findet sich aber keiner.

Ich erinnere mich auch leider nicht mehr, ob ich in der Zeit als ich das Board getauscht habe auch direkt den GPU Treiber aktualisiert hatte..
 
@Taxxor:
Ok das mit den 7 Monaten hab ich unterschlagen und überlesen.
Da wirds dann aber nicht der selbe 19,4.2 Treiber gewesen sein, oder?

Das Problem ist dabei natürlich das ganze einzugrenzen.
Netzteil bzw. alle Kabel (z.b. auch Stromkabel zum netzteil) prüfen (z.b. auf wackler).
Kann Natürlich auch "Defekt" sein. gegentesten wäre da hilfreich.

Beizeiten z.b. mal Memtest laufen lassen und soweit Übertaktungen vorhanden die auch mal längere Zeit rausnehmen.

ist halt blöde wenn es so stark sporadisch auftritt und du dann auch Tage nichts mit hast.

Achja und könntest dir mal die EreignisAnzeige anschauen wenn er wieder verreckt. Vielleicht steht sogar was hilfreiches drin.
 
Zuletzt bearbeitet:
Tja, gerade als ich dir antworten wollte ist es wieder passiert, meine Theorie mit dem Treiber ist also dahin...

Diesmal habe ich aber noch mal genauer hingeschaut, die GPU Lüfter drehen nicht auf 100% sondern die sind aus, die ganze Karte ist also aus, die Gehäuselüfter die am Board dran stecken drehen dafür auf 100%.

Im Grunde ist da genau der Zustand den man hat, wenn man den PC gerade eingeschaltet hat, nach ein paar Sekunden geht dann die GPU an und im gleichen Zug gehen auch die Gehäuselüfter auf die im BIOS festgelegte Drehzahl.
Es scheint so, als würde der PC einfach Random einen Reset durchführen, dann aber nicht bis ins BIOS kommen zum booten, nicht mal zum dem Punkt kommen, den PCIe Slot zu versorgen.

Die Tatsache, dass weder der Power- noch der Reset Knopf reagieren macht mich halt sehr stutzig, auch dass es die letzten 7 Monate nicht aufgetreten ist, seit ich das Board gewechselt habe, alle anderen Komponenten sind gleich geblieben.


Wenn es das NT wäre, würde aber doch alles ausgehen und nicht so ein komisches Restart Szenario in dem dann nur die Lüfter am MB hochdrehen und dann nichts weiter passiert.
Wenn die Lüfter und auch meine AIO Strom vom Board bekommen, bekommt das Board ja logischerweise Strom vom NT, warum nicht die GPU?

Übrigens hatte ich das nicht mit der 980, ich hatte nur die Vega in Verbindung mit dem Netzteil, davor hatte ich mit dem anderen NT und der Vega andere Probleme, die auch User mit einer 980Ti beschrieben haben.
 
Zuletzt bearbeitet:
Check mal Alle Kabel, also auch das Netzteilkabel auf wackler z.b. (auch interne Kabel)
Auch möglich, dass das Netzteil einen weg hat (das kann dir ja sogar bei neuen passieren) Da wäre gegentest praktisch (ich rate mal, hast du nicht die Möglichkeit zu)

Nein ist nicht gesagt, dass dann alles "aus" ist. Ist sogar häufig so, dass z.b. Lüfter dann noch laufen oder Rechner sich selbst neustartet.

hast du auch mal die Ereignisanzeige aufgerufen? Vielleicht steht da sogar was hilfreiches drin dazu.
 
Habe ich im Eingangspost schon geschrieben, in der Ereignisanzeige steht nur, dass das System nicht ordnungsgemäß runtergefahren wurde.

Kabel habe ich alle gezogen und gewackelt, da passiert nix. Das vorherige NT habe ich aber auch noch hier


Zusätzliche Information, die ich oben vergessen hatte:
Ich schrieb ja, dass man nachdem man das NT aus- und wieder eingeschaltet hat, diese Prozedur 2-3mal wiederholen muss weil der PC nach dem Einschalten in genau dem gleichen Zustand hängen bleibt.
Beim 3. Mal geht er aber nicht einfach normal an, sondern schaltet sich nach den ersten Sekunden, noch bevor die GPU angeht, komplett aus.
Nach 2-3 Sekunden geht er von alleine wieder an und schaltet sich 2-3 Sekunden später wieder komplett aus. Das wiederholt sich dreimal und beim vierten Mal startet er dann und schickt mich ins Bios weil er sich aufgrund eines fehlerhaften Starts zurückgesetzt hat.
 
Das Verhalten ist mir vorher, also vor 2 Jahren aber auch schon begegnet, als ich den RAM im BIOS übertaktet habe und ihm die Einstellungen nicht geschmeckt haben, dann hat er dieses an und ausgehen auch gemacht.

Und das Verhalten ist auch zu 100% reproduzierbar. Nachdem der Fehler auftritt, sind es genau zwei mal einschalten, wo er in diesem Status hängt und beim dritten Mal exakt dreimal, die er an- und ausgeht.
 
Dafür hab ich dir ja bereits Memtest ans herz gelegt um den zu prüfen.
Und auch jegliche OC Settings rausnehmen von der Hardware.

Und wenn sonst Zeit hast kannste ja das andere netzteil versuchen wenn bis dahin keine Eingebungen kommen.
Ich bin erstmal Bett. Viel Erfolg :)
 
Taxxor schrieb:
Habe ich im Eingangspost schon geschrieben, in der Ereignisanzeige steht nur, dass das System nicht ordnungsgemäß runtergefahren wurde.

Kabel habe ich alle gezogen und gewackelt, da passiert nix. Das vorherige NT habe ich aber auch noch hier


Zusätzliche Information, die ich oben vergessen hatte:
Ich schrieb ja, dass man nachdem man das NT aus- und wieder eingeschaltet hat, diese Prozedur 2-3mal wiederholen muss weil der PC nach dem Einschalten in genau dem gleichen Zustand hängen bleibt.
Beim 3. Mal geht er aber nicht einfach normal an, sondern schaltet sich nach den ersten Sekunden, noch bevor die GPU angeht, komplett aus.
Nach 2-3 Sekunden geht er von alleine wieder an und schaltet sich 2-3 Sekunden später wieder komplett aus. Das wiederholt sich dreimal und beim vierten Mal startet er dann und schickt mich ins Bios weil er sich aufgrund eines fehlerhaften Starts zurückgesetzt hat.

Falls du OC betreibst, erstmal alles resetten. Eventuell den Treiber nochmal löschen, mit ddu cleanen und neu installieren.

Dann die einzelnen Komponenten mal durch Testen, CPU / RAM / GPU. Dazu gibt es Prime, Memtest und z.b der heaven Bench.

Für mich sieht das grob nach fallschen OC Einstellungen aus. Da ich ebenfalls einen Ryzen habe, gehe ich stark von aus deine Ram Settings nicht stabil sind. Eventuell mal das UEFI updaten, sofern noch nicht geschehen. Kann viel helfen. Den Ram vielleicht mal nur mit 3000 MHZ erstmal takten.

Als ich Anfangs meinen Ram übertaktet habe und kein stabiles Setting hatte, lief das bei mir im Prinzip genauso. Da half es nur das UEFI zu resetten und manchmal auch nicht mal das. Da musste ich dann schon den Ram Riegel heraus nehmen, damit das Uefi sich mal resettet.:)

PC ist abgeschmiert, ich drücke den resett oder aus knopf. Nichts passiert. Also hinten den Schalter umlegen, kurz gewartet und angeschaltet. PC startet, Lüfter drehen voll auf und es passiert nichts.:) Also genau das was gerade dir passiert.
 
Zuletzt bearbeitet:
Hört sich nach OC vom CPU an. Wenn der instabil wäre passiert das im normalen betrieb wie im belastungsbetrieb. Vieleicht hat der Tausch damals vom Mainboard kurzzeitig Besserung gebracht von den spannungswandler her. Netzteil würde sich komplett abschalten wenn es einen Defekt hätte, wie als würde man den Stecker ziehen, sprich da drehen keine Lüfter hoch.
 
Ich hatte übrigens ähnliche Probleme mit einer RX480 Nitro+. Selbes Symptom, Netzteil wurde neu gekauft, Problem bestand weiterhin. Hilfe brachte Undervolten und eine leichte Taktkorrektur nach unten bei der höchsten Leistungsstufe.
 
Ja, nimm mal ne zweite gpu dazu. Am besten eine ohne pcie bedarf, z.B. 1050/1030 oder älter. Dann siehst du, ob es am NT liegt. Wenn deine gpu bei Last sonst alles packt, wäre es recht unwahrscheinlich, dass sie einen Haarriss hat.
 
Dein Startproblem mit an aus, an aus tritt bei mir auch bei falsch gesetzten RAM Timings. Auch wenn ich im BIOS alles auf Standard Stelle läuft es nur wenn die Riegel auf 2133 MHz laufen. Sobald ich das xmp lade bootet er auch nicht. Bei mir hilft es das BIOS zu reseten und noch Mal alles einstellen. Dann läuft aber auch das xmp ohne Murks. Früher hatte ich die Probleme beim CPU oc.
Ob das aber was zu tun hat mit dem plötzlichen Absturz mitten in Windows, weiß ich nicht. Eher solltest du einen bluescreen bekommen.
Andere Möglichkeit wäre, dass das Netzteil oder ein Kabel des Netzteils einen defekt hat.

Ne dritte Möglichkeit wäre auch zu fester Anpressdruck des Kühlers auf das Mainboard. Dadurch könnten die Leiterbahnen kein Signal durchschleifen. Zb im Zusammenhang mit oder zu dem RAM. Weiß aber nicht wie es sich mit der AIO verhält. Normalerweise hört man das eher mit wuchtigen Luft Kühlern aber die Corsair AIO muss jetzt davon nicht unbedingt ausgeschlossen sein
 
Mach mal BIOS-Reset. Ich würde auch eher auf NT oder RAM tippen.
 
Das Verhalten hatte ich tatsächlich auch schon bei einigen Vega-Karten. Das lag in den meisten Fällen entweder an mangelnden Kontakt im PCIe-Slot und/oder Treiberreste. Falls du kannst, installier am besten Windows neu. Falls das nicht möglich ist, einmal per DDU rüber, dann nochmal AMD Clean Tool. Danach am besten noch Manuell in der Registry nach AMD-Ordnern suchen und die Reste dort auch entfernen. Falls du vorher NV und/oder Intel-Onboard hattest, diese auch nochmal per DDU entfernen.

Eine andere Möglichkeit wäre noch OC. Vega-Treiberresets können schon auch dem Verhalten entsprechen, welches du schilderst. Vlt ist deine VCore zu niedrig oder dein HBM zu hoch getaktet bzw. dein SOC-Clock zu hoch, dann kann das schonmal passieren, besonders wenn du noch Treiberreste auf dem Rechner hast. Da Vega sehr nah am System arbeitet kann aber auch RAM/CPU-OC Probleme machen. Am besten alles mal auf Standard, berenigen, Kontakt der Anschlüsse prüfen und gucken mit aktuellsten Treibern, ob es dann noch auftritt.
 
Momentan läuft erst mal noch memtest, dauert noch ein Weilchen, danach kann ich weiter sehen. Mein nächster Schritt wäre gewesen das alte Corsair NT einzubauen und zu testen. Problematisch ist nur, dass ich jede Möglichkeit über Tage testen muss...

Einstellung bei der Vega hatte ich dahingehend ausgeschlossen, dass ich damals als das Problem das erste mal da war sie komplett auf Standard gestellt habe und das Problem weiterhin auftrat.
Als GPU hätte ich nur noch ne HD7950 da.

Damals habe ich mir auch die Corsair AIO und ein neues Case(Define R6) gekauft und alle Komponenten umgebaut.
Dass der Fehler 2 Tage später das erste mal auftrat, bestärkte mich im Glauben dass das Board dabei Schaden genommen hat, was sich durch die lange Phase ohne Probleme mit dem neuen Board nur bestätigt hat.

Spricht denn etwas dagegen, dass es die CPU ist?
Die habe ich beim Entfernen des alten noctua Kühlers nämlich blöderweise vorher nicht erwärmt und gerade hochgezogen, sodass sie weiterhin am Kühler klebte und aus dem gespannten Sockel gerissen wurde.
An den Pins habe ich aber soweit nichts gesehen und habe das auch eigentlich ausgeschlossen nachdem es mit den neuen Board lief.
 
Zuletzt bearbeitet:
Zurück
Oben