News Ryzen 7000X3D & 7000(X): AMD hat die Ursache für die defekten AM5-CPUs gefunden

Wahnsinng wie viele absolut Wissende hier im Thread sind.

Der eine besteht darauf, dass es eine absolute Lösung für Spulenfiepen gibt (die dummerweise noch niemand erfunden hat... Nein in Harz einpacken funktioniert NICHT!) - der nächste will, dass sich Mainboards selbst vernichten bzw. wertlos machen, wenn man die falschen UEFI Einstellungen setzt...

Die UEFI Default Einstellungen, die ich kenne, enthalten per Default übrigens kein Overvolting sondern "nur" offene Wattgrenzen. Overvolting muss man immer manuell aktivieren, dazu reicht es aber oft, einfach nur XMP/EXPO einzuschalten.

Und OC ohne Overvolting ist immer unkritisch - zumindest was die HW-Lebensdauer angeht. Erst Overvolting macht die Sache prinzipiell kritisch. Insbesondere, wenn moderne Hardware die Spannung dynamisch anpasst.

Weswegen NVidia ja z.B. ganz klare Grenzen verbaut, was die Spannung angeht, die nur per HW-Mods überwunden werden können. Das gleiche sollte man auch für Mainboards vorsehen. Mich wundert, dass das nicht schon längst gemacht wird. Dann ist es egal, was man im UEFI für einen Mist einstellt, was kaputte BIOS Versionen zulassen oder regeln oder auch was irgendeine SW unter Windows zaubert.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: klesshilde und minibip
Grestorn schrieb:
Die UEFI Default Einstellungen, die ich kenne, enthalten per Default übrigens kein Overvolting sondern "nur" offene Wattgrenzen. Overvolting muss man immer manuell aktivieren,
Grestorn schrieb:
Insbesondere, wenn moderne Hardware die Spannung dynamisch anpasst.
Hier widersprichst du dir praktisch selbst, denn genau diese dynamische Anpassung ist wenn du es genauer nimmst OV. Es gibt hier nämlich keine festen Werte die voreingestellt werden müssten, aus Stabilitätsgründen nutzen die Hersteller bevorzugt hohe Werte, was letztendlich einem OV gleicht.

Nur um mal als Beispiel ein ASUS Intel Board zu nennen.
Load-Line Calibration, or LLC, is a BIOS setting found on most performance motherboards. It applies additional voltage to your CPU under load to provide more stability while overclocking and compensates for high and low voltage fluctuations, to keep your voltage line to the CPU more stable
Der Wert dafür wird bei den "Gaming" Boards in der Standardkonfiguration auf "4" gesetzt, was mehr Spannung auf die CPU gibt, als es für den Betrieb möglicherweise nötig wäre. Da diese Werte aber eben nicht fest sind, verschwimmen die Grenzen zwischen Normalbetrieb und OC.

Grestorn schrieb:
Weswegen NVidia ja z.B. ganz klare Grenzen verbaut, was die Spannung angeht, die nur per HW-Mods überwunden werden können. Das gleiche sollte man auch für Mainboards vorsehen.
Da gebe ich dir Recht, aber nicht die Mainboards sind hier entscheidend sondern die CPU selbst. Ich habe es auf den ersten Seiten dieses Threads geschrieben, weshalb ist es hier nur kurz halte. Die CPU selbst hat diese Werte zu Regeln und sich selbst abzuschalten bevor irgendwelche Spielereien sie zerstören könnten.

AMD hat aber dazu noch an einer entscheidenden Stelle versagt:
PROCHOT (Processor Hot) Control ist eine Funktion, die in Zusammenhang mit CBS und SMU_COMMON steht. Es handelt sich dabei um eine thermische Sicherheitsfunktion, die dazu dient, den Prozessor vor Überhitzung zu schützen. Wenn die Temperatur des Prozessors einen kritischen Wert erreicht, sendet die CPU oder eine andere Systemkomponente ein PROCHOT-Signal, woraufhin der Prozessor seine Leistung reduziert, um die Temperatur zu senken und mögliche Schäden zu vermeiden. CBS SMU_COMMON ‚PROCHOT Control‘ bezieht sich daher auf die Steuerung und Verwaltung der PROCHOT-Funktion innerhalb der System Management Unit und des Core Performance Boost-Systems, um sicherzustellen, dass der Prozessor sowohl leistungsfähig als auch sicher betrieben wird.
https://www.igorslab.de/neues-agesa...nd-ein-wichtiges-update-der-schutzfunktionen/

1682765170871.png


Es gibt also keine physikalische Schutzschaltung, die einen solchen Schaden an der Stelle hätte abfangen können und wenn die CPU eine Überhitzung gemeldet haben sollte, wurde dieser Wert scheinbar nicht korrekt ausgewertet.

Das Problem setzt sich also aus drei Faktoren zusammen:
1. Keine Maximalwerte für die Spannung spezifiziert, wodurch die MB Hersteller nach ihrem Gutdünken gearbeitet haben.
2. Die Funktion mit der die CPU eine Überhitzung melden sollte, wurde durch Fehler in der AGESA außer Kraft gesetzt.
3. Die CPU selbst besitzt zumindest an dieser Stelle keinen Eigenschutz, wie sie den eigentlich haben sollte.
Und dann gibt es noch den Thermtrip_L Pin zum finalen Schutz (Shut-Down). Dieser wird vom Prozessor selbst aktiviert, wenn die Prozessortemperatur einen voreingestellten Grenzwert überschreitet. Die Prozessortakte werden abgeschaltet und ein Low-Voltage-VID-Code wird an den Spannungsregler gesendet. In einem solchen Fall sollte das System innerhalb von 500 ms in den Zustand der Systemabschaltung (S5) übergehen. Der Thermtrip_L-Pin ist bidirektional und entweder das System oder der Prozessor kann die Thermtrip-Funktion auslösen, indem der Thermtrip_L-Pin auf Low gesetzt wird. Thermtrip_L wird als Schutz verwendet, um dauerhafte Hardwareschäden zu verhindern. Für SB-TSI, cHTC und ThermTrip wird der gleiche On-Die-Temperaturerfassungsmechanismus verwendet, denn ich bereits oben als Tctl beschrieben habe.
https://www.igorslab.de/amds-neue-c...aturueberwachung-im-detail-erklaert-exklusiv/

Die Vermutung liegt hier nahe, dass es einen solchen Schutz zwar für die Kerne, aber nicht für das SoC gibt. Bleibt nur zu hoffen, dass AMD in den zukünftigen CPU Generationen draus lernt und Käufer die mit den Problemen konfrontiert wurden, unbürokratisch entschädigt werden.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: W4RO_DE
@cosamed

Das ganze geht noch weiter da bin ich mir sicher und amd versucht hier zu beschwichtigen, daher die neue Agesa.
Und ich bin mir Sicher, dass du nicht die hellste Kerze auf der Torte sein kannst.

Vielleicht sind es noch mehr Fälle nur dringt das nicht nach außen weil das so gewollt ist.
Magst du Verschwörungstheorien einfach oder liegt es in deinem Naturell, hier irgend etwas zu verzapfen, was du nicht wissen kannst? Noch Belege dafür hast?

Ich behaupte nicht das die keine CPUs bauen können, aber solche Anfängerfehler eines sehr großen Herstellers dürfen einfach nicht vorkommen.
Anfängerfehler? Bist du in der Entwicklung von Cpu`s, oder glaubst du allen Ernstes deinen Grössenwahnfantasien jeden Mist?

Ich sage sogar jeder der sich Equipment angeschafft hat und plante ein neues System aufzusetzen soll das ganz schnell zurück schicken und sich stattdessen ein Intel System aufsetzen.

Also doch nur ein Intel-Fanboy.

Ich versteh die Aufregung null. Die Defekten Boards und Cpu`s werden ersetzt und gut ist.

Fehler passieren, bei Intel genauso. Kein Grund darum eine dicke Welle zu machen, ausser man ist Blöde und denkt, ein Monopol bringe dem Kunden etwas.
 
  • Gefällt mir
Reaktionen: CableGuy82
xexex schrieb:
Hier widersprichst du dir praktisch selbst, denn genau diese dynamische Anpassung ist wenn du es genauer nimmst OV. Es gibt hier nämlich keine festen Werte die voreingestellt werden müssten, aus Stabilitätsgründen nutzt mal also bevorzugt hohe Werte, was letztendlich einem OV gleicht.

Bei der dynamischen Regelung meine ich die Regelung, die von Intel und AMD auch im Default vorgesehen ist. Nahezu jede Spannung wird dynamisch geregelt, sie fest auf einen Wert zu tackern ist i.d.R. keine gute Idee.

xexex schrieb:
Der Wert dafür wird bei den "Gaming" Boards in der Standardkonfiguration auf "4" gesetzt, was mehr Spannung auf die CPU gibt, als es für den Betrieb möglicherweise nötig wäre. Da diese Werte aber eben nicht fest sind, verschwimmen die Grenzen zwischen Normalbetrieb und OC.
Welchen Wert meinst Du, der hier auf "4" gesetzt wird?

So weit mir bekannt ist, setzt auch Asus nur die max. Leistungsaufnahme und auch die Obergrenzen, wieviele Kerne gleichzeitig höher Takten können, ootB hoch (also bei Default Einstellungen). Aber die Spannungen bzw. deren Regelungen bleiben ootB auf den Vorgaben. Wenn Du anderer Meinung bist, dann hätte ich gerne eine Quelle die dieses Verhalten bei aktuelle Boards belegt.

xexex schrieb:
Da gebe ich dir Recht, aber nicht die Mainboards sind hier entscheidend sondern die CPU selbst. Ich habe es auf den ersten Seiten dieses Threads geschrieben, weshalb ist es hier nur kurz halte. Die CPU selbst hat diese Werte zu Regeln und sich selbst abzuschalten bevor irgendwelche Spielereien sie zerstören könnten.
Die CPU kann sich nicht gegen Überspannung schützen. Das kann eine GPU auch nicht. Aber NVidia schreibt klar Schaltungen auf den Boards vor, damit die Boardhersteller die Lizenz und auch die Chipsätze von NVidia erhalten.

Das sollte eigentlich auch für CPUs möglich sein.

xexex schrieb:
Es gibt also keine physikalische Schutzschaltung, die einen solchen Schaden an der Stelle hätte abfangen können und wenn die CPU eine Überhitzung gemeldet haben sollte, wurde dieser Wert scheinbar nicht korrekt ausgewertet.
Die CPU wird sich nie gegen eine Überspannung schützen können, die dazu notwendigen Schaltungen kann man schlicht nicht in einem Die realisieren. Die müssen ausserhalb liegen.

Thermische Schutzmechanismen können nur dann greifen, wenn die Leistungsaufnahme zu hoch ist, nicht aber wenn die Spannung zu hoch ist. Zu hohe Spannung killt jeden Chip lange bevor eine thermische Schutzschaltung greifen kann.
 
Grestorn schrieb:
Die CPU kann sich nicht gegen Überspannung schützen.
Die CPUs sind nicht an einer Überspannung gestorben, sie sind an Überhitzung "gestorben" und dagegen kann und schützt sich eine CPU normalerweise. Das hier hat kein "Blitz" verursacht, das hier ist das Ergebnis einer längerfristigen thermischen Überlastung an dieser Stelle, die nicht abgefangen wurde.
1682767432450.png
 
Nun, ehrlich gesagt kann ich hier auch nur spekulieren, aber für mich ist die thermische Überlastung eher erst die Folge eines vorher erfolgten "Durchbrennens" der dann in der Folge zum Kurzschluss führt.

Genau werden wir es vielleicht in ein paar Tagen oder Wochen erfahren.
 
Grestorn schrieb:
Nun, ehrlich gesagt kann ich hier auch nur spekulieren,
Nö!
Asus hat sich gegenüber Roman „der8auer“ Hartung zu Wort gemeldet und bestätigt, dass die neuen BIOS-Versionen explizit veröffentlicht wurden, um weitere Defekte auf Platinen des Herstellers auszuschließen. Die neuen Versionen würden zu diesem Zweck über eine dedizierte Temperaturüberwachungverfügen und die in älteren Varianten vorhandene Möglichkeit, die VCore manuell einzustellen, wurde entfernt.
Natürlich ist die thermische Überlastung die Folge einer überhöhten Betriebsspannung, aber egal was man hier für eine Spannung aufgelegt hätte, sollte die CPU bei Überhitzung abschalten. Das tat sie aber aus den oben genannten Gründen nicht.

Grestorn schrieb:
Genau werden wir es vielleicht in ein paar Tagen oder Wochen erfahren.
Das werden wir nicht, weil eine Entschuldigung seitens AMD oder die direkte Eingeständnis hier Bockmist gebaut zu haben, zumindest in den USA jede Menge Klagen mit sich ziehen würde. Daher spricht man auch von einer "verbesserten Temperaturüberwachung", statt offen zuzugeben, dass sie bisher schlichtweg durch einen Bug nicht funktioniert hat.
 
Zuletzt bearbeitet:
xexex schrieb:
Das werden wir nicht, weil eine Entschuldigung seitens AMD oder die direkte Eingeständnis hier Bockmist gebaut zu haben, zumindest in den USA jede Menge Klagen mit sich ziehen würde.
Gibt aber ja mehrere renommierte Journalisten/YouTuber mit direkten Insider-Quellen und teils sogar Kooperationen mit Laboren (siehe GamersNexus) die auch seit Anfang der Woche an der Sache dran sind und teils eigene Untersuchung gestartet haben. Da werden definitiv noch mehr Fakten folgen.
 
Kothie schrieb:
@waxwiesel hast recht sorry, aber der machts einen nicht leicht:D
Ja ich weiß :-)
Ergänzung ()

Mein System läuft so schön leise und kalt , beim zocken komme ich auf Max. 64 Grad . Stellt die Sov auf 1.2 max und lasst erstmal Expo aus ! Expo ballert einfach die Spannungen viel zu hoch .
 
xexex schrieb:
dass sie bisher schlichtweg durch einen Bug nicht funktioniert hat.
Bugs kommen vor, und werden sich nie ganz verhindern lassen. Ärgerlich für die Nutzer mit kaputten Systemen, gut für den Rest der gepatchte System bekommt, die dann das hier hoffentlich in Zukunft unterbinden.
Am besten wäre, es wenn man genau auf solche Sachen in Zukunft gleich achten würde / Könnte.

Aber auch da, es gibt unzählige Systemkombinationen, und Einstellungen, wird schwer, das wasserdicht zu bekommen.
 
  • Gefällt mir
Reaktionen: CableGuy82
Was passiert eigentlich bei Ryzen 8000 bezüglich RAM OC?
Wenn man aufrüsten möchte und plötzlich 7000+ RAM stark zur Performance beiträgt und die meisten mit den alten Boards kaum über 6000+ gehen können.Dann heißt das wohl tatsächlich erst bei 8000x3D updaten, wo der RAM Speed kaum eine Rolle spielt?

BTW: wollte mir X3D holen und hab zum Glück bisschen gewartet.Für meine Esportgames gäbe es zwar 10% mehr FPS, jedoch kaum Verbesserungen im 0.1 % und 1 % Bereich.Daher werd ich wohl erst bei 8000x3d upgraden.Hoffentlich rafft AMD bis dahin, dass man die X3D CPUs am selben Tag rausbringt wie die normalen.
 
Master Chief ! schrieb:
AMD ist also Schuld wenn ein MB-Hersteller sich dazu entschliest eigenhändig über 1.30V auf die SoC zu ballern?

Echt nicht zu fassen was hier einige für vorstellungen haben.....Die MB-Hersteller haben sich an die vorgaben/Limits zu halten!

Hast du zu deiner Schuldzuweisung Richtung Boardhersteller mittlerweile eigentlich mal eine Quelle verlinkt?
 
  • Gefällt mir
Reaktionen: Infi88 und Grestorn
Moin,

lt. Igor sind die diese Woche veröffentlichen Biosversionen ja noch gar nicht diejenigen mit dem neusten Agesa und den neuen Grenzwerten von AMD und es sollte bald weitere Versionen basierend auf AGESA x.7 statt x.6 geben.

So lange werde ich dann mit dem Update auch noch warten, mache mir eh keine Sorgen bzgl. der Problematik, als ich das erste Mal das EXPO Profil geladen hatte und sah, dass das Board fast 1.3V auf den Speichercontroller geben wollte hatte ich diesen direkt auf 1.15V fixiert und damit läuft es stabil und problemfrei. Ich hätte nur nicht gedacht, dass dieses Eingreifen mal so wichtig sein könnte.

Ich sehe die Schuld für das Thema bei AMD und den Boardherstellern! AMD hat zugelassen, dass die Boardhersteller mit der Spannung tlw. maßlos übertreiben und die Boardhersteller haben es umgesetzt.

Stecke AMD, Intel, Nvidia, ASRock, ASUS, MSI und Einhundert weitere Firmen in einen Sack und schlag mit dem Stock drauf ---> du triffst nie einen Unschuldigen.

Aber zankt euch ruhig weiter.
 
  • Gefällt mir
Reaktionen: Waxwiesel und hasentier
tstorm schrieb:
Stecke AMD, Intel, Nvidia, ASRock, ASUS, MSI und Einhundert weitere Firmen in einen Sack und schlag mit dem Stock drauf ---> du triffst nie einen Unschuldigen.

Der Satz gilt für alle Menschen.
 
  • Gefällt mir
Reaktionen: Skudrinka
Inxession schrieb:
Das hat AMD vorbildlich gemacht.
Nicht unbedingt. Der Fehler war ja z.B. 1usmus seit Anfang an bekannt. Wenn er es auch gemeldet hat, dann hätte AMD es besser machen können.

Aber wie jemand anderes zur Schuldfrage sagte: Egal, hauptsache, es ist nun behoben.
 
BrollyLSSJ schrieb:
zur Schuldfrage sagte
Schuld ist immer so ein schwerwiegendes Wort - Verantwortung finde ich geeigneter.

Auch wenn der Ärger beim Einzelnen sicherlich groß war (bei mir als eher faulem Hund wäre er es gewesen), wurde in den konkreten Fällen nach den bisherigen Verlautbarungen ja offensichtlich schnell und formlos geholfen.

Jedoch: Unabhängig weiterer, bisher vielleicht nicht realisierter, "Schutzschaltungen" meine ich schon, dass hier auch wirklich banale Kommunikationsfehler in Form expliziter Rückversicherung zu einzelnen Betriebsparametern mit ausschlaggebend gewesen sein könnten.
Wobei ich nicht hoffe, dass die Parameter per PDF-Attachment an einzelne APs verteilt wurden.
Für mich riecht es doch deutlich nach "etwas zu viel Routine" bei AMD und den Mainboard-Herstellern, möglicherweise auch begründet in der Anzahl der SKUs. Das wird sicherlich zu Verbesserungen führen.

Wie auch immer: Das Thema erscheint mir aufgrund der tatsächlich berichteten Fälle massiv überdramatisiert. Heutzutage scheint aber bereits ein Tweet ausreichend für Drama und "hängt sie!".
Das finde ich schon bitter - wird es doch eines Tages darin münden, dass jegliche "coole" Parametrisierung von CPU-Parametern in Hardware ausgeschlossen werden wird.

Disclaimer: Dass soll das Gehampel mit EXPO (XMP) und dessen Konsequenz für die Garantie nicht entschuldigen. Diesen Widerspruch zwischen "schreiendem" Marketing und im Kleingedruckten auf die Kunden abgewälztem Risiko finde ich schon immer lachhaft.
 
Zuletzt bearbeitet: (Typo)
  • Gefällt mir
Reaktionen: daknoll, BrollyLSSJ und djducky
AMD hat halt mim LGA nicht so viele Erfahrungswerte, da kann mal die ein oder andere CPU Hops gehen :freak:.

Taurus104 schrieb:
Das Thema hat doch der CPU Redakteur der PCGH bereits in einem letzten Video angesprochen. Er hat festgestellt das kein Drittanbieter Tool die Idle Temperaturen richtig auslesen kann, auf Grund von technischen Begrenzungen. Nur das Ryzen Master Tool hat bei ihm plausible Idle Werte ausgegeben. Alle Tool wie HW Info und Co lesen den Idle Wert 20-30W zu hoch aus.
Zudem redet man wenn, auch nur von kurzzeitigen Peaks.
Was für ein Schwachsinn. Speziell die High-End Boards haben komplett funktionsfähige Sensorik ICs.
 
Ganz ehrlich.Mir sind die Idle Werte egal wenn ich teure Hardware kaufe.Ich bin mir halt bewusst, dass high end PCs Strom saufen und das nehm ich in Kauf.
Will da auch nichts undervolten.
Das einzige was ich eingestellt habe,ist die CPU auf 65W zu begrenzen, da die Temps dadurch sehr viel niedriger bei grad mal 5-7% Verlust laufen.Aber das auch nur, weil das jeder hinkriegt.Auf alles andere hab ich keine Lust.Die ganzen Benchmarks durchlaufen usw. dauert zu lange.
Selbst meine ASUS gpu, wurde mit dem Tweak GPU auf die offiziellen OC Werte eingestellt und hat direkt BSODs rausgehauen.Daher echt kein Nerv mehr drauf.Allein bei der Vega56 musste ich fast eine Woche rummachen bis ich die stabilsten Werte hatte.
Aber hey, wer es machen will kann das gerne tun.Nur will ich meine Hardware einbauen und loslegen.Deshalb gefällt mir bei AMD auch so gut, dass die CPUs jetzt schon so nah am Limit laufen, dass man eben nicht mehr rumtunen muss.
 
Zurück
Oben