News Ryzen 7000X3D & 7000(X): AMD hat die Ursache für die defekten AM5-CPUs gefunden

Master Chief ! schrieb:
Habe mal gerade nachgeschaut bei MSI für mein MB (B650 Tomahawk Wifi), da ist kein neues BIOS zu finden.
Das aktuellste ist vom 14.04. (Beta)

Habe Testweise noch mal wahllos 3 andere MSI MB rausgesucht, wie z.b. X670E, weil ich dachte das Kunden die mehr bezahlen vllt. eher Updates erhalten, aber auch da kein neues BIOS gefunden nur das Beta vom 14.04..
Das 14.04 scheint den "fix" drin zu haben. Da man mit der Bios Version nur noch negative Werte für CPU offset voltage einstellen kann. Also wenn man das (-) sieht dann ist es wohl aktuell.
https://www.reddit.com/r/MSI_Gaming/comments/12x5uaq/new_am5_series_motherboard_bios_implement_cpu/
 
Rockstar85 schrieb:
Mir wäre neu, dass EXPO mit 1,5V Zertifiziert ist..
??? Wie kommst du jetzt auf 1,5V? Letztendlich aber egal, der springende Punkt ist doch, wenn ich einem Nutzer die Freiheit lasse etwas komplett unsinniges zu konfigurieren, dann kann ich leider auch davon ausgehen, dass er es konfiguriert.

In Umkehrschluss sollte jedes Produkt nach Möglichkeit so gebaut sein, dass Einstellungen die ein Produkt zerstören schlichtweg nicht möglich sind. "Früher" ist dir eine CPU durchgebrannt, wenn der Kühler nicht richtig drauf montiert war, sowas ist seit vielen Jahren nicht zum Glück mehr möglich.
1682374238869.png


Bei einem aktuellen Produkt darf man also durchaus erwarten, dass der Hersteller ebenfalls solche Sachen berücksichtigt. Auch wenn man natürlich unmöglich jeglichen Blödsinn den ein Nutzer verursacht voraussehen kann.

Wir wissen aktuell die Ursache nicht und wenn es nur ein paar Einzelfälle sind, dann ist es halt geschenkt. Wenn ein Produkt aber schlichtweg so beschissen designend ist, dass man erst jetzt nachträglich jede Spannungserhöhung unterbinden muss, dann können sich der Hersteller schlecht von jeglicher Schuld freisprechen.

Wenn ich was auf die Kante genäht herausbringe, dann muss ich jegliches OC unterbinden und das war meines Wissens zumindest beim 5800X3D schon der Fall, also ist man sich der Problematik mit dem Stapelcache doch eigentlich bereits bewusst.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: crackett, Flyerdommo und AtomLord
FGA schrieb:
Wer AMD kauft, kauft zweimal. War doch schon immer so.
ich mochte zwar AMD aufgrund meiner Erfahrungen auch nicht so sehr aber...
du hast Recht.

Die meisten kaufen eine AMD Plattform und kaufen nur die CPU´s zweimal, dreimal oder viermal weil sie einfach die gleiche Plattform über viele Jahre aufrüsten können.

Die Intel User dagegen müssen gleich die komplette Plattform wechseln und kaufen mehrmals 🙈
Dein und mein Sockel 1700 wird auch bald wieder ersetzt 😉
 
  • Gefällt mir
Reaktionen: StevenB, Benji21, dahkenny und 10 andere
Wie immer gibt:

  • für Betroffene sehr ärgerlich, auch wenn es schnell kostenlosen Ersatz gibt
  • nichts wird so heiß gegessen, wie es gekocht wird
  • das gilt in diesem Fall genauso wie für Intel und Nvidia
  • es ist dennoch gut, dass darüber berichtet eird
  • die Schuldfrage wird sicherlich auch schnell geklärt sein

Liebe Grüße Sven
 
  • Gefällt mir
Reaktionen: thom_cat, Hellfox103, BrollyLSSJ und 12 andere
Meint ihr man ist mit dem 45W/61W ECO-Profil erstmal sicher vor einer evtl. überhitzung, oder spielt das keine Rolle?
 
Rockstar85 schrieb:
Mir wäre neu, dass EXPO mit 1,5V Zertifiziert ist..
Also vllt vorher die Fakten checken?

https://www.igorslab.de/en/ryzen-70...ctice-test-with-benchmarks-recommendations/6/
Ich achte deine Kommentare sehr, aber langsam wirst du echt Populistisch

@AtomLord
Nein, aber es wäre doch nur fair, denn du Unterstellst hier eben Dinge, die die Faktenlage nicht hergeben..
Nochmal: Wenn es so viele beträfe, hätten wir eine Häufung. Diese gibt es nicht. Also haben Asustek und Co wohl die Grenzen ausgehebelt.. Oder hauen per Default zu hohe Spannungen drauf. Es gibt halt diese zwei Optionen.
Und wie man sieht, stand in alten Biosrevs was von 1,4V, also Abwarten. Auch die "Kühlergate" Nummer bei AMD war am Ende nicht mal die Aufregung wert. Aber lassen wir das.

Kleiner Tipp: Halte dich an die Faktenlage, oder geh zum CSU Stammtisch :)
Wir sind ein Techforum und kein Stammtisch.
Schon mal was von freier Meinung gehört? Wie kommst du darauf mir hier den Mund zu verbieten? Nimm mal eine anti Arroganz Pille... ^^

Und welche Fakten? Wir tappen momentan alle im Dunkeln, also alles Spekulatius. Zumal ist es auch eine Frage der Materialermüdung, die CPUs werden arschheiß im Betrieb, diese Fehler können also auch von der Nutzungsinesität der CPU abhängen, die erst nach einer bestimmten Nutzungsdauer auftreten, abhängit von der Qualität, da die Temperaturschwankungen im Hotspotbereich bei den Dingern schon recht häftig sind... 🤨
 
  • Gefällt mir
Reaktionen: Connecto
xexex schrieb:
??? Wie kommst du jetzt auf 1,5V?
Diese Werte wurden halt bei Igor und Roman genannt.. Das sieht man auch bei dem Video mit dem Auslöten. Und ja die 1,5V dürften zu viel Sein.. Ebenso findest m Reddit was zu den werten.
Wenn man sich das PIN Layout anschaut, dann betrifft es eben NICHT den CCD, sondern SoC und VCDDR sind halt Dinge, die das Mobo regelt. Da hätte dann Asustek Mist gebaut.

@AtomLord
Du hast das recht auf deine Meinung, richtig. Ein feiner Unterschied jedoch: Du hast nicht das Recht auf Widerspruchsfreiheit.
Damit vllt selbst mal nen Gang runterschrauben...
Du wirst OT.

@Master Chief !
Also wenn die Aussagen von Igor und Roman stimmen, betrifft es den DRAM Bereich. Damit würde auch eine 170W PTT CPU keine Schäden hervorrufen.. Nur die EXPO Werte würde ich kontrollieren, auch wenn weder von MSI noch Biostar eine negative Rückmeldung erfolgte. Es kann am Ende auch schlichtweg eine BIOS Rev betreffen.


Hier das PIN Schema, damit es auch der letzte begreift:

1682374937603.png
 

Anhänge

  • 1682375082635.png
    1682375082635.png
    2,8 MB · Aufrufe: 158
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: herculesgott
Rockstar85 schrieb:
Diese Werte wurden halt bei Igor und Roman genannt..
Und was hat es jetzt mit meiner Aussage zu tun?
Der DDR5 Standard ist für 1,1V ausgelegt, brennen die dafür ausgelegten Module deshalb bei 1,4V durch? Wenn sie das täten wären die Foren voll davon, also muss man davon ausgehen, dass hier der Fehler durchaus auch bei AMD liegt, es wäre ein leichtes ein Powerlimit zu setzen.
 
xexex schrieb:
Und was hat es jetzt mit meiner Aussage zu tun?
Ganz einfach: Wenn Asustek und sagen wir mal Gigabyte falsche Werte vom mobo liefern, dann stirbt am Ende das Schwächste Glied. Hier also die LGA Pins.
Das Thema VCDDR Voltage gibt es halt auch bei GPU, es könnte also sein, dass EXPO ungewollt die VCDDR Spannung der GPU erhöht und damit die CPU stirbt.
Also was bringt dir ein von AMD Gesetztes Powerlimit wenn es die Mobo Hersteller aushebeln? Wenn der Voltage Controller andere Werte vorgespielt bekommt, als er tatsächlich bekommt, wird das schwer. Dann müsstest du wie bei NV am Ende alles Verdonglen.


Hier mal bissl mehr dazu:

https://www.overclock.net/threads/o...7900x3d-7950x3d.1803292/page-89#post-29179055

https://www.reddit.com/r/Amd/comments/12xmr24/tracker_thread_for_am5_bios_updates_with_voltage/



@Nikon71
Erst Lesen, dann schreiben.. Also vllt fürs Nächste mal ;)
 
Zuletzt bearbeitet:
xexex schrieb:
??? Wie kommst du jetzt auf 1,5V? Letztendlich aber egal, der springende Punkt ist doch, wenn ich einem Nutzer die Freiheit lasse etwas komplett unsinniges zu konfigurieren, dann kann ich leider auch davon ausgehen, dass er es konfiguriert.

In Umkehrschluss sollte jedes Produkt nach Möglichkeit so gebaut sein, dass Einstellungen die ein Produkt zerstören schlichtweg nicht möglich sind. "Früher" ist dir eine CPU durchgebrannt, wenn der Kühler nicht richtig drauf montiert war, sowas ist seit vielen Jahren nicht zum Glück mehr möglich.
Anhang anzeigen 1350930

Bei einem aktuellen Produkt darf man also durchaus erwarten, dass der Hersteller ebenfalls solche Sachen berücksichtigt. Auch wenn man natürlich unmöglich jeglichen Blödsinn den ein Nutzer verursacht voraussehen kann.

Wir wissen aktuell die Ursache nicht und wenn es nur ein paar Einzelfälle sind, dann ist es halt geschenkt. Wenn ein Produkt aber schlichtweg so beschissen designend ist, dass man erst jetzt nachträglich jede Spannungserhöhung unterbinden muss, dann können sich der Hersteller schlecht von jeglicher Schuld freisprechen.

Wenn ich was auf die Kante genäht herausbringe, dann muss ich jegliches OC unterbinden und das war meines Wissens zumindest beim 5800X3D schon der Fall, also ist man sich der Problematik mit dem Stapelcache doch eigentlich bereits bewusst.
Ja, sag ich doch, eine reine Fehlkonstruktion. Also, ich hatte schon viele CPUs in all den Jahren, aber mir ist noch keine abgeraucht, und so schonmal garnicht. Zu dicke IHS, zu dicke Lotschicht, Hotspot Temperaturen aus der Hölle und dazu wohl noch mies verarbeitet, ich habe in meiner ganzen IT-Systemelektroniker Zeit noch nie erlebt, dass sich ein DIE von selbst entlötet hat, wie bei Roman... Nicht mal die Thunderbirds haben das hingekriegt. 🤨
 
  • Gefällt mir
Reaktionen: Grillwurst und crackett
Rockstar85 schrieb:
Das Thema VCDDR Voltage gibt es halt auch bei GPU, es könnte also sein, dass EXPO ungewollt die VCDDR Spannung der GPU erhöht und damit die CPU stirbt.
Dann hast du meine Aussage gar nicht verstanden! Es ist egal was ASUS wohin liefert, die CPU ist das einzige Element in dieser Kette, wo es möglich ist an den richtigen Stellen Sensoren anzubringen und kritische Temperaturen zu überwachen. Dies ist hier scheinbar nicht der Fall und bei einer CPU die so aussieht, müssen die Temperaturen weit über den "üblichen" 100°C gelegen haben, womit die CPU längst hätte die Handbremse ziehen müssen.
 
xexex schrieb:
Dann hast du meine Aussage gar nicht verstanden!
Mag sein, dass wir hier aneinander vorbei schreiben.. Ich pass das Posting an.. Scheinbar lief wohl was Falsch beim BIOS? Mal schauen, ob das AGESA der Grund ist.
Was wäre wenn ASUS und Gigabyte schlichtweg die Voltage Reglementations ausgehebelt haben? Dann kann die CPU, wenn sie eben falsche Sensordaten kriegt, nichts machen.
Nebenbei reichen einfach zu hohe Spannungen an den Pads, da dies zu unweigerlich hohen Strömen führen kann. Also was, wenn hier der SOC Voltage Controller auf dem Mobo Mist meldet? Dann kann die CPU halt nicht reagieren... Schaut man in den Reddit findet man auch kein Eindeutiges Fehlerbild.

Zitat: (PCGH)
Doch ganz offensichtlich legen manche Mainboardhersteller ab Werk sehr hohe Spannungen an, eine SoC-Spannung ("VSOC") von mehr als 1,4 Volt steht im Verdacht, das Ableben des 3D V-Caches und damit der CPU zu begünstigen.

MSI dazu:

1682376154718.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Intruder
Rockstar85 schrieb:
Dann kann die CPU, wenn sie eben falsche Sensordaten kriegt, nichts machen.
Die CPU kann immer was machen! Nimm doch einfach den Kühler von der CPU ab, stelle 1,5VCore ein und boote damit Windows. Wird sie durchbrennen? Nö! Sie wird nur mit 1Ghz vor sich hindümpeln. Wer erinnert sich nochmal daran? Ja wo sind die denn?
1682376194209.png


Wie ich in meinem ersten Post in diesem Thread schon gesagt habe, man braucht hier jetzt kein Fass aufzumachen. Wenn ich als Hersteller aber sowas heutzutage nicht berücksichtige, dann kann ich mich eben nicht von der Schuld freisprechen. Schon der erste 3D Ryzen war ein Hitzkopf, das Problem ist AMD also definitiv bekannt. Irgendwo hat man hier schlichtweg versäumt, die Temps korrekt zu überwachen und darauf zu reagieren.
 
  • Gefällt mir
Reaktionen: Connecto und AtomLord
Du weisst schon, dass diese Sensoren nichts bringen, wenn sie falsche Werte bekommen, oder? Wir reden hier am Ende von einem Boost Algorithmus.. Muss ich dir nun Echt Boost Mechaniken erklären?

Hier mal was von PCGH zum Thema:

https://www.pcgameshardware.de/CPU-...Ryen-7000X3D-mit-defektem-3D-V-Cache-1418269/
Es scheint also, wie von Igor und anderen vermutet, ein Vcore Offset Problem zu sein.
Mir wäre auch neu, dass AMD ein Vore Offset von 1,4V und höher freigegeben hat.


https://twitter.com/Buildzoid1/status/1650576824106115084?s=20
 
  • Gefällt mir
Reaktionen: Intruder
Rockstar85 schrieb:
Du weisst schon, dass diese Sensoren nichts bringen, wenn sie falsche Werte bekommen, oder?
Was für falsche Werte soll ein Temperatursensor in der CPU bekommen? Der ist dafür zuständig in der CPU die Temperatur zu messen und Maßnahmen zu ergreifen. Nicht das Mainboard misst die Temperaturen in der CPU sondern die CPU selbst.

Ich zitiere dir es gerne mal von der Intel Seite:
Prozessoren verfügen über zwei Temperaturschutzmodi: Drosselung und automatisches Herunterfahren. Wenn ein Kern die festgelegte Drosselungstemperatur überschreitet, beginnt er mit einer Leistungsreduzierung, um die Temperatur wieder unter diesen Punkt zu bringen. Die Drosselungstemperatur kann je nach Prozessor- und BIOS-Einstellungen variieren.

Wenn Bedingungen vorliegen, unter denen die Temperatur durch Drosselung nicht gedrückt werden kann (z. B. ein Fehler bei der Thermischen Lösung oder eine falsche Baugruppe), wird der Prozessor automatisch heruntergefahren, um dauerhafte Schäden zu vermeiden.
Ergänzung ()

Rockstar85 schrieb:
Mir wäre auch neu, dass AMD ein Vore Offset von 1,4V und höher freigegeben hat.
Es ist egal was hier "freigegeben" worden ist, entscheidend ist dass es zu einem Materialschaden kommt, weil hier schlichtweg keinerlei Temperaturüberwachung/abschaltung stattfand. Das ist auch der Punkt den ich an dieser Stelle kritisiere, ein Produkt sollte heutzutage so gebaut sein, dass es sich selbst schützt.
 
Zuletzt bearbeitet:
Habe letzten DO neues ASUS-System gebaut und das damals aktulle BIOS aufgespielt. Am FR kam die neue Version. Das habe ich aber nicht mitbekommen und das ganze WE mit EXPO2 und zu hohen Spannungen gezockt. Warum zeigt "ArmoryCrate" alles mögliche an unnützen Zeug, aber nicht dass eine neue BIOS-Version verfügbar ist? Oh Mann
 
Am Ende ist das Mobo der Tragende Punkt.. Und ich formuliere es mal einfach:

Wenn dein Mobo dem Controller sagt: Es sind 1,4V zu viel, Drossel und der antwortet:
Nöö, sind 1,2V , dann bringen dir auch 1000 Sensoren nichts.
Am Ende steht und fällt das Überleben der CPU mit dem Mobo. Die Sensorik kann noch so ausgefeilt sein, der Algorithmus noch so komplex, wenn die Spannungsüberwachung falsche Daten liefert, dann nützt das nichts.

Und deine von Intel zitierten Modi werden durch die Sensorik im Mobo ausgelesen, aber ich muss nun morgen arbeiten und ins Bett.

Ich zitiere mal HWinfo:

-CPU (onboard sensor): This is either a temperature measured by a dedicated sensor on mainboard located inside the CPU socket (the external CPU temperature) or temperature obtained from internal CPU thermal sensor (i.e. DTS = Digital Thermal Sensor).

-Core Max: The maximum temperature among all cores in the CPU.

-CPU (Tctl): This is the T_control temperature available on AMD CPUs only. On several generations before Zen (Ryzen), this is not a reliable representation of the temperature. On AMD Zen series this is the temperature used to control cooling and is a fixed offset from the real CPU temperature. Offset is used mostly on X-series and some Threadripper CPUs; in such case two values are shown: Tctl and Tdie. If no offset is used, then only a single value is shown as Tctl/Tdie, which equals the real temperature.

-CPU (Tdie): This value is shown in case the CPU uses an offset from Tctl and represents the real temperature (Tdie = Tctl - Tctl_offset).

-CPU Package: Shown on Intel CPUs represents a 256-millisecond average value (calculated by CPU) of the hottest temperature sensor within the CPU package.

-CPU Package (TSI): Available on pre-Zen AMD CPUs is the CPU temperature obtained via TSI interface.

-Core #n (n=any number): Actual temperature of a particular CPU core.

-CPU IA Cores: Maximum temperature among all computing (x86) cores in CPU (so part of CPU except Uncore and Graphics logic).

-CPU GT Cores: Temperature of the integrated graphics part of CPU (if present).

Die CPU kann sich nicht selbst schützen, wenn sie unplausible Werte bekommt.. Ich kann auch ein ESP nicht Benutzen, wenn die Sensoren Mist liefern. Darum geht es! Wie soll AMD sich also davor schützen?
Sag es mir bitte, ich weiß es nicht.
 
  • Gefällt mir
Reaktionen: Benji21, axi, Illithide und eine weitere Person
Rockstar85 schrieb:
Wenn dein Mobo dem Controller sagt: Es sind 1,4V zu viel, Drossel und der antwortet:
Nöö, sind 1,2V , dann bringen dir auch 1000 Sensoren nichts.
Sorry aber was hast du mit deinen Voltzahlen? Die Spannung ist völlig irrelevant, wenn der Strom nicht fließt! AMD sagt bei ihren CPUs ganz deutlich:
Once you enable overclocking mode, the 95°C temperature target gets disabled and the CPU may run at up to 105°C, and only above that it will turn off automatically to protect itself—this is the real TJMax.
DAS fand hier eben nicht statt!
Ergänzung ()

Rockstar85 schrieb:
Die CPU kann sich nicht selbst schützen, wenn sie unplausible Werte bekommt..
Die CPU bekommt keine Werte, wie oft soll ich das noch wiederholen? Nicht das Mainboard überwacht die kritischen Temperaturen, es ist die Aufgabe der CPU! Hier mal ein Auszug aus der Intel Dokumentation.
1682378065626.png

Festzuhalten bleibt, AMD hat es versäumt an diesen Stellen entsprechende Schutzschaltungen zu verbauen und scheinbar hat man das Problem auch bei AGESA nicht berücksichtigt. Ob die Mainboardhersteller hier entgegen einer Anweisung von AMD Sachen zugelassen haben, oder es eine solche Anweisung schlichtweg nicht gab, lasse ich aus Mangel an Informationen offen.

Wie schon anfangs gesagt, Fehler passieren, schön ist trotzdem was anderes. Für mich ist an dieser Stelle auch völlig unerheblich was jetzt der Auslöser für das Problem war, man hat es schlichtweg versäumt einen entsprechenden Schutz vor solchen Auswirkungen einzubauen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: crackett und MrHeisenberg
So was finde ich traurig, da man selbst nichts dafür kann, aber jetzt frage ich mich, wer dafür aufkommt der Händler oder der Hersteller.
 
  • Gefällt mir
Reaktionen: Blende Up
Zurück
Oben