News Instabile K-CPUs: Intel Core i9 13. & 14. machen auch im Server große Probleme

Ich sags ja immer wieder. Falls Spiele oder Anwendungen abstürzen oder Fehler werfen, dann ist die Wahrscheinlichkeit relativ hoch, dass ein Hardwaredefekt vorliegt.

Mein aktuelles und mein vorheriges System sind völlig frei von Crashes jeglicher Art. Beides AMD.

Kenne auch ein paar Kollegen, die immer mal Abstürze haben. Die nutzen auch 13th gen CPUs von Intel.
Oft wird es abgetan dass das ja normal sei und an Windows oder den Treibern liegt…
Kann sein, muss aber nicht.

Rockstable systeme sind durchaus möglich. und ich mache jedes Windows und Treiberupdate mit…
 
  • Gefällt mir
Reaktionen: metallica2006, floTTes, nyster und 3 andere
Pokerclock schrieb:
Schaut man sich die Boards mal genauer an, dann erkennt man eine luftstromoptimierte VRM-Kühlung. Das ist alles kein Problem, wenn da genügend Luft drüber geht. Einen Nachweis dazu gibt es nicht. In Kombination mit einem nicht nachgewiesenen Powerlimit kann es auch sein, dass schlicht die VRM-Kühlung versagt hat.
Du glaubst allen ernstes, dass mehrere Serverbetreiber ihre Boards nicht richtig kühlen und der Fehler deshalb auftritt? Und dass die Serverbetreiber die Board-Temperaturen nicht checken? Temperaturen sind das erste was bei solchen crashes unter die Lupe genommen wird.
 
  • Gefällt mir
Reaktionen: usernamehere, CableGuy82, iron_monkey und 12 andere
mkl1 schrieb:
Die Ursache sollten sie schnellstmöglich finden. Nicht das sie die Ursache mit zu ARL-S rüberschleppen. Es muss aber irgendwie mit der Spannung, der Taktfrequenz und Leistungsaufnahme zu tun haben, die kleineren Modelle sind alle nicht betroffen. Am Ende des Tages sind 13900K und 14900K zu hart am Limit betrieben.
Power wenig, da W680 betroffen sind, eher die Volt, die liegen auch beim W680 an, siehe AHOC / Buildzoids Video
 
  • Gefällt mir
Reaktionen: Baal Netbeck
Wie weit müsste man einen 13900k oder 14900k runtertakten/runtervolten, um ihn stabil zu bekommen. Hat das noch keiner getestet?
 
  • Gefällt mir
Reaktionen: JarlBallin
oicfar schrieb:
Schon die Tage die Videos zu dem Thema gesehen. Popcorn raus und schauen wir, was hier noch kommen wird.
Es ist eigentlich eine mittlere Katastrophe. Angenommen es ist etwas, das im CPU Design sitzt (Ring Bus Frequenz in Kombination mit Cache Fehler usw...) sind die ganzen CPUs eigentlich im Eimer.
Ist es so etwas, hat man auch das Problem, dass man Dinge ja nicht jedes Mal neu erfindet und vielleicht auch in Arrow Lake und Co schlummert....
Intel untersucht das Ganze nun schon ziemlich lange (man hat ja schon vor über 3 Monaten ein neues Baseline-Profil ausgeliefert) und das heißt nichts Gutes. Man weiß vermutlich selbst zwar langsam schon, was das Problem ist, hat aber wohl keine kurzfristige Lösung via Software. Und ein CPU Tausch der offenbar recht flott von Intel gestattet wird, hilft eben auch nicht.

Aber es gibt ja verschieden Verdächtige: Cache, Ringbus-Speed, Voltage... vielleicht eben eine ungünstige Kombination aus all dem +Fertigungsfehler oder ähnliches... Puh.
Letzten Endes kann man um RPL grad nur einen großen Bogen machen und hoffen, dass dasselbe nicht auch wieder bei ARL passiert. Aber vom "Hoffen" hab' ich nichts, solange das Problem also nicht bekannt und gefixtg ist, mache ich um Lunar und Arrow ebenso einen großen Bogen, so spannend die CPUs auch sein mögen.
Ergänzung ()

mkl1 schrieb:
Wie weit müsste man einen 13900k oder 14900k runtertakten/runtervolten, um ihn stabil zu bekommen. Hat das noch keiner getestet?
Doch... aber das Problem ist, dass das das ursprüngliche Problem nicht löst und 2. dass die Instabilitäten scheinbar trotzdemn noch auftreten
 
  • Gefällt mir
Reaktionen: floTTes, Dittsche, Cruentatus und eine weitere Person
WinnieW2 schrieb:
Möglicherweise werden die Chips nicht streng genug selektiert und es werden Modelle als Core i9 K verkauft obwohl diese Null Betriebsreserve nach oben haben.
Das würde nicht erklären warum die 700er diese Probleme auch haben.
 
  • Gefällt mir
Reaktionen: floTTes
TigerNationDE schrieb:
Ich frag mich ja ehrlicherweise, ob die sache irgendwas mit der ganzen Sicherheitssache rund um Windows zu tun haben könnte.
Nein, passiert auf Linux Maschinen auch. Es sind die CPU, das ist inzwischen 100% klar
 
  • Gefällt mir
Reaktionen: Protogonos, Rockstar85, Volvo480 und 8 andere
Mimir schrieb:
Rockstable systeme sind durchaus möglich. und ich mache jedes Windows und Treiberupdate mit…
Ja, aber auch mit Intel. Mein 13700K legt keine Abstürze hin und ist Rockstsble. Das ist keine Eigenschaft, die ein Hersteller für sich allein verbuchen kann. Bei mir waren es drei Generationen AMD GPUs die Probleme gemacht haben, kann ich daraus nun etwas ableiten? Nein.
 
mkl1 schrieb:
Wie weit müsste man einen 13900k oder 14900k runtertakten/runtervolten, um ihn stabil zu bekommen. Hat das noch keiner getestet?
Wendel spricht im Video von 139K Maschinen, die wurden durch 149K ersetzt ohne den bereits gesenkten 54x Multi zu entfernen, auch diese CPUs sind inzwischen degradiert
 
  • Gefällt mir
Reaktionen: BeezleBug
Basshinzu schrieb:
Du glaubst allen ernstes, dass mehrere Serverbetreiber ihre Boards nicht richtig kühlen und der Fehler deshalb auftritt? Und dass die Serverbetreiber die Board-Temperaturen nicht checken? Temperaturen sind das erste was bei solchen crashes unter die Lupe genommen wird.

Ich sehe keinen Nachweis (ein Bild von einem Server-System hätte dicke gereicht), der mich überzeugt, dass dahingehend überhaupt etwas gemacht wurde.

Davon abgesehen, haben die Serverbetreiber nach eigenen Angaben gar keinen direkten Zugriff auf die Hardware. Dafür muss ein externer Techniker kommen.

Ich bin zum Glück in der Lage, mir das selbst anzusehen. Spätestens ab Mittwoch werde ich es wissen.
 
  • Gefällt mir
Reaktionen: Raykus und incurable
bad_sign schrieb:
Nein, passiert auf Linux Maschinen auch. Es sind die CPU, das ist inzwischen 100% klar
Ah gut, dann kann ich den Gedanken verwerfen. Darum schrieb ich "Nicht so tief in der Materie", weil ich mit Linux z.B. absolut Null am Hut habe. Danke für diese Aufklärung :)
 
Man muss sich generell mal vor Augen halten da wollen so 200A durch 8 P Cores im Desktop ist schon krank mich wundert eh das erst jetzt Probleme mit der Elektrodegradation kommen.
 
  • Gefällt mir
Reaktionen: M11E, Dgini und JarlBallin
mkl1 schrieb:
Wie weit müsste man einen 13900k oder 14900k runtertakten/runtervolten, um ihn stabil zu bekommen.
Unterspannen ist mutmaßlich eines der Probleme, dass die Boardhersteller verursacht haben.
 
Wenn es tief im System ist, fällt mir da was ein. Es ist ein absichtlicher Fehler wie beim Todesstern.
 
  • Gefällt mir
Reaktionen: floTTes und trb85
Donnidonis schrieb:
Ja, aber auch mit Intel. Mein 13700K legt keine Abstürze hin und ist Rockstsble. Das ist keine Eigenschaft, die ein Hersteller für sich allein verbuchen kann. Bei mir waren es drei Generationen AMD GPUs die Probleme gemacht haben, kann ich daraus nun etwas ableiten? Nein.
Es gilt es noch herauszufinden, ob letztlich alle CPUs betroffen sind, oder bei manchen Typen nur einige. Dann wär etwa ein Produktionsfehler der übersehen wurde beim Validieren möglich.
 
  • Gefällt mir
Reaktionen: inge70, tritratrullala und incurable
TigerNationDE schrieb:
Das würde nicht erklären warum die 700er diese Probleme auch haben.
Buildzoid hat Igors Binning rangezogen, indem einige 700er Maschinen auch eine VID von >1,4V haben.
Wenn der BUS ab 1,3x bzw. 1,4V degradiert, dann wären auch 700er Maschinen zu erklären
 
  • Gefällt mir
Reaktionen: JarlBallin
Blutschlumpf schrieb:
Laufen die CPUs denn problemlos wenn man sie auf z.B. 1x700er Niveau runtertaktet und mit entsprechender Spannung versorgt?
Schon eher. Bei i7 gibt es deutlich weniger beschwerden. Die gehen auch nur bis 1.4v
 
Axxid schrieb:
Wer hätte schon ahnen können, dass man nicht konstant nahezu 300W durch CPUs jagen kann.

In dieser Pauschalität ist das kompletter Unsinn. Wenn die Hardware dafür ausgelegt ist, dann läuft das. Dazu gehört natürlich alles: der Chip, die Spannungsversorgung, die Kühlung, ...

In professionellen Serversystemen, um die es hier geht, ist das überhaupt kein Thema.

Aufgrund der besseren Performance von AMD habe ich erst vor zwei Wochen eine Ladung neuer Server mit EPYC 9174F bestellt (wir benötigen für eine spezifische Anwendung viel Singlecore-Leistung). In diesen Kisten werden maximal 400 W durch die Prozessoren gejagt (TDP 320 W). Diese Server werden bei meinem Arbeitgeber die nächsten Jahre sicher nicht geschont. Ich bin sehr zuversichtlich, dass wir damit keine Schwierigkeiten bekommen. Wie auch sonst bei so gut wie keiner anderen Serverhardware, von einzelnen seltenen Ausfällen, die es immer mal gibt, abgesehen.
 
  • Gefällt mir
Reaktionen: floTTes, nyster, DaToni und 4 andere
bad_sign schrieb:
Es sind die CPU, das ist inzwischen 100% klar
Das stimmt nicht. Prozessoren funktionieren nicht ohne das passende Ökosystem und so lang der tatsächliche Grund nicht zweifelsfrei feststeht sind solche Aussagen unseriös und helfen nicht weiter.
 
Zurück
Oben