News Instabile K-CPUs: Intel Core i9 13. & 14. machen auch im Server große Probleme

stefan92x · 17. Juli 2024

Gamefaq schrieb:
Ihr vermischt das ganze grade zu einem!

Nicht wirklich. Schon im zitierten Bericht von Alderon Games geht es um beides. Zum einen um Crashes, die Spieler selbst haben, zum anderen um die von Alderon betriebenen Gameserver.

Pokerclock · 17. Juli 2024

stefan92x schrieb:
Würde Intel dann hunderte oder tausende Austausch-CPUs an so ein Datacenter schicken, ohne irgendwann mal festzustellen "warte mal... die gehen doch alle noch, die wir zurück bekommen?"

Es betrifft laut Bericht 250 Systeme, verteilt auf 3 Serveranbieter. Ich kann mir gut vorstellen, dass das so schnell gar nicht auffällt. Hierfür müssen wir mal einen Schritt hin zum Großhandel machen. Typischerweise werden diese CPUs ja Tray gekauft. Tray-CPUs stammen zu 98% aus dem Graumarkt. Intel beliefert hier die jeweiligen Großhändler gar nicht direkt, geschweige den die gewerblichen Endkunden aus diesen Bereichen. Die CPUs stammen meist von (asiatischen) Distributoren, die wiederum die CPUs im Markt an die lokalen Großhändler verteilen (deswegen auch die massive Preisvolatilität in Bezug auf den US-Dollar-Wechselkurs). Natürlich landen diese CPUs letztlich alle wieder bei Intel bei einem Defekt, aber ihre Herkunft (als der Endkunde) ist schwer und wenn, dann nur mit erheblichen zeitlichen Verzug für Intel zu ermitteln. Dann gibt es seitens Intel ja ohnehin nur ein Jahr Garantie auf die Tray-CPUs und dann kommen noch jeweils sehr unterschiedliche länderspezifische Gewährleistungsregelungen dazu.

Auf den ersten Blick wirkt das viel und das muss doch auffallen denkt man, aber in der Realität mit Rolle rückwärts in der Wertschöpfungskette sieht das ganz anders aus.

stefan92x · 17. Juli 2024

@Pokerclock ich würde dir da generell zustimmen, wenn Wendell nicht folgende Aussage getroffen hätte (aus dem Youtube-Transskript kopiert):

16:17
or so I tried to prod them a little bit
16:19
on what the data center was experiencing
16:21
from you know messaging from Intel and
16:24
support and they really didn't seem like
16:26
they were getting much support Beyond
16:28
just here having a tray of extra CPUs
16:30
swap CPUs and hope for the best it

Da spricht er halt klar an, dass der Support von Intel kommt, und darin besteht CPUs zum Austausch bereit zu stellen. Von Zwischenhändlern ist explizit nicht die Rede

Rockstar85 · 17. Juli 2024

Gamefaq schrieb:
Ihr vermischt das ganze grade zu einem!

Nicht wirklich.. Alderon Games bezieht sich auf die Problematik. Es ist also mitnichten ein anderes Thema.

Pokerclock · 17. Juli 2024

Sehr ungewöhnlich. Möglicherweise der Bezug zum bzw. generell ein anderer Support im Heimatland?

Man sieht aber auch gut. Nen Tray mehr oder weniger spielt, kaum eine Rolle...

Gamefaq · 17. Juli 2024

stefan92x schrieb:
Nicht wirklich. Schon im zitierten Bericht von Alderon Games geht es um beides. Zum einen um Crashes, die Spieler selbst haben, zum anderen um die von Alderon betriebenen Gameserver.

Trotzdem bzw. grade dann muss in der Diskussion aber Unterschieden werden worüber man grade spricht weil es 3 verschiedene Sichtweisen dazu gibt.

1. Ist der Spiele Server mit dem man verbunden war wegen der Intel CPU gecrasht wodurch man einen Verbindungsaabruch hat?

Das Betrifft dann ALLE KUNDEN dieses Anbieters EGAL WAS FÜR EINE CPU "der Kunde" NUTZT. Also auch Spieler die gar keine I9 Intel CPU haben und hier im Thema geschrieben haben. Puuh bin froh keine Intel CPU zu haben..... Der Unterschied ist nur, dann schimpfen die Spieler/Kunden auf den Spiele Anbieter weil sie ja vom "seinem Server" getrennt wurden. Was für den Server Anbieter bedeutet sie werden (Die Spiele Firma) wohl nicht nochmal bei ihm mieten wenn er seine Server nicht im Griff hat. Als reiner Spieler kannst du nur dich versuchen wenn er wieder Online ist dich erneut zu verbinden.

2. Server Crashes bei Alderon. Das betrifft uns nicht direkt (sofern wir dort nicht einen dieser Server gemietet haben oder Punkt 1 grade darauf spielen) sondern nur den Server Anbieter. Aber das macht es für ihn nicht besser.

3. Es betrifft uns als Spieler wenn ein Alderon Game auf deiner Intel i9 CPU Crasht und Alderon diesen Crash auf DEINE CPU anstatt einen Fehler im Spiel zurückführen kann. Und genau das tun sie ja.

Und genau wegen diesem Komplexen zusammen Spiel wo der Fehler auftreten kann und wen es wie betrifft, ist dieses Intel Problem ja so gravierend.

stefan92x · 17. Juli 2024

Pokerclock schrieb:
Möglicherweise der Bezug zum bzw. generell ein anderer Support im Heimatland?

Gut möglich. Dazu kommt ja noch, dass der Datacenter-Betreiber nicht genannt wurde. Wir wissen also nicht, ob das jemand ist, der 500 Core-CPUs im Jahr kauft und das wars, oder jemand der 20.000 Xeon und 500 Core pro Jahr kauft und damit so groß wäre, dass Intel auf jeden Fall direkt Ansprechpartner ist.

Pokerclock · 17. Juli 2024

stefan92x schrieb:
Wir wissen also nicht, ob das jemand ist, der 500 Core-CPUs im Jahr kauft und das wars, oder jemand der 20.000 Xeon und 500 Core pro Jahr kauft und damit so groß wäre, dass Intel auf jeden Fall direkt Ansprechpartner ist.

Ich tendiere zum kleineren. Typischerweise werden hier entsprechende Serviceverträge mit Intel direkt abgeschlossen, wenn schon solche Mengen an Systeme betrieben werden. Intel verdient zwar mit den CPUs Geld, aber mit dem Service dahinter wird erst so richtig Geld verdient. Das würde dann auch erklären, warum hier schlicht ein Tray geschickt wurde, sprich ein simpler Garantieaustausch und fertig. Am Ende aber auch nur Spekulation...

stefan92x · 17. Juli 2024

Guter Punkt mit den Serviceverträgen, hatte ich so nicht dran gedacht.

Ergänzung (17. Juli 2024)

Gamefaq schrieb:
Trotzdem bzw. grade dann muss in der Diskussion aber Unterschieden werden worüber man grade spricht weil es 3 verschiedene Sichtweisen dazu gibt.

Ehrlich gesagt finde ich, dass man hier eben nicht differenzieren muss. Probleme gibt es quer durch die Bank, vom Endkunden bis zum Datacenter und der eine gemeinsame Nenner all dieser Systeme ist die CPU.

Natürlich ist der Blast Radius eines Crashs unterschiedlich, je nachdem ob nun bei einem Spieler das Spiel crasht, oder der Server für hunderte Spieler abschmiert. Weshalb ich diesem Satz dann absolut zustimme:

Gamefaq schrieb:
Und genau wegen diesem Komplexen zusammen Spiel wo der Fehler auftreten kann und wen es wie betrifft, ist dieses Intel Problem ja so gravierend.

Gamefaq · 17. Juli 2024

Pokerclock schrieb:
Auch zum RAM. Aber hier schreibe ich das noch einmal, dass ich ehrlich gesagt bezweifle, dass die den RAM mit DDR5-3600 haben laufen lassen. Man mokiert sich im Interview mit GN schon wie langsam doch DDR5-4200 sei.

Hast du auch verstanden was er dazu sagte? Bist du des Englischen mächtig? Denn das war ihm selbst ja suspekt und man das nur darauf zurückführen kann das das Mainboard beim Ram-Training durch die crashes verursacht den Speicher selbständig soweit heruntergestuft hat oder es einer der Mitarbeiter der Firma war, als letzte Lösung um den Memory Controller in der CPU zu entlasten in der Hoffnung das dies sie endlich Stabil macht. Denn wenn du Instabilitäten hast ist es ´ja genau das was du tust wenn du den Fehler suchst.

stefan92x schrieb:
Ich verstehe ehrlich gesagt nicht, wieso du so auf diesem Punkt herum reitest? Er hat von mehreren Betreibern Daten für verschiedenste Systeme bekommen, und darin fallen die 13900K/14900K halt deutlich auf (auf verschiedenen Plattformen), alle anderen auf vergleichbaren Boards nicht. Darüber hat er berichtet, und das selber mit einem einzelnen Board+CPU nachzustellen, würde daran halt auch nichts ändern.

Wollte dir @Pokerclock das auch schon schreiben. Eben weil es nicht nur Asus Server Mainboards sondern auch die von Super-Micro betrifft UND du nicht weist was sie dort im Rahmen der Möglichkeiten die diese Boards bieten, diese Konfiguriert waren. Hier musst du der Aussage der Betreiber glauben das sie keinerlei Übertaktung und eher das Gegenteil des Undervolting und Betrieb mit vergleichsweise langsamen RAM genutzt hatten, wie im Video Wendel gesagt wurde.
Und selbst wenn die Einstellungen ähnlich wie bei Privat PC's waren. So ist das wie INTEL es selber ausgesagt hat "IN SPEC"! Wodurch es erst recht bestätigt ist das diese CPU's da wo sie in Massen 24/7 eingesetzt werden auch in Massen Fehler produzieren!

M11E · 17. Juli 2024

Na wo ist denn der Intel Aktionär "Ben_Computer_Ba"?
Nicht falsch verstehen, ich hoffe dass es für alle betroffenen endlich eine angemessene Lösung gibt. Kunden so abfertigen geht ja gar nicht.

ETI1120 · 17. Juli 2024

Pokerclock schrieb:
Ich kann mir grundsätzlich vorstellen, dass gerade diese Intel-Systeme deutlich höhere Anforderungen an Kühlung und Stromversorgung haben und dies grundsätzlich unterschätzt wird.

Der Data Center Betreiber hat die Preise für 14900k Hosting massiv erhöht

Vor einem halben Jahr war der Preis für 14900k lt. Level1Techs vergleichbar mit dem aktuellen Preis vom 7950X.

Daraufhin hat Level1Techs Kontakt mit dem Data Center Provider aufgenommen

Die Aussage des DataCenterProviders im Video von Level1 Techs ist:

Systeme stabil zu betreiben ist das A und O für Data Center Betreiber. Ebenso die Systeme venünftig zu kühlen. Wer das nicht beherrscht macht das nicht sehr lange.

Im Video hatte ich nicht das Gefühl dass da ein Neuling in der Branche gefragt worden ist.

Und außerdem haben sie mit den 12900k keine Probleme. Also kennen sie sich mit der Plattform aus.

Pokerclock · 17. Juli 2024

ETI1120 schrieb:
Und außerdem haben sie mit den 12900k keine Probleme. Also kennen sie sich mit der Plattform aus.

Der 12900K war deutlich leichter zu kühlen und weniger stromhungrig als seine beiden Nachfolger. Für mich spricht diese Aussage eher dafür, dass die allgemeine Problematik nicht aus einem Bending (wird stark bei Igor diskutiert) herrührt. Denn wenn es etwas mit dem Sockel und der Halterung zu tun hätte, wäre es auch schon bei ADL aufgefallen. Es sei den natürlich, RPL verursacht deutlich extremere Heiß-Kalt-Zyklen.

Ring-Bus ist durchaus plausibel, aber war da nicht auch etwas mit e-Cores abgeschaltet, trotzdem kaputt bei Wendell?

EDIT

Ich kann mir auch noch gut vorstellen, dass die 12er Systeme noch mit DDR4 betrieben wurden. Damals war DDR5 schweineteuer und DDR4 erprobt und erschwinglich. Aber wer weiß, alles nur Spekulation, weil man nie so ein System gesehen hat.

stefan92x · 17. Juli 2024

Pokerclock schrieb:
Denn wenn es etwas mit dem Sockel und der Halterung zu tun hätte, wäre es auch schon bei ADL aufgefallen.

Der große Raptor Lake Die ist 3,3mm länger als der große Alder Lake Die. Wenn sowas die Ursache sein sollte, könnte das vielleicht schon der entscheidende physische Unterschied sein.

ETI1120 · 17. Juli 2024

Pokerclock schrieb:
Ring-Bus ist durchaus plausibel, aber war da nicht auch etwas mit e-Cores abgeschaltet, trotzdem kaputt bei Wendell?

Das war eine der Maßnahmen des Data Center Providers

Das Problem ist, dass sehr viele Leute über möglich Ursachen spekulieren und Intel schweigt.

Pokerclock · 17. Juli 2024

stefan92x schrieb:
Der große Raptor Lake Die ist 3,3mm länger als der große Alder Lake Die. Wenn sowas die Ursache sein sollte, könnte das vielleicht schon der entscheidende physische Unterschied sein.

Dann wird das wieder möglich. Danke Dir.

Mit dem Sockel 18xx kommen eh ein paar Änderungen am Sockel und der Halterung. Wenn Intel bis dahin nicht mit der Fehlerursache herausrückt, geht es erst recht los mit den Verschwörungstheorien. Das knallt richtig, wenn die das neue Sockelsystem veröffentlichen, so weit mir zugetragen wurde.

Bis dahin kann man jedem nur empfehlen, Kühler mit massiver Backplate zu verwenden.

stefan92x · 17. Juli 2024

Pokerclock schrieb:
Ring-Bus ist durchaus plausibel, aber war da nicht auch etwas mit e-Cores abgeschaltet, trotzdem kaputt bei Wendell?

Die Kerne schon, aber trotzdem muss der Ring-Bus an sich halt weiterlaufen. Daran ändert es ja nichts, welche Kerne wirklich aktiv sind. So gesehen unterstützt es die These, dass der Bus das Problem ist, wenn das auch bei deaktivierten E-Cores passiert

Auch hier kommen wir wieder an den Punkt, Raptor Lake ist halt größer als Alder Lake, die Distanzen die der Ring-Bus innerhalb des Chips überwinden muss sind also auch größer, es wäre daher naheliegend, dass für den gleichen Datentransfer mehr Spannung nötig ist als beim Vorgänger - vielleicht zu viel.

Donnidonis · 17. Juli 2024

Der Nachbar schrieb:
Und warum hat intel das Problem nicht gelöst?
intel weiss ganz genau, wo das Problem liegt, eben weil sie wie ich schon geschrieben habe

Weil sich das Problem scheinbar nicht durch reines Mikroskop gucken lösen lässt? Warum haben denn die YouTube das Problem noch nicht gelöst? Es sind bisher alles Vermutungen.

Wenn Intel wüsste wo das Problem liegt, würden sie es kommunizieren. Ohne zu sagen wo es liegt, ist das Vertrauen in alle weiteren Generationen dahin. Niemand weiß, ob sie fehlerfrei sind.

Du hast scheinbar viel Meinung, aber noch nie selbst Hardware entwickelt. Und ja, ich schon.

stefan92x · 17. Juli 2024

Donnidonis schrieb:
Wenn Intel wüsste wo das Problem liegt, würden sie es kommunizieren.

Ich würde es eher so sehen: Wenn Intel wüsste, wie das Problem zu lösen ist, würden sie es kommunizieren. Aber vielleicht sehen sie halt auch unterm Mikroskop zwar wunderbar das Fehlerbild, aber haben eben (noch?) keine gute Lösung. Dann wären wir im Graubereich der Abwägung, was man wie weit gehend kommuniziert.

6kbyte · 17. Juli 2024

Donnidonis schrieb:
Wenn Intel wüsste wo das Problem liegt, würden sie es kommunizieren.

Puh, das ist an Naivität kaum zu übertreffen - nein, würden sie nicht! Maximal wenn sie eine kostengünstige Lösung für das Problem präsentieren könnten. Solange das nicht der Fall ist, müssen sie fast schon schweigen, weil viel zu viel (Geld) dabei auf dem Spiel steht. Was helfen würde ist wenn der Verursacher extern gefunden und nachweislich präsentiert werden könnte, Intel quasi "exposed" wird und ein rechtliches Problem entstehen könnte - dann müssten sie handeln, blutend mit zusätzlichem Image-Schaden. Selbst hier würde eine Restgefahr bestehen, das sie mit sie aus der Haftung nehmenden Schlupflöchern um die Ecke kommen. Alles eine Frage der Kosten-Abwägung.

News Instabile K-CPUs: Intel Core i9 13. & 14. machen auch im Server große Probleme

Commander

Cadet 4th Year

Commander

Admiral Pro

Cadet 4th Year

Vice Admiral

Commander

Cadet 4th Year

Commander

Vice Admiral

Cadet 4th Year

Captain

Cadet 4th Year

Commander

Captain

Cadet 4th Year

Commander

Donnidonis

Gast

Commander

Lieutenant

Ähnliche Themen

Passend zum Thema