News Instabile K-CPUs: Intel Core i9 13. & 14. machen auch im Server große Probleme

xexex schrieb:
Im Rahmen der Fehlersuche hat Intel den eTVB Bug gefunden und hier mit Vorlauf und Termin reagiert, auf den aktuellen Status bei Intel hast du selbst verlinkt,
Was habe ich?


xexex schrieb:
eben einen Fehler der scheinbar mit der Degradierung nach einer Zeit analysiert
ja, und das Problem wird man ziemlich sicher nicht durch einen Software-Fix bei den verkauften CPUs beheben können. Der Schaden ist schon vorhanden, wenn diese Aussage stimmt. Dann sind alle CPUs aktuell bereits potentiell deutlich gealtert und somit nahe oder viel näher am Defekt als bei einer üblichen CPU.


xexex schrieb:
Für sowas hat die sensationsgeile Presse natürlich keine Zeit und drei Tage vor der offiziellen "Deadline" zum eTVB Bug, greift man nochmal in die vollen und versucht noch so viele Klicks wie möglich zu sammeln.
Selbst wenn dieser "eTVB-Bug" existiert und es sich hier um einen Bug handelt, ist der Schaden bereits potentiell da und das Thema somit noch lange nicht beendet sondern mehr als je zuvor präsent.
Es könnte nur zukünftige Schäden oder weitere vorschnelle Alterung verhindern/verlangsamen.
Die Frage bleibt zudem, wieviel das nun an Leistung kosten wird. Die CPUs müssen ja durch den Fix rein logisch weniger schnell werden, da hier ja wohl mit Senkung der Spannung oder maximalverbrauch gegengesteuert wird.
 
  • Gefällt mir
Reaktionen: JarlBallin, Knobi Wahn und Baal Netbeck
rg88 schrieb:
Stimmt, es warst nicht du, der auf den offiziellen Status bei Intel verlinkt hat.
AlphaKaninchen schrieb:

rg88 schrieb:
Thema somit noch lange nicht beendet sondern mehr als je zuvor präsent.
Das Thema ist insofern beendet, dass wir um dieses Problem wissen und welche Plattformen er betrifft. Die aktuellen Topmodelle der Raptor Lake CPUs und keine "Server", "Datacenter", Mobil-CPUs oder was sich auch immer die Geier noch auszudenken vermögen.

Der Status ist ebenfalls bekannt, der eTVB Bug ist nicht die einzige, aber eine der Ursachen, also wäre es logisch den Fix erst abzuwarten und dann weiter zu berichten. Mit Logik haben es die Geier aber nicht so, Sensationen sind nur solange "geil", solange man viel darüber spekulieren und sich bei Thema gegenseitig hochschaukeln kann.

Hat auch nur eine Seite es geschafft ein paar Fakten bereitzustellen? Welche Sachen genau konfiguriert waren als die Fehler auftrafen, welche Parameter man bereits versucht versucht hat zu verändern? Hat vielleicht eine Seite versucht, Informationen von Käufern zu sammeln bei denen der Fehler auftrat und bei denen es nicht der Fall gewesen ist? Das wäre Journalismus, aber dazu ist das Netz einfach nicht mehr fähig, sowas lässt sich nicht verkaufen. Arme Welt.

Ob AMDs brutzelnde CPUs, "Nvidias" verschmorte Stecker oder Intels abstürzende CPUs, jeder Youtuber ist sich selbst der nächste und stellt eine wildere These nach der anderen auf. Da ist oft selbst die Bild noch journalistisch weit über dem Niveau, was für einen Schrott sich die selbsternannten "Influenzer" heutzutage so leisten.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Rotznase6270
catch 22 schrieb:
wenn die Data Center Betreiber bereits die entsprechenden Intel Systeme gegen AMD Systeme austauschen,
Hm Data Center ? Ich dachte das waren Firmen eigene Server der jeweiligen spiele Firma
Ergänzung ()

DarkDragN schrieb:
Fällt im normalen gebrauch erstmal nicht auf, aber wenn hier und da die Anwendungen crashen,

Das ist gut möglich aber viele vergessen irgendwie den Zusammenhang mit dem RAM , das ist teils extrem

Manche Mainboard Hersteller listen für ein und das selbe Board wo man 12900k 13900k 14900k verbauen kann unterschiedliche speicher Kits und selbst das ist kein Garant , vor allem bei hoher getakteten Speicher Kits kann ein under der selbe CPU wenn man zwei gleiche hat der eine besser und der andere schlechter mit dem Kit umgehen

Ich habe auf mein Board nur zwei Speicher Bänke sollte also besser kompatibel sein als die meisten doch selbst hier muss man höllisch aufpassen .... Bei mir hat sich das zb durch Abstürze von Twitch gezeigt bzw der Player der dahinter steckt , neues ramkit und siehe da keine Probleme

Will damit nur aufzeigen das es eine Dunkelziffer bei defekten CPUs geben kann wo es einfach der Speicher ist der nicht 100% mit der CPU mitspielt gepaart mit Leute die ihre CPU tauschen um besseren Asus Score zu haben
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Goakek und xexex
scryed schrieb:
Hm Data Center ? Ich dachte das waren Firmen eigene Server der jeweiligen spiele Firma
Ja, aber die laufen ja in irgendeinem Datacenter, was den Betrieb als Service anbietet. Daher ja auch die Betriebspauschale, die bei einem Anbieter für Intel mittlerweile 1000 Dollar für drei Jahre über dem Preis für AMD liegt.
 
  • Gefällt mir
Reaktionen: iron_monkey und JarlBallin
6kbyte schrieb:
und sie die CPU´s tauschen müssten - der Schaden für Intel wäre immens!
Gegen was denn, einen weiterhin defekten 13th / 14th gen? Oder dann direkt gegen einen 15th ge (wird nicht passieren)?
Eher gibt es einen gewissen Geldbetrag zurück, aber getauscht wird da nichts mehr. Die müssten das Design anpassen, neu in die Fertigung geben, sodass du dann in 1 bis 2 Jahren fehlerfreie, alte CPUs hast.

Oder wie stellst du dir das vor?
 
  • Gefällt mir
Reaktionen: JarlBallin
Donnidonis schrieb:
Vielleicht ist es eben etwas schwerer, als nur durch das Mikroskop zu schauen. Geh doch einfach mal bei denen vorbei und schau schnell drauf, dann kannst du ihnen sagen, wo das Problem liegt. Da scheinen ja nur ‚Idioten‘ zu arbeiten?
Daher haben auch Youtuber mittlerweile professionellen Zugriff auf moderne Analysesysteme und intel als Hochtechnologie Schmiede nicht. Sonst hätte Gamersnexus nicht die mögliche Schnittansicht zu der defekten AMD ZEN 4 CPU zeigen können und das Problem sogar nachstellen.


Genau das kann intels Reputation nachhaltig schaden, wenn Gamersnexus dem intel Problem mit einer neuen und einer problematischen CPU sogar auf Materialebene untersuchen könnte. AMD hat das eigene Problem mit einem AGESA Update schnell lösen können, nachdem der Youtuber mit Industrieequipment sich die Probleme mal im Detail angeschaut hat. Das hätte AMD völlig bloss gestellt, wenn man das nicht in den Griff bekommen hätte, nachdem AMD genau selbst sehen konnte im welchen Bereich die CPU durch war und auch welche steuernde Softwarekomponente dafür verantwortlich sein könnte. Die Fehlermöglichkeiten wurden von mehreren Tech Youtubern durchgegangen.

Man kann Gamernexus durchaus auch mal Profilierungsnachrichten unterstellen, da er aber als Downhill Biker die AMD Fahrräder unter die Lupe genommen hat, hat das wenigstens bei AMD zur Einsicht gebracht CPUs zu bauen. Für die Ausgaben für die AMD Fahrräder hätte Frau Su sicher einen Softwareentwickler einstellen können, damit die Treiberinstallationen vernünftig ablaufen oder die AMD Bugliste ordentlich abgearbeitet wird.

Donnidonis schrieb:
Was willst du denn RMAen? In eine weiterhin defekte CPU die weiterhin abstürzt? Es ist einfach nicht bekannt, was los ist. Wenn es das ist, wird es wohl RMA etc. geben. Solang nichts bekannt ist, macht eine RMA keinen Sinn.
Jede RMA hat einen angelegten und detailierten Fehlerbericht. Fallen die in den News auffälligen 14900K und UE5 im Fehlerbericht auf, dann weiss intel was Sache ist um die CPU eingehend sogar auf Materialebene prüfen zu können, wenn man denn will. Außerdem hat die CPU auf dem vorderen Substrat mehr Prüfkontakte und sicher Funktionen für den Debbugmodus, wenn die CPU ab Werk getestet und programmiert werden kann.

Wenn mittlrweile hochintegrierte Smartphones auf Boardlevel unter einem Mikroskop zielgenau analysiert und sogar repariert werden können, was manch Hersteller nicht schmeckt, wenn der Austausch einer 1 Cent Komponente nicht die gewünschte Reparatur mit einem teuren Refurbished Greät unter einem verkauften 5 Jahres Garantieprogramm ist, schafft intel nicht mal die CPU in Salzsäure aufzulösen oder zu Röntgen. Hochtechnologsich verblöden kann ich mich auch, wenn ich anfange intel zu glauben. Wenn intel führend wäre, müssten man nicht bei TSMC mit besseren Prozessen fertigen lassen um mit AMD mitzuhalten.;)

Donnidonis schrieb:
Also das gesamte Projekt wegwerfen, weil du denkst, es gibt Probleme in der Fertigung? Die kann es immer geben. Werden ausgebessert. Fertig.
Intel ist in der Bringschuld seine Kompetenzen aus gut 50 Jahren Halbleiter Fertigungserfahrung in der Qualitätsicherung darzulegen, das sie selbst die Kontrolle über die eigene Fertigung und die Prozessstandards beherrschen. Besonders, wenn intel mit 10 Milliarden € Steuergeldern gefördert wird und dabei das Raptor Problem mit Ursachenfindung schleifen lässt. Wenn du in der Notaufnahme oder deinem Hausarzt warst, dann wird der ausgebildete Arzt nach etablierten Diagnosestandards deinen Gesundheitsszustand untersuchend durchgehen um sogar zu erkennen ob du schon bei der Anmeldung ein möglicher Notfall bist.

Donnidonis schrieb:
Zum Glück bist du es nicht. Lieber Hochtechnologie im Land, als das Geld bei der Bahn verbrennen. ...
Wenn der Bürger keine Personalmanagementausbildung hat oder den eigenen Beruf nur halbherzig ausübt, dann wählt er halt studierte Marktschreier über sich als Gesetzgeber. Der Schienentransport ist sogar als Kamelkarawane durch die Seidenstraße der Grundstock für gewissen Wohlstand. Die Schiene bietet eine ausgezeichnete Transportverdichtung. Aber hey, wenn es gleichzeitig schafft die Straße und Schiene als sich ergänzende Infrastrukturen kaputt zu wirtschaften, was weiss ich schon.;)
Der mündige Bürger ohne fachkundigen Berufsabschluss wählt halt Politiker, die den BER als weitere Infrastruktur zum Milliardenloch machen, weil sich der Party Bürgermeister in Architekturfragen und technische Anlagen einmischt, anstatt den Bau rechtlich reibungslos am Laufen zu halten und die Bauunternehmen rechtzeitig den Lohn zahlen. Kumpel arbeitete auf dieser Wowereit geführten Party Baustelle.

Warum Intel eben nicht den Hintern gesüßt bekommen sollte.
AMD hat neben der Forschungsinvestitionen in Deutschland seine Athlon 32Bit und 64Bit Prozessor Hochtechnologie mit "Diffused in Germany" Dresden auf den Wafern, möglicherwiese von Siltronic belichtet, die Chemie kam wohl auch aus Deutschland, während intel sich seine heiße Pentium 4 Marktmacht mit unlauteren Handelsverträgen erkauft hat. Kein Mensch mit ökonomischen Sachverstand braucht intel Werke in Deutschland, die wenige Flugstunden weiter weg eigene Werke in Irland haben, weiter ausbauen könnten, Irland sicher genug arbeitsfreudige Arbeitslose hat, wenn sogar TSMC als klar erkennbarer Nummer 1 Auftragsfertiger mit GloFo als zweiter, großer Halbleiterfertiger in Deutschland ansäßig wäre und man in harter Konkurrenz als Auftragnehmer stehen würde. Das was die Bundesregierung als Wettbewerb fördert, wird nachhaltig schiere Unkosten verursachen und GloFo am Standort vernichten. Drei große Halbleiterfertiger in Deutschland sind sehr ambitioniert und es gibt dazu noch kleinere. Bei Glofo ist die Frage der Auslastung, die sich sicher auch über vergleichbare 10 Milliarden € gefreut hätten, besonders als es noch AMD Saxony hieß.

Man könnte sogar die dafür verantwortliche Bundesregierung dafür verantwortlich machen trotz eingesetzter Fördergelder in den ehemaligen Standortaufbau von AMD mit Förderung sittenwidriger Handelsabkommen seitens Intel am Markt den eigenen Mikroprozessor Standort willentlich zerstört zu haben, damit AMD keine CPUs mehr bauen kann, man Glofo selbst finanziell unterstützen musste und stattdessen noch intel mit 10 Milliarden € CPUs in Deutschland bauen kann.
Das ist keine uqualitative Hochtechnologieförderung, das sind ausgelebte Kapitalmarktgesetze der Sozialen Marktwirtschaft und sozial bezieht sich auf Kapital.

Bosch, Infineon und XMP könnten ja selbst mal fragen, ob sie bei GloFo ihre Produkte erhalten, bevor man TSMC hinstellt. GloFo war lange nicht ausgelastet, also könnte man mit Investitionen Fertigungsanlagen bis 12nm hinzustellen um diese drei Auftragnehmer zu befriedigen.

Als würde mich intel einstellen wollen. Ich hätte die Hängematten LGA1700 ILM als maximale Designinkompetenz gestrichen, wenn intel ab LGA2011/2066 gezielt bei so großer Kontaktfläche einen Doppelschließmechanismus mit gleichmäßigen Anpressdruck einsetzte.
Die intel Backplatequalität mangels Qualitätsvorgaben auch noch den Sparmaßnahmen zum Opfer fiel nur um einige Cent Blechstärke einzusparen und die CPUs dafür bis 100°C gebogen aufkochen zu lassen.

Ja, wenn intel seine Profile überarbeiten muss, weil es keine klare Vorgabe gab sondern eine Empfehlung, dann nur um seine Leistungskrone mit der Brechstange zu retten.

Den LGA1700 TR Kontaktrahmen habe ich mir selbst aus Bastelspaß gekauft und eingebaut. Als Systembauer hätte ich mich mit solch Produktvorschlägen beim Kunden als völlig inkompetent gemacht, wenn man nicht am professionellen Serversockel mit einem Drehmomentschlüssel ran muss. LGA hat auch seine Grenzen. Im Bekanntenkreis habe ich schon bei Alderlake maximal den 12700K empfohlen, wenn es umbedingt ein intel sein soll. Alles darüber ist sinnlose Geldverbrennung auch noch über den Stromzähler. Ein AMD 5950X wäre in Multicore Anwendungen die bessere Lösung gewesen.

Mein Alderlake ist auch bei 4.7Ghz Multicore abgeriegelt, optimal wäre 4.5Ghz. Mehr Strom lasse ich diese blaue Niete nicht saufen und das sind teils 40W mehr gegenüber einem AMD 3900X, der bei gleicher Last schneller war. Der ZEN 2 und TSMC 7nm ist bei Mehrkernanforderungen unter Höchstlast jedem Goldencove Kern überlegen. Geht man von Daten Dekompression und Kompression aus, dann hat intel Alderlake hier völlig das Nachsehen, wenn es nicht mit irgendeiner Befehlserweiterung oder Stromsauferei beschleunigt wird.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Mcr-King und JarlBallin
Pokerclock schrieb:
Das Video enthält leider nicht alle notwendigen Details zum Betrieb der CPUs, wie schon weiter oben beschrieben. Mal gucken. Morgen kommen W680-Board (exakt das Asus aus dem Video) und 14900K. Dann werden wir ja sehen, was da stock geladen wird, mit altem und neuen BIOS und was die VRM-Temps sagen je nach Belüftung.
Und hast du es? Denn ich glaube nicht das Asus da was dran dreht denn die Testet keine Webseite um dann Balkendiagramme mit wer hat den Längsten zu präsentieren, da Stabilität das A&O ist. Und wenn da ein Serverbetreiber auf die Idee der Rückgabe wegen außer Spec Werkseinstellungen kommen würde dann sind das schnell 100te bis 1000de Boards die da zurück gegeben werden. Das tut auch Asus weh. Gegegenüber Privatkunden die 1 Board kaufen...
 
Gamefaq schrieb:
Und hast du es? Denn ich glaube nicht das Asus da was dran dreht denn die Testet keine Webseite um dann Balkendiagramme mit wer hat den Längsten zu präsentieren, da Stabilität das A&O ist.

Klar. Weiter oben im Thread findest Du Fotos von der Verpackung. Habe Glück gehabt ein möglichst altes Board bekommen zu haben, mit hoffentlich First Release BIOS 14. Gen. Ab 15 Uhr geht es los auf Twitch. Kann jeder mitmachen beim Entdecken der Powerlimits und VRM-Temperaturen. Wenn ich da aber ab Start stock 4096 Watt sehe, mache ich den Stream wieder aus und schreibe eine Mail in Richtung USA.

Ne, wahrscheinlich nicht, aber dann werden VRM erst einmal gekocht. Das neuste Asus-BIOS für das Board hat ja sogar ein OC-Profil. Spätestens das wird es richten...
 
Pokerclock schrieb:
Tja, und nun springt man - in Kooperation mit Wendell - auch auf den Anti-Intel-Zug auf, ohne dabei wirklich die Hintergründe erforscht zu haben.
Das haben beide ja getan. Da Intel nichts Preis gibt muss man zu denen gehen die die Produkte in Massen nutzen bzw. Statistiken über die Crashes und was sie verursacht hatte haben. Und das sind wie in dem Video dargestellt eben die Serverbetreiber und die Spiele Entwickler. Wenn mehrere aus beiden Lagern unabhängig dir sagen das die Crashes bzw. Ausfallraten enorm gestiegen bzw. unverhältnismäßig hoch sind. Dazu die Serverbetreiber keinerlei Übertaktung nutzen. Im Gegenteil es wird Undervoltet und nur sehr langsamer Speicher verwendet damit ja nichts crashen könnte. Was willst du noch? Eine Schematische Zeichnung wo es in der CPU hakt? Die kann dir nur Intel geben. Du kannst froh sein wenn Intel überhaupt etwas an Infos außer ja Fehler existiert und wir Prüfen das raus gibt. Denn Intels bisherige Reaktionen waren eben das Reaktionen (Powerlimits senken aka jegliche Übertaktung Rückgängig machen, SUPER....DAS macht auch jeder Laie dessen System instabil wird!) aber keine Antworten woran es genau liegt außer das ja alles weiterhin "in Spec" sei!

Nur das dieses "in Spec" je nachdem welche Powerlimits man ansetzt große bis Massive Auswirkungen auf die Leistung in Spielen und Programmen hat. Die hat Intel aber zum Release NICHT beworben! Ich wette das in Amerika schon Vorbereitungen für Sammelklagen deswegen laufen. Außer du bist Intel Fanboy (und selbst dann) muss sich doch jeder verarscht vorkommen da er mehr Geld für eine Intel anstatt AMD CPU bezahlt hat die nun aber (Laut Test von Hardware Unboxed) langsamer bis deutlich langsamer ist. Und trotzdem kann die CPU Instabil werden wenn sie nur lang genug genutzt wird. Klasse!
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: iron_monkey, guru_meditation und JarlBallin
Gamefaq schrieb:
und nur sehr langsamer Speicher verwendet damit ja nichts crashen könnte.

Ich habe meine Kritikpunkte oben bereits erläutert. Auch zum RAM. Aber hier schreibe ich das noch einmal, dass ich ehrlich gesagt bezweifle, dass die den RAM mit DDR5-3600 haben laufen lassen. Man mokiert sich im Interview mit GN schon wie langsam doch DDR5-4200 sei. Dabei ist nicht einmal das Spec, wenn ich mir die 128 GB RAM aus dem Postscreen ansehe. In der Summe der Ungenauigkeiten in den Aussagen ergeben sich halt Zweifel daran, dass die Systeme "korrekt" betrieben und konfiguriert wurden.

Ja, ist hart, dass ein random hier im Forum das kritisiert und nicht alles glauben mag und hinterfragt, was ihm da auf YT präsentiert wird. Aber so ist das halt. Aber im Gegensatz zum typischen Forentroll versuche ich das selbst nachzustellen (und man kann mir dabei sogar zugucken). Im Idealfall kann ich alle seine Aussagen bestätigen oder eben auch widerlegen. Egal wie es ausgeht, ich werde meinen Spaß dran haben. :)
 
Der Nachbar schrieb:
und intel als Hochtechnologie Schmiede nicht
Hast du da Belege für, dass Intel mit sowas nicht ausgestattet ist? Oder sagst du es einfach, weil Intel da bisher nichts zu gesagt hat bzw. gezeigt hat.

Ich behaupte mal, Intel ist in ihren Foundries sehr viel besser mit Test Equipment Ausgestattet, als ein Youtuber.
 
Pokerclock schrieb:
Klar. Weiter oben im Thread findest Du Fotos von der Verpackung. Habe Glück gehabt ein möglichst altes Board bekommen zu haben, mit hoffentlich First Release BIOS 14. Gen. Ab 15 Uhr geht es los auf Twitch. Kann jeder mitmachen beim Entdecken der Powerlimits und VRM-Temperaturen. Wenn ich da aber ab Start stock 4096 Watt sehe, mache ich den Stream wieder aus und schreibe eine Mail in Richtung USA.

Ne, wahrscheinlich nicht, aber dann werden VRM erst einmal gekocht. Das neuste Asus-BIOS für das Board hat ja sogar ein OC-Profil. Spätestens das wird es richten...
Es ist vollkommen egal was du meinst hier feststellen zu müssen.
1. Checken die Data Center Techniker die Temperaturen ihrer Systeme ständig, insbesondere bei Ausfällen (hierzu gehört auch VRM Temperatur)
2. Haben die Techniker verschiedene Bios-Versionen getestet
3. Selbst bei 125W TDP Limit, Multiplier auf 53 und niedriger DDR-5 Geschwindigkeit ist eine Degradation mit zunehmender Instabilität zu beobachten

Es liegt nicht an den VRM Temperaturen...
 
  • Gefällt mir
Reaktionen: iron_monkey, guru_meditation und JarlBallin
Pokerclock schrieb:
Ja, ist hart, dass ein random hier im Forum das kritisiert und nicht alles glauben mag und hinterfragt, was ihm da auf YT präsentiert wird.
Ich glaube, du verkennst da etwas das Kernproblem hier. Niemand hat etwas dagegen, dass du hinterfragst, ob vielleicht die Konfigurationen da Probleme auslösen. Es ist aber halt einfach irrelevant für die Tatsache, dass diese Betreiber enorm hohe Ausfallraten bei ihren 13900K/14900K haben, die sie sonst nicht hatten/mit anderen Systemen nicht haben.

Ich vergleiche nochmal mit AMD und den Problemen bei Ryzen 7000: Da hieß es sehr schnell, dass eine gewisse SoC-Spannung zur Zerstörung der CPU führen kann, und dass diese Spannung in gewissen OC-Szenarien anlag. Und die Ansage war dann eben, dass diese Spannung das Problem ist und unterbunden werden muss. Und auf so eine Ansage von Intel warten wir hier.

Niemand weiß, ob es einfach an sowas liegt, oder ob es ein grundlegendes Problem im Chip gibt. Das ist das Problem, und bei 50% Ausfallrate, die so ein Rechenzentrumsbetreiber meldet, wird dein Experiment mit einem Board/einer CPU halt keinen statistischen Mehrwert liefern, egal was du findest.

Wenn man jetzt wüsste, dass es eben an einer spezifischen Einstellung liegt, könnte man natürlich genau diese prüfen, aber das weiß man ja eben nicht.
 
  • Gefällt mir
Reaktionen: iron_monkey, Alexander2, guru_meditation und eine weitere Person
Pokerclock schrieb:
Aber im Gegensatz zum typischen Forentroll versuche ich das selbst nachzustellen (und man kann mir dabei sogar zugucken). Im Idealfall kann ich alle seine Aussagen bestätigen oder eben auch widerlegen. Egal wie es ausgeht, ich werde meinen Spaß dran haben. :)
Mit wie vielen CPUs machst Du das, 100? 1000?

Du hast schon verstanden, dass bei solchen Problemen wo die Wahrscheinlichkeit reinhaut das Testset ausreichend groß sein muss um irgend etwas aussagen zu können.

Und wie lange willst Du das laufen lassen.

Und noch eine Frage, wie hat Intel auf dieses Video und die davon losgetretene Diskussion reagiert?
 
  • Gefällt mir
Reaktionen: iron_monkey, guru_meditation und JarlBallin
stefan92x schrieb:
Ich glaube, du verkennst da etwas das Kernproblem hier. Niemand hat etwas dagegen, dass du hinterfragst, ob vielleicht die Konfigurationen da Probleme auslösen. Es ist aber halt einfach irrelevant für die Tatsache, dass diese Betreiber enorm hohe Ausfallraten bei ihren 13900K/14900K haben, die sie sonst nicht hatten/mit anderen Systemen nicht haben.

Ich kann mir grundsätzlich vorstellen, dass gerade diese Intel-Systeme deutlich höhere Anforderungen an Kühlung und Stromversorgung haben und dies grundsätzlich unterschätzt wird. Ich versuche bei meinen Geräten die gesamte Sockel-1700-i9er möglichst zu vermeiden. Sie benötigen deutlich stärkerer Netzteile und deutlich dickere Kühllösungen. Ich setze mittlerweile ausschließlich der Ausfallsicherheit halber nur noch auf Luftkühlung. Das beißt sich leider mit der Transportfähigkeit der Systeme (sind Mietsysteme, die viel unterwegs sind auf Events etc.), weil so ein NH-D15 einen DHL-Transport nicht mitmacht. Damit hast Du auch deutlich mehr Hitze im Gehäuse, was zusätzlich abgeführt werden muss. Die Mietsysteme sind jedoch so kompakt, dass sie in Auer-Eurokisten (60x60x42) reinpassen müssen.

Mit AMD-Systemen hast Du das Problem nicht. Und ganz nebenbei kostet das alles auch weniger, weil das System rund um die CPU deutlich abgespeckter ausfallen kann. Ich konnte auch schon im direkten Vergleich zweier identischer Systeme feststellen, dass das System mit dem 14900K den RAM so weit aufgeheizt hat, dass es zu Abstürzen kam, während das AMD-System sauber durchlief, mit RAM-Temps <65 Grad.

Wenn man da als Server-Betreiber mit Schema-F vorgeht und sich als "Techniker" keine weiteren Gedanken zu macht, fliegt Dir das halt um die Ohren.
 
Pokerclock schrieb:
das System mit dem 14900K den RAM so weit aufgeheizt hat, dass es zu Abstürzen kam,
Das ist bestimmt richtig, aber spielt hier doch keine Rolle. Wenn du den RAM grillst, wirst du das Problem nicht durch einen Austausch der CPU lösen. Aber genau das haben die Leute gemacht - CPU die anfängt Probleme zu machen, wird ausgetauscht und dann läuft das System wieder. Wäre der RAM kaputt, müsste es sofort wieder die gleichen Probleme geben, nicht erst Monate später.
 
  • Gefällt mir
Reaktionen: JarlBallin
@stefan92x Probleme mit dem RAM können sehr random auftreten. Der von mir beschriebene Fall konnte auch nur mit dem RAM Test von Karhu verlässlich reproduziert werden (gut investierte 10 €). Reine Volllastszenarien wie CB23 u.a. haben das System nicht zum Absturz gebracht. Nicht einmal der Memtest. Solche Systeme können auch Monate stabil durchlaufen, bis es irgendwann dann halt knallt. Sieht man eigentlich auch immer schön an diversen Forenthreads, die solche Probleme beschreiben. Wenn man da zwischenzeitlich die CPU wechselt (die dann auch wieder anders heizen könnte, je nach Silicon Lottery) und eine Zeit lang keine Probleme hat, glaubt man den Fehler irrtümlich gefunden zu haben.

RAM-Probleme können richtig fies sein. Aber auch da muss ich ganz klar sagen, wenn man da auf reine Servertechnik zurückgegriffen hätte, wäre man jedem RAM-Tango entgangen. Kostet halt mehr...
 
Donnidonis schrieb:
Hast du da Belege für, dass Intel mit sowas nicht ausgestattet ist? Oder sagst du es einfach, weil Intel da bisher nichts zu gesagt hat bzw. gezeigt hat. ....
Und warum hat intel das Problem nicht gelöst?
intel weiss ganz genau, wo das Problem liegt, eben weil sie wie ich schon geschrieben habe, sämtliche aufeinander aufbauenden Werkzeuge aus 50 Jahren Halbleitererfahrung bei Design, Fertigung und zur Diagnose wie ein guter Arzt seine Werkzeuge nutzt und weiterentwickelt, selbst haben.

Wenn ein Youtuber aber auf solche Technik Zugriff hat, dann muss ja intel mindestens diese Technik selbst haben. Warum muss erst ein Youtuber die Fehler von intel anfangen zu evaluieren, was der Hersteller von sich aus tun kann? Das ist das eigenliche Debakel für intel das Problem als Hochtechnologie Unternehmen wohl nicht nach außen zu kommunizieren, wenn das Problem tatsächlich mit schweren Kapitalinteressen kollidiert und jetzt schon das Marketing und die Finanzabteilung mit der Geschäftsführung sich wohl sehr intensiv mit dem Thema auseinandersetzt.

Ich brauche daher keine Belege, weil die technischen Werkzeuge die intel für eine funktionsfähige CPU zur Herstellung benötigt, in den Laboren verfügbar haben muss. Wenn man auf die gewünschten Strukturbreiten hin genau fertigen kann, kann man sein Arbeitsergebnis auch nachträglich quantitaiv und qualitativ nach Punkten verifizieren.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: iron_monkey und JarlBallin
@Pokerclock generell hast du damit definitiv recht. Aber ich bleibe dabei, ich halte es nicht für plausibel, dass es an so einem Fehler mit RAM/VRM-Temperaturen liegt, wenn die CPUs über diverse Plattformen hinweg statistisch auffällig sind, sowohl bei Servern als auch bei Anwendern.

In einigen Fällen kann sowas sicher eine Rolle spielen (hast du ja auch selbst gehabt), aber dass das für statistische Signifikanz reicht, glaube ich nicht. Und vor allem: Wenn es so wäre, würden die CPUs selbst ja gar nicht kaputt gehen. Würde Intel dann hunderte oder tausende Austausch-CPUs an so ein Datacenter schicken, ohne irgendwann mal festzustellen "warte mal... die gehen doch alle noch, die wir zurück bekommen?"
 
  • Gefällt mir
Reaktionen: guru_meditation und JarlBallin
Rockstar85 schrieb:
Laut The Verge sind die Mobos aber gar nicht bekannt..

https://www.theverge.com/2024/7/14/...-cpu-crashes-telemetry-alderon-games-warframe

Das macht das ganze ja um so erstaunlicher.. und ich sags mal so: Die Vermieter solcher Server wissen meistens was sie tun. Wenn Asus natürlich als einziger betroffen ist, müsste sich das ja widerspiegeln in RMA oder so.
Du wirst hier etwas durcheinander! Die Spiele Entwickler reden von Crahes BEI UNS SPIELERN die WIR ihnen zusenden wenn das Spiel bei uns abgestürzt ist. Es gibt Spiele die Fragen dann ob der Crashreport an den Entwickler gesendet werden soll und es gibt Spiele (insbesondere reine Online Spiele) die machen das einfach im Hintergrund (meistens beim nächsten Spiele Start bzw. Start des dazugehörigen Launchers falls der PC auch mit abgestürzt ist) automatisch weil du beim Installieren diesen AGB zugestimmt hast! Um genau diese Logs geht es wenn in dem Bericht von Spiele Entwicklern gesprochen wurde.

Das ZWEITE waren Anbieter von Servern auf denen der i9-13900K/KS/F oder i9-14900K/KS/F läuft weil die Single Core Taktraten für jeweilige Software Anwendungen der Kunden wichtiger als die Multicore Leistung sind.

Ihr vermischt das ganze grade zu einem!
 
Zurück
Oben