News Cloudflare-Server: Ice Lake-SP fliegt wegen Energieverbrauch raus

stefan92x · 1. September 2021

Alexander2 schrieb:
Das sind doch keine Monolithischen Chips, für einen ( Kerner werden doch bei amd nicht unbedingt 64Kerne belichtet.

Für dieses spezielle Modell halt schon. Das sind 8 CCDs mit je einem aktiven Core, so kommt er auf den vollen 256MB L3 Cache und damit auf maximale IPC.

Die Wahrscheinlichkeit ist sehr gering, dass auf einem solchen Chip mit komplett intaktem Cache mehr als ein oder zwei Cores defekt sind, das gleiche Silizium könnte also auch mit 48 Cores verkauft werden

Alexander2 · 1. September 2021

Monolithisch würde bedeuten es wären alle teile der CPU in einem zusammenhängenden Stück Silizium gefertigt so wie es früher sehr üblich war.
Ja, es werden mehrere Chiplets verwendet, das stimmt wohl :-)
Es wird halt ein Vollfunktionsfähiger Chiplet verwendet und alle anderen dürfen ziemlich sicher teildefekte sein, wo "nur" der Cache sauber laufen muss.

guggi4 · 1. September 2021

Nein, der Zugriff von einem anderen Chiplet würde das Prinzip des Caches ad absurdum führen, der eine Kern muss schon pro Chiplet aktiv sein.

luckysh0t · 1. September 2021

KurzGedacht schrieb:
In fast allen Fällen passiert das entweder aus "Tradition" oder weil der entsprechende Lieferant nur Intel anbietet.

Wenn es nach einem Hersteller der von uns genutzten Software gehen würde, müssten wir alles auf Bare Metal installieren und nicht in VM... (Das wären alleine für diese Software locker 4+ Racks voll..) - immerhin keine Bindung an Intel xD

Hersteller gehen da schon manchmal eigene Wege..

mae · 1. September 2021

Alexander2 schrieb:
Es wird halt ein Vollfunktionsfähiger Chiplet verwendet und alle anderen dürfen ziemlich sicher teildefekte sein, wo "nur" der Cache sauber laufen muss.

Tatsaechlich allokieren Zen 1/2/3-Prozessoren nur Cache von ihrem eigenen CCX, von daher ist Cache ohne Kern im CCX nutzlos.

Aber fuer die Frage, wieviele Zen3-Chiplets hergestellt werden, spielt das alles keine Rolle. Selbst wenn die Chiplets so verwendet wuerden wie Du schreibst, waeren noch immer 8 CPU-Dies noetig. Und die machen keine Dies ohne Cores oder nur mit einem Core, weil sich der Extraaufwand dafuer nicht auszahlt, dafuer sind die Stueckzahlen von 72F3 zu klein. Teildefekt ja, aber es gibt wohl nicht soviele dies mit nur einem funktionsfaehigen Core.

foofoobar · 1. September 2021

zEtTlAh schrieb:
Gesunder Menschenverstand bedeutet zu verstehen, dass man eine vorhandene Infrastruktur unter Umständen nicht einfach so von Intel auf AMD wechseln kann. Schlicht wegen der Betriebenen Software.

DAS zu verstehen (und aufhören sinnlos zu Maulen) ist Menschenverstand...

Cloudfare braucht diese Ultra-Kommerz-Software einfach nicht. Komplett anderer Use-Case, aber wenn man nur einen Hammer kennt sieht halt alles wie ein Nagel aus.

Das zu verstehen ist Menschenverstand

fdsonne · 1. September 2021

holdes schrieb:
Bei uns lief das bisher eigentlich relativ gut wenn die Generationen nicht zu weit auseinanderliegen und man kein SAP HANA einsetzt welches TSX anspricht.

Einfach den EVC Mode einknipsen auf den kleinsten gemeinsamen Nenner und ab dafür. Das Problem ist, das nur out of the box Intel mit Intel kompatibel ist und AMD mit AMD. Beides zusammen in ein Cluster heist, du fingerst da mit CPU Bitfolgen in irgendwelchen Advanced Configs rum. Das KANN man alles machen - irgendwie. Nur dafür interessiert sich da draußen real praktisch keine Person, die irgendwie auch nur ansatzweise mit der Technik zu tun hat. Das muss laufen und möglichst ohne Bastel Schwurbel Mist. Ich hatte früher zu K8/K10 Opteron Zeiten mal nen Core2 based Xeon im Cluster mit nem AMD. Das war schon nicht soooo ultra schön.
In einem Enterprise Cluster kann man das sogar noch bisschen abfedern, weil DRS dafür sorgt, dass die Last verteilt wird bei Bedarf. Was dennoch mehr schlecht als recht funktioniert ist das hantieren mit seeehr unterschiedlichen CPU Geschwindigkeiten.

Richtig hässlich wird sowas schon bei seeehr hohen Turbo Boost Deltas. Ich hatte hier jüngst nen Spielehost auf nem Intel NUC in den Fingern. So ein "U" Mobile 6C/12T Prozessor. 1,1GHz Base. Da hast du dann bei vier vCPUs in einer VM 120% CPU Auslastung laut Host

weil er 12T x 1,1GHz = 13,2GHz rechnet. Der Boost der Mobile CPU bei guter Kühlung aber in die Region hohe drei Komma GHz geht. Sowas mit CPUs zu paaren, die ganz andere Charakteristik haben in einem (DRS) Cluster würde alle Nase lang VMs rumfliegen lassen...

Alexander2 schrieb:
Ja, es werden mehrere Chiplets verwendet, das stimmt wohl :-)
Es wird halt ein Vollfunktionsfähiger Chiplet verwendet und alle anderen dürfen ziemlich sicher teildefekte sein, wo "nur" der Cache sauber laufen muss.

Das Konstrukt lässt doch eh nur zu, gerade Teiler einzusetzen. Es muss immer die gleiche Anzahl an Kernen pro CCD aktiv sein. Zumindest ist das meines Wissens nach wie vor der Fall. Ggü. Zen2 hat sich das etwas "gebessert", weil bei Zen2 war es die gleiche Menge an Kernen pro CCX - und ein Zen2 CCD bestand aus zwei CCXen. Weswegen 56C erst mit Zen3 und nicht schon mit Zen3 gehen. 24C hingegen gehen - mit vier aktiven CCDs zu je drei Cores je CCX.

Btw. ergibt alles andere auch gar keinen Sinn (technisch). Der Cache soll Zugriffe abpuffern, die über die IF erfolgen. Würde man jetzt den Cache verteilen hast du exakt gar nichts gewonnen. Weil die Links der IF insich sehr langsam sind. Man benötigt zwei CCD um überhaupt mal die Speicherbandbreite lesend und schreibend! von zwei Channeln übertragen zu bekommen. Epyc hat derer acht. Zwar ist die eine Richtung selbst gemachtes übel, weil AMD das künstlich kastriert hat, aber auch lesend vom RAM schafft man pro CCD nur die Bandbreite von ca. einem Memory Kanal. Soll heißen - es ergibt überhaupt keinen Sinn vom CCD über die IF zum IO Die und dann nochmal über die IF zu nem anderen CCD und dessen L3 Cache zu greifen -> weil man kann am IO Die in den Memory abbiegen und hat vieeeel mehr Menge an "Cache" zur Verfügung. Man will aber eigentlcih gar nicht die IF bemühen - denn da ist noch ganz anderer Traffic los. Man möchte möglichst lokal alles aus den Cache Stufen der CCDs abfedern. Das geht mit niedrigen Latenzen und im Bereich hunderter GB/sec an Bandbreite. So ein einziger IF Link von CCD zu IO Die ist wie breit? 16-18GB/sec oder sowas?

CyrionX · 1. September 2021

zEtTlAh schrieb:
DAS zu verstehen (und aufhören sinnlos zu Maulen) ist Menschenverstand...

Gesunder Menschen Verstand wird leider ( oder zum Glück ) nicht von einem Menschen definiert.
Und: "nicht einfach" ist oft die Schwester von "Kein Bock"

holdes · 1. September 2021

fdsonne schrieb:
Einfach den EVC Mode einknipsen auf den kleinsten gemeinsamen Nenner und ab dafür. Das Problem ist, das nur out of the box Intel mit Intel kompatibel ist und AMD mit AMD.

Danke, die Info hatte ich noch nicht weils bei uns bisher nicht notwendig war

. Unsere Cluster sind natürlich etwas kleiner und wir hängen dann entsprechend Hosts dazu, erstellen ein neues Cluster und schieben mit vMotion einfach nach und nach rüber bis die leer sind, die Mischung sollte kein Dauerzustand sein. Bei großer Skalierung kann ich mir das aber gut vorstellen und gebastelt wird da sowieso nicht. Am Ende weiß selbst der VMWare Support nicht mehr was man noch tun kann um seltsame Betriebszustände zu lösen.

Boosts schalten wir grundsätzlich ab und arbeiten nur mit Base Clocks, das kann sonst wie bei den NUCs zu Problemchen führen. Inwieweit man DRS nutzt ist ja wieder Geschmackssache

.

ghecko · 1. September 2021

Was für eine Watsche für Intel. Den Knall hat man bis hier gehört.

OldZocKerGuy · 1. September 2021

Ja der Strom Verbrauch wird in letzter Zeit auch ein inmer wichtiger Punkt im Enterprise Bereich...

Schau nur kurz · 1. September 2021

Aliosy schrieb:
ach Leute, von was träumt ihr eigentlich nachts?
Stromverbrauch? Die wollen nur bessere Konditionen von Intel heraushandeln. Um mehr geht es nicht.
Das ist die Taktik, die jedes große Unternehmen fährt. Kosten senken um seinen Umsatz zu steigern.

Bullshit eines Intel-Fanboys

janer77 · 1. September 2021

mae schrieb:
Und da sind tatsaechlich verschiedene DIMMs, manche mit Deckel und manche ohne.

Ohne es zu wissen: für mich sieht es eher wie ein Dummie pro RAM Kanal aus, so dass ggf. vier RAM-Kanäle mit 64GB-Modulen und vier RAM-Kanäle mit 32GB Modulen genutzt werden.

zum Thema "Stromverbrauch": es geht nicht nur um die Energiekosten an sich, sondern u.U. auch um die Aussenwirkung. Wenn eine Firma damit wirbt nur 1x statt 2x Strom für die selbe Leistung zu verbrauchen und dadurch einen Umwelt-Bonus nach aussen transportieren kann, kann das ein ernst zu nehmender Wettbewerbsvorteil sein.

Freiheraus · 2. September 2021

In Zeit in denen selbst konservative Parteien/Regierungen das Thema Klimapolitik nicht "links liegen lassen" können (hehe, unbeabsichtigtes Wortspiel), können sich auch große Unternehmen nicht dem Thema entziehen.

Intel setzt die Karte voll auf Performance pro Fläche, das ist allerdings nicht der effizienteste Weg, sonder nur der kostengünstigste. Stark auf Low-Power optimierte "Big"-Cores die voll im Sweetspot laufen, sind sicherlich effizienter als jegliche "Little"-Cores, allerdings brauchen sie deutlich mehr Fläche.

latiose88 · 2. September 2021

Also ich frage mich wie gros der unterschied zwischen threadripper und epyc cpus ist. Ein epyc mit selben takt und selber anzahl an kernen mit der selben archektur dürfte ja die selbe leistung bringen oder gibt es da wo nen denkfehler. Achja ich habe auch das selbe problem gehabt mit stromverbauch. 128 watt vs 8 % mehr leistung aber mit 320 watt stromverbrauch.Die frage war dann mit was kommt man dann am ende weiter wie Stromverbrauch , Abwärme. Am ende entschied ich mich also gegen die 8 % mehr Leistung. Warum weil ich dann mit luftkühlung ne höhere temperatur als beim anderen gehabt hätte.
da wasserkühlung benötigt wird,
treibt es nicht nur die kostrn an sich nach oben sondern auch den Stromverbrauch in die höhe.
Auch lauter wird es dann. Das alles neben der höheren Anschaffungs preis.

Der preis für so wenig mehrleistung wäre slso sehr hoch gewesen.
Für die 8 % mehrleistung hätte ich zudem noch nen mainbaord von preis von 500 € und mehr kosten beim ram gehabt.

Wie man sieht geht es mir so wie der laden hier. Es kommt also selbsr im mainstream auf das gesammt packet drauf an. Da bin ich ja gespannt wie sich da das ganze noch entwickeln wird.

zEtTlAh · 2. September 2021

holdes schrieb:
und man kein SAP HANA einsetzt welches TSX anspricht.

SAP ist immer ein großes Thema. Auch ESX und HyperV. Bei uns keine Probleme. Es ging mehr um die Tatsache, dass es Probleme geben KANN. Das wollen viele Leser hier einfach nicht sehen. Die machen dann lieber auf AMD Fan gehype und haben noch nie im Leben so eine Umgebung betreut. Das ärgert mich maßlos

Schön, dass es weitsichtigere Menschen, so wie dich gibt

foofoobar schrieb:
aber wenn man nur einen Hammer kennt sieht halt alles wie ein Nagel aus.

CyrionX schrieb:
Und: "nicht einfach" ist oft die Schwester von "Kein Bock"

Genau euch meine ich damit

Und ein paar mehr...

BAR86 · 2. September 2021

v3locite schrieb:
@BAR86 Das war natürlich etwas polemisch. Woran muss AMD arbeiten, um im Serverbereich stärker Fuß zu fassen? Kontinuierlich nachlegen, bis langfristige Intel-Verträge auslaufen? Besserer Service?

Service/Support und generell größere "Plattform" bieten

jemandanders · 2. September 2021

stefan92x schrieb:
Unschön bleibt es natürlich trotzdem, vor allem weil es den Seiteneffekt hat, dass dadurch auf Singlethread-Performance optimierte Siliziumverschwendungen entstehen wie AMDs 72F3, der nur 8 aktive Cores hat, aber dafür volle 64 Cores belichtet werden.

guggi4 schrieb:
Das sind wirklich 8 Chiplets mit je nur einem aktiven Kern und vollem L3.

Und die Kunden dafür sind die hier:

(Thema dauert ~2 Minuten)
Die bauen, nur um den Leitungsweg der Netzwerkverbindung ein paar Hundert Meter zu verkürzen für Millionen ein neues Gebäude. Denen ist es auch Egal ob die CPU 5.000, 10.000 oder gar 20.000€ kostet, wenn sie nur möglichst viele Daten möglichst schnell verarbeiten können und durch die möglichst hohe Drehzahl der Kerne am Ende vielleicht doch noch min. eine Petasekunde schneller als der Wettbewerb sind.

Und u.a. genau dafür ist Milan-X gebaut worden. Im Versuch laufen ja mittlerweile CPUs mit bis zu 4 Cache Ebenen per Chiplet und heutzutage gigantischen 2304 MB L3 Cache per CPU. (Konnte man unlängst bei Twitter bewundern) Damit kann man in diesen Gefilden schon was anfangen. Und Genoa legt ja nochmal 4 Chiplets zusätzlich (mit dann möglicherweise 8 Ebenen nach.

OMG, 544 MB per Kern und insgesamt 6528 MB L3 Cache.

Da dürfen es auch gern mal 2 Kerne per Chiplet sein.
Da dürfte Intel es selbst mit HBM schwer haben mitzuhalten. Und wenn Mitbewerber X merkt, das er gegen Y in diesem Geschäft immer öfter das Nachsehen hat, wird er alles tun um ebenfalls an diese CPUs zu kommen.

Unnu · 2. September 2021

jusaca schrieb:
und damit war AMD stets einfach aus Tradition raus

Im Enterprise-Umfeld hängt das allerdings meist an bereits eingespielten Prozessen, die mit Pech komplett neu aufgeschnürt und neu bewertet werden müssen ... mit ungewissen Ausgang.

Das kostet dann mal so richtig viel Geld. Bevor sich ein derartiges Unterfangen lohnt muss das Kosten Nutzen Verhältnis schon ordentlich sein. Davon abgesehen sehen sich sehr viele, große Industrie-"Versorger" die Systeme an und evaluieren auch fleißig, nur dauert sowas halt länger.
Die Industrien sind Monster-Tanker.
Die ändern nicht mal so eben den Kurs innerhalb von 1-2 Jahren.

Dazu kommen dann noch ggf. explizit angepasste Software bis hinunter ins UEFI etc. pp.
Das muss dann auch sauber auf den Kisten laufen.

Sieht man ja auch hier wieder sehr schön.
Die bauen sich ihre komplette Software selbst. Und als "Start-Up" im Software-Bereich haben die auch noch den großen Vorteil von Anfang an flexibel zu sein. Und sie haben sich diese Flexibilität bewahrt.

AMD wird sich den Weg schon bahnen. Sie dürfen halt nicht wieder so zusammenbrechen wie mit Bulldozer.
Sie müssen Kontinuität beweisen. Und das über mehrere - viele - Jahre, dann wird's auch was mit den ganz Großen.

Zum Artikel: Das mit den mehreren hundert Watt pro Server finde ich schon eine heftige Ansage.
Die müssen ja auch noch weggekühlt werden. Da muss intel aber noch ordentlich nachlegen, damit die wieder in Schlagdistanz kommen.

fdsonne · 2. September 2021

holdes schrieb:
Danke, die Info hatte ich noch nicht weils bei uns bisher nicht notwendig war . Unsere Cluster sind natürlich etwas kleiner und wir hängen dann entsprechend Hosts dazu, erstellen ein neues Cluster und schieben mit vMotion einfach nach und nach rüber bis die leer sind, die Mischung sollte kein Dauerzustand sein. Bei großer Skalierung kann ich mir das aber gut vorstellen und gebastelt wird da sowieso nicht. Am Ende weiß selbst der VMWare Support nicht mehr was man noch tun kann um seltsame Betriebszustände zu lösen.

Ja, so mach ich das auch, nur dass wir hier idR. dann die alten Hosts raus schmeißen. Also eigentlich nur homogene Server Cluster fahren. Aus diversen Gründen. Und sei es nur der Einfachheit halber. Neuerdings - irgendwo in einer der 6.7er Updates müsste das rein gewandert sein, muss man da nur bissl gucken, man kann nämlich so ohne weiteres keine Hosts mit in ein Cluster ziehen, wenn der Host aktiv VMs hostet. Der möchte nämlich jetzt in Mainstenance sein damit das gemacht werden kann. Workaround bei uns bis dato, den Host nicht ins Cluster tackern sondern nur ins gleiche Datacenter und vorher die VMs per vMotion drauf migrieren (Storage + Host vMotion gleichzeitig). Früher ging das mal. Man kann nur noch "leere" Hosts in ein Cluster schieben. Fällt mir immer dann auf die Füße, wenn ich verschiedene Themen konsolidieren muss - unterbrechungsfrei natürlich 😂

holdes schrieb:
Boosts schalten wir grundsätzlich ab und arbeiten nur mit Base Clocks, das kann sonst wie bei den NUCs zu Problemchen führen. Inwieweit man DRS nutzt ist ja wieder Geschmackssache .

Echt? Das kostet phasenweise schon merklich Performance... Bei mir hier ist die avg. CPU Load im Schnitt im Cluster und Host bei vielleicht 10-30%. Da ist ultra viel Luft für hohen Boosttakt. Und einige der Workloads profitieren davon auch extrem. Bzw. was heist extrem, sie skalieren mit dem Takt annähernd 1:1. Man bekommt halt damit eine gewisse Unberechenbarkeit, weil das mal so und mal so vom Speed ausschaut.

News Cloudflare-Server: Ice Lake-SP fliegt wegen Energieverbrauch raus

Captain

Fleet Admiral

Commander

Commander

Lt. Commander

Commodore

Lt. Commander

Captain

Captain Pro

Digital Caveman

Lt. Commander

Banned

Rear Admiral Pro

Lt. Commander

Commodore

Lt. Commander

Commander

Commander

Captain

Lt. Commander

Passend zum Thema