Schade, dass der Artikel doch recht uninformiert scheint... Nicht was die nakten Fakten angeht, sondern was die Backgrounds angeht:
"
Der Xeon Platinum 8180 als eines der Topmodelle arbeitet dort mit 800 MHz im Leerlauf und 2,5 GHz bei Last, ..."
Es ist der Basistakt... Der Turbo kommt obendrauf. Selbst unter Volllast sollte das Ding höher gehen. Unter Teillast sogar drastisch über -> >3GHz ist definitiv möglich und sogar warscheinlich.
Beim AMD Modell ist das möglicherweise nicht anders...
"
Von AMD gab es bereits das eine oder andere Detail in dieser Richtung, doch die Benchmarks waren in der Regel voll fokussiert auf das neue Acht-Kanal-Speicherinterface der Naples-Prozessoren, das gegenüber Intels bisherigen Xeon-Generation auf Basis von Broadwell-EP, die nur Vier-Kanal-Speicher bietet, natürlich einen haushohen Vorteil hat."
Das ist genau genommen Unsinn... Das Speicherinterface des Naples Prozessors wird nach aktueller Infolage/Spekulation durch ganze vier Dual Channel SIs (der 4x MCM unterm Deckel) gebildet. Das bedeutet, es wird aller Warscheinlichkeit nach eine NUMA aware Software notwendig sein sonst hat es bestenfalls den Speed von einem Dual Channel SI oder gar drunter mit grottiger Latenz -> weil Speicherinhalt und Thread sich auf unterschiedlichen NUMA Nodes befinden können bzw. häufig auch werden.
Nimmt man es richtig, dann ist das hier abermals ein "Trick" um Kosten zu sparen aber dennoch viel Performance anzuliefern. Große "Server" in diesem Bereich verstehen NUMA. Stino 0815 Software hingegen idR nicht... Hier muss sich noch rausstellen, ob und vor allem in wie weit ein 8-Kanal SI überhaupt ansatzweise skaliert.
Wenn man sich mal die Marktverhältnisse ansieht. 8x NUMA Nodes gibt es im Moment mit einem Quad-Sockel G34 System und einem Okta-Sockel Xeon E7 System. BEIDES ist HPC only. Nur die aller aller wenigsten Betreiber, weder in 0815 RZs noch in den Unternehmen mit IT On-Premises werden sich ein 8x NUMA System ins Rack zimmern. Weil es einfach aberwitzig viel Aufwand erzeugt, den Spaß gescheit zum Skalieren zu bringen.
Unterm Strich bedeutet hier viel nicht automatisch gleich besser. Wenn es nicht skaliert, sind 4x2 eben weniger als 1x4 oder gar 1x6. Ebenso muss man die Mengen im Auge behalten. Gerade beim Thema Virtualisierung. Wenn sich 512GB auf vier NUMA Nodes pro CPU verteilen bedeutet das maximal 64GB pro Node. Ohne den Interconnect mit massiv Daten zu fluten brauch es also A) eine NUMA aware Lösung oder B) sinnigerweise maximal 64GB pro VM. Was ist aber, wenn es mehr sein darf? Oder da nicht 512GB drin stecken sondern vielleicht nur 128?
Basti__1990 schrieb:
Jahrelang Stillstand und jetzt geht alles auf einmal ganz schnell. Konkurenz ist einfach was tolles
Stillstand?
2008 -> Hexacores S604 auf Core2 Basis
2009 -> 8C Nehalem EX
2011 -> 10C Westmere EX
2014 -> 15C Ivy EX
2015 -> 24C Haswell-EX
2017 -> 28C, ggf. auch mehr, abwarten -> Skylake Platinum
ascer schrieb:
Selbst die allergrößten Systeme lösen das häufig so. Z.B. der Inifinity von Cray, aktuell auf Platz 10 der schnellsten Supercomputer, hat für seine HPC Cluster pro node 2x Xeon E5-2698v3 16C 2.3GHz verbaut.
Der IBM Sequoia, aktuell auf Platz 4 der schnellsten Supercomputer, hat beispielsweise sogar nur single-socket nodes: 100.000 Stück mit 16 Core CPUs.
Das hat, wie oben schon angeschnitten, weniger was mit der Sockel-Anzahl zu tun, sondern was mit der Verdrahtung.
Dual Sockel bei Intel heist im Moment Dual NUMA Node Konstrukt. Single Sockel bei Intel heist Single NUMA Node.
Das heist, EIN Thread kann (bei letzterem) technisch gesehen die komplette Speicherinfrastruktur und alles Backend hintendran nutzen ohne über irgendwelche Interconnects zu müssen.
Gerade im HPC Umfeld ist das möglicherweise ein Vorteil -> weil es mitunter auch um Latenzen und Bandbreiten geht. Wenn der Clusterconnect der Infiniband Module auf nen NUMA Node tuckert und alle Daten da erst von Links nach Rests durch komplette System müssen, wird das nunmal ggf. zäh. -> nicht pauschal/immer, aber es ist mindestens mal Anwendungsspezifisch.
Es ist aber recht mühsam über derartige Thematiken ohne direkte Umsetzungen zu spekulieren. Problem A) skaliert und Problem B) skaliert nicht. Ohne das Problem zu benennen ist es nur reden um den heißen Brei
Der Cinebench Screen ist auch nicht ganz grundlos gewählt -> denn der Cinebench ist durch die Tiles einfach gut auf NUMA auslegbar. Jeder Thread bekommt losgelöst vom Rest seinen eigenen Datenpool, kein anderer Thread muss überhaupt da irgend wie Zugriff bekommen. Es findet nahezu gar kein Traffic zwischen den Threads statt -> Skalierung geht gern auch annähernd perfekt.