News 93 PetaFLOPS: China bleibt die Nummer 1 auf der Top-500-Liste

Mich würde ja mal der Aufbau der Prozessoren und Nodes interessieren, denn dazu findet man erstaunlich wenig...

Und warum hier einige einen exorbitanten Entwicklungsvorsprung gegenüber anderen Ländern sehen, ist mir auch rätselhaft. Es hat mehr etwas mit der Kosteneffizienten Nutzung eines solchen systems zu tun. Theoretisch ist die Rechenleistung nicht begrenzt, da man theoretisch beliebig viele Nodes verbauen kann.

@Ergänzung: habe auf ner anderen seite gerade gelesen, dass es sich bei den Prozessoren um beschleunigerkarten handelt und die Prozessoren auf ein RISC Design setzt. Hieruf wird man sicher komplett anderer Software fahren, als auf einem x86 oder GPU System. Aber schon sehr beeindruckend.

Hat jemand noch genauere Infos zu den CPUs - sind das ARM basierte Chips, oder haben die auch x86-lizenzsiert?

Wie gesagt, die Prozessoren setzen (wie auch ARM Prozessoren) auf ein RISC Design. Genaueres über die Architektur soll in den nächsten tagen bekannt gegeben werden. Also es sind weder ARM Chips noch x86 Chips. Es ist eine Eigenentwicklung, welche aber sicher sehr ähnlich vom Aufbau her zu ARM Kernen sein dürfte.
 
Zuletzt bearbeitet:
Nachtrag zu meiner Frage:
sind das ARM basierte Chips, oder haben die auch x86-lizenzsiert?

Hier die Lösung:
-> http://www.netlib.org/utk/people/JackDongarra/PAPERS/sunway-report-2016.pdf

Äußerst interessanter Summary zum Projekt und über den Rechner, Aufbau, Konzept etc.

Hier auf Seite 2:
"The Computer Processing Element (CPE) is composed of an 8x8 mesh of 62 - bit RISC cores, supporting only user mode, with a 264- bit vector instructions, 16 KB L1 instruction cache and 64 KB Scratch Pad Memory (SPM)"

Zur Software liest man dann auch "The Sunway TaihuLight System is using Sunway Raise OS 2.0.5 based on Linux as the operating system" (Seite 9)

Und weiter erfährt man, dass das ganze per Chiller gekühlt wird: "To satisfy the need of 28 MW cooling system Climaveneta delivered 15 TECS2 - W/H water - cooled chillers equipped with magnetic levitation, oil free VFD compressors, with the best Seasonal Energy Efficiency Ratio (ESEER), close to 10. The Climaveneta cooling system, combined with further eco sustainable technologies adopted, such as free cooling and VPF, has contributed to cut the entire energy consumption of the data center by 45%. The heat exchange is at the level of the computing boards. The system is able to recycle the
cooling water" (Sweite 9/10)

Wer mehr erfahren möchte, sollte man ein Blick in das PDF werfen.

@ Nitschi66
-> schau dir auch mal das PDF an, da ist der komplette Aufbau dargestellt.

@CB:
das wäre mal ein eigener Bericht wert.

Grüße
franeklevy
 
Danke!
Der verwendete chiller muss dann der TECS2 W LC 1954 sein...
Zusammen verbrauchen dann die 15 chiller 5.600kW. Bei 100% Last natürlich. Aber diese Kühlung scheint nötig zu sein. Wenn man mal von einer 60% auslastung ausgeht und die chiller linear arbeiten (denke ich eher nicht) kommt man immernoch auf fette 29.407.320 kWh/a. 29 TAUSEND MWh/a.

Ich glaube da stimmt was nicht oder?^^ Die maximalleistung des Rechenzentrums beträgt ja auch "nur" 15,371 MW (englische schreibweise: 15.371 MW --- Der punkt sollte im deutschen ja n komma sein, oder?)
Wieso dimensionieren sie die Kühlung so über?

Ähm...nachtrag: Ein schrank hat ne Leistungsaufnahme von 382,8 KW. es sind also tatsächlich 15 tausend 371 KW leistung --> 15,371 MW. In deren PDF steht es aber falsch...
Assuming 15.311 MW for HPL using 40 cabinets, each cabinet is at 382.8 KW. Each cabinet has
4*256 nodes or 373.8 W/node.
Die TECS2 dinger sind auch nichts anderes als große Wärmepumpen oder? Scheinen einen COP_Faktor von knapp über 5 zu haben

Edit: Das kühlsystem habe ich auch nicht verstanden... wenn ich mir bild 7, 8 und 9 angucke sehe ich nichtmal schemenhaft platz für luftkühler oder wasserkühlkörper.
 
Zuletzt bearbeitet:
Ich finde die quasi autonom-chinesischen Entwicklungssprünge beeindruckend.

2010 bauten die einen RISC-Core sehr ähnlich zu einem DEC Alpha von 1995
... dann 16 Jahre lang nix im Wiki und dann BAMM der schnellste der Welt

und ich glaub Crysis läuft nicht auf RISC ... oder ?

https://en.wikipedia.org/wiki/ShenWei
https://en.wikipedia.org/wiki/Sunway_TaihuLight


History of ShenWei processors

The ShenWei series of microprocessors was developed primarily for the use of the military of the People's Republic of China. The original microarchitecture is believed to be inspired by DEC Alpha.[2][unreliable source?]


ShenWei SW-1

First generation, 2006
Single-core
900 MHz

ShenWei SW-2

Second generation, 2008
Dual-core
1400 MHz
SMIC 130 nm process
70–100 W

ShenWei SW-3

Third generation, 2010
16-core, 64-bit RISC
975–1200 MHz
65 nm process
140.8 GFLOPS @ 1.1 GHz
Max memory capacity: 16 GB
Peak memory bandwidth: 68 GB/s
Quad-channel 128-bit DDR3

ShenWei SW1600 microprocessor

ShenWei SW1600, aka SW-3, is the third generation CPU by Jiāngnán Computing Research Lab. Operating at 1.1 GHz, it achieves 140 GFLOPS floating point performance from its 16 cores RISC architecture. The CPU is a national key collaborative laboratory project by Jiāngnán Computing Research Lab and High Performance Server & Storage Technologies. The People's Republic of China asserts its sole intellectual property rights. A little more information about the 65 nm ShenWei SW-3 multi-core CPU project can be found on official web site of High Performance Services & Storage Technologies - national key research laboratory. Some characteristics of the SW1600 core explained:

Four-issue superscalar
Two integer and two floating-point execution units
7-stage integer pipeline and 10-stage floating-point pipeline
43-bit virtual address and 40-bit physical address
Up to 8 TB virtual memory and 1 TB of physical memory supported
L1 cache: 8 KB instruction cache and 8 KB data cache
L2 cache: 96 KB
128-bit system bus

With the published information, similarity with Alpha 21164A is suggested.[1][unreliable source?]
 
@Nitschi66:
schau dir mal "Figure 7" (Seite 5) an und dazu die Bildbeschreibung: "Four cards on a board, two up and two down (on the other side)"
Vermutlich erfolgt die Kühlung dazwischenliegend. Ich verstehe es so, dass es im Grunde wie ein Sandwich aufgebaut ist, die Kühlung erfolgt zwischen den sich gegenüberliegenden Cards/Boards. Die Boards "schauen" sich sozusagen gegenseitig an. Dann passt auch das Schaubild, die Kühlung erfolgt dann innerhalb der großen "grauen" Platte.

Zumindest erscheint es für mich so schlüssig. Ein ähnliches Konzept verfolgt ja auch IBM mit der Ihrer WaKü-Lösung. Wobei dort die Kühlung nicht gegenüberliegend erfolgt. Der Vorteil ist natürlich hier bei der Lösung, dass das ein extrem hohes Packing erlaubt.

Grüße
franeklevy
 
Zuletzt bearbeitet:
ja das packing scheint ja unfassbar hoch zu sein.
Ich frage mich nur gerade welches Kühlmedium dann genutzt wird.
Gibt es dann einen zweiseitigen wasserkühlkörper? eine CPU oben drauf und eine unten? das aber anzubringen finde ich recht schwer, mir fällt zumindest gerade keine lösung ein. Oder schwimmen die teile vielleicht einfach in einem nichtleitenden medium? Gibts ja auch schon sowas.

Ich lese nur mittlerweile öfters von wassergekühlten Rechenzentren (Green IT Cube in Darmstadt zB) aber nirgends finde ich, WIE genau diese kühlung aussieht. Beim Cube in Darmstadt scheint nur eine Luft/Wasser wärmetauschen im "Rückenteil" des Schrankes zu sein - CPUs werden also weiterhin mit luft gekühlt.

edit: ahhhh, ich habe jetzt verstanden WIE die die kühler auf die CPU bekommen....der silberne einschub ist der kühler! (Das hast du mir ja auch versucht sagen zu wollen;)...) und durch diesen silbernen einschub wird dann wahrscheinlich das wasser geführt.
 
Zuletzt bearbeitet:
Na das kann man schon umsetzten:

Schicht 1: |------CPU -Top---------------|
Schicht 2: |--Wakü-KÜHLUNGS-Block--|
Schicht 3: |------CPU-Buttom------------|

Die Fertigung ist sicherlich nicht ganz einfach, aber technisch durchaus vorstellbar.

Grüße
franeklevy
 
franeklevy schrieb:
Schicht 1: |------CPU -Top---------------|
Schicht 2: |--Wakü-KÜHLUNGS-Block--|
Schicht 3: |------CPU-Buttom------------|
Schön bebildert! Ich denke das ist nicht all zu schwer zu fertigen. Die CPUs sind ja immer am gleichen platz. Der rest des Board wird vllt einfach durch eine etwas elastischere Wärmeleit-schicht mit dem Kühler verbunden.

Edit: @CB Die 93 PetaFLOPs sind übrigens bei einer CPU-Auslastung/System-Auslastung von 74% entstanden. Ein recht hoher wert, normalerweise liegt der eher so bei 50-60% afaik

Edit:
Sunway Report 2016 schrieb:
The fact that there are sizeable applications and Gordon Bell contender applications running on
the system is impressive and shows that the system is capable of running real applications and
not just a “stunt machine”.
Liest sich so, als seien sie selbst davon überrascht^^
 
Zuletzt bearbeitet:
Die 93 PFLOPS sind zwar irgendwie beeindruckend, aber natürlich auch seeeehr spezieller Hardware in einem speziellen Use-Case erzielt. Mit General Purpose und breiter Applikationsfront ist da natürlich nicht viel weit her geholt.

Von daher sind solche nackten Zahlen immer mit etwas Vorsicht zu genießen.

Aber die Chinesen holen dennoch ungemein auf. Ich bin mir aber ziemlich sicher, dass Nvidia Pascal und Intel Xeon Phi spätestens mit der Juni 2017 Liste (zum Teil wohl schon im November 2016) einen nennenswerten Anteil erzielen.
 
Ich habe immernoch Probleme leute...unabhängig von meinen eigenen (...witz...) kommt dieses Rechenzentrum dazu.
Das Teil hat eine Leistungsaufnahme von FUCKING 15,3 MW!!! Und die Chiller (15 an der Zahl) haben eine Leistungsaufnahme von 5,6MW. Stimmt das so?^^ Für asiatische Verhältnisse ist das sogar relativ gut! Ohne netzwerk-gedöns ergibt sich daraus ein PUE von 1,366 (= (15,3+5,6)MWh / 15,3MWh) je nach auslastung varriiert das natürlich.
--> 36,6% der gesamten e-energie geht für die kühlung drauf.

Trotzdem sollte man sich mal vor augen führen: Der Green IT Cube in Darmstadt hat einen PUE von ~1,02. Cloud&Heat Technologies stellt Rechenzentren mit dem gleichen PUE her und deren abwärme können sogar noch häuse heizen...
 
Nitschi66 schrieb:
[...] --> 36,6% der gesamten e-energie geht für die kühlung drauf. [...]
Geht doch völlig in Ordnung. Beim Cray XM-P aus den frühen 80er Jahren hat die Kühlung mehr als die Hälfte der gesamten elektrischen Energie geschluckt (waren ca. 130kW für die Rechenleistung eines Raspberry Pi). Gut, da wurden auch noch FCKW als Kältemittel verwendet, was ja heute verboten ist. :p
 
Zuletzt bearbeitet:
Zumal man auch nicht vergessen darf, dass der Strom bei knapp 5-8 Cent je KW sehr günstig ist - bei staatlichen Einrichtungen sicherlich noch weniger.

Dann ist es schon eine Frage, ob sich die exponentiell steigenden Kosten für ein PUE von 1.0x überhaupt amortisieren oder man nicht wie hier den Weg einschlägt einen geringfügig schlechteren PUE hinzulegen, dafür aber den Gesamtkostenrahmen im Auge behält. Wobei über das Thema Kosten erfahren wir eh kaum etwas.

Und man kann ja trotzdem ganz objektiv sagen, dass es auch mit dem vermeintlich schlechteren Verhältnis zwischen Kühlung und Rechenenergie (ich sage das mal so salopp) zum zweiten Platz auf der Green500-Liste gereicht hat.

Grüße
franeklevy
 
Vielleicht sollte man/eine Firma nicht immer nur an Kosten denken, sondern an die Umwelt ;) Der Strom muss auch erstmal produziert/erzeugt/umgewandelt werden.
Und nein, einen PUE von unter 1,2 zu bekommen ist nicht unheimlich kostenintensiv. Meist spart das auch kosten.

Und der vorzeitig von mir genannte PUE 1,366 vom chinesischen RZ ist ja nicht das ende...da gehört noch Netzwerk zu und andere Verbraucher, die ich ja nicht kenne. der ist also weit über 1,366.

@jenergy: du kannst auch einfach mal wasser als kältemittel benutzen. Einige Firmen (Cloud and Heat zB. oder das GSI Darmstadt) zeigen ja dass es funktioniert.
 
Ich bin da absolut bei dir – aber wir wissen ja, wie und nach welchen Kriterien solche Entscheidungen oft getroffen werden.
 
Madman1209 schrieb:
Hi,





finde den Fehler... :rolleyes:

VG,
Mad

Auch für Supercomputer gibt es etliche verschiedene Anwendungsszenarien und ein Cluster wird selten für nur eine einzelne Aufgabe verwendet. Die Rechenzeit wird teilweise im großen Stil "vermietet", da ein einzelner Workload i.d.R. ohnehin nicht den komplette Cluster sinnvoll auslasten kann. Da werden dann beispielsweise Core 0 bis 4095 für Aufgabe X und Core 4096 bis 6143 für Aufgabe Y verteilt.

Und je spezieller die unterliegende Hardware ist, desto schneller mag sie vielleicht sein, desto höher ist aber im Zweifelsfall der manuelle Aufwand für Code-Optimierung (und Portierung). weil keine der üblichen Libs dafür passt. Raw-Power ist nicht immer alles auf der Welt, sie muss am Ende auch "nutzbar" sein.
 
Hi,

Auch für Supercomputer gibt es etliche verschiedene Anwendungsszenarien und ein Cluster wird selten für nur eine einzelne Aufgabe verwendet.

das ist richtig, aber ein Supercomputer ist grundsätzlich immer extrem spezialisiert und der Code muss so oder so massiv parallelisierbar sein, um überhaupt einen Vorteil zu generieren. "General Purpose" zu erwarten ist also schlicht unrealistisch.

Und je spezieller die unterliegende Hardware ist, desto schneller mag sie vielleicht sein, desto höher ist aber im Zweifelsfall der manuelle Aufwand für Code-Optimierung (und Portierung).

es hat auch niemand irgendwo behauptet, Code für Supercomputer zu schreiben wäre ein Klacks...

Raw-Power ist nicht immer alles auf der Welt, sie muss am Ende auch "nutzbar" sein.

nicht immer alles auf der Welt, aber in diesem einen speziellen Szenario durchaus...

VG,
Mad
 
Zurück
Oben