News RIKEN Fugaku: ARM-Supercomputer erreicht bis zu 537 PetaFLOPS

SVΞN · 18. Mai 2020

Fujitsu und das naturwissenschaftliche Forschungsinstitut Rikagaku Kenkyūjo (RIKEN) haben die Spezifikationen des japanischen Supercomputers Fugaku veröffentlicht. Mit 158.976 Compute-Nodes, basierend auf je 48 Fujitsu A64FX-Kernen vom Typ ARM, erreicht der auf HPC und KI optimierte Supercomputer bis zu 537 PetaFLOPS.

Zur News: RIKEN Fugaku: ARM-Supercomputer erreicht bis zu 537 PetaFLOPS

ghecko · 18. Mai 2020

Der A64FX ist, von allen HPC-ARM CPUs, der zweifellos interessanteste.

DarkInterceptor · 18. Mai 2020

sehr beeindruckend so ein system. solange damit sinnvolle sachen errechnet werden und nicht für waffentests genutzt wird...

wie aktuell ist eigentlich die liste der supercomputer? auf den ersten 10 plätzen finden man ausser intel noch IBM und noch einen hersteller aber AMD ist mal nicht vorhanden.

hRy · 18. Mai 2020

Die Liste der Supercomputer wird immer jahrlich um den Juni rum aktualisiert.

Valeria · 18. Mai 2020

7nm, Erster Platz in Green500 und 537 PetaFLOPS für COVID-Forschung?
Nice!

Onkel Föhn · 18. Mai 2020

DarkInterceptor schrieb:
auf den ersten 10 plätzen finden man ausser intel noch IBM und noch einen hersteller aber AMD ist mal nicht vorhanden.

NOCH nicht … ;-)

https://www.golem.de/news/el-capitan-amd-supercomputer-schafft-ueber-2-exaflops-2003-146976.html

https://www.amd.com/de/campaigns/amd-and-cray

MfG Föhn.

nighteeeeey · 18. Mai 2020

Onkel Föhn schrieb:
https://www.golem.de/news/el-capitan-amd-supercomputer-schafft-ueber-2-exaflops-2003-146976.html

Der Fokus der NNSA liegt auf der Forschung und Simulation von militärisch zu nutzender Kernenergie im Rahmen der nationalen Sicherheit.

Yay \o/

Mextli · 18. Mai 2020

NighteeeeeY schrieb:
Yay \o/

Besser simuliert, als in echt wie es früher gemacht wurde. Yay...

fox40phil · 18. Mai 2020

Ich fände es schön, wenn hier noch mal auf den part eingegangen wäre:

Jedem A64FX stehen 32 GB HBM2 mit einer Bandbreite von 1.024 GB/s [...] zur Verfügung.

Wie kann man das verstehen? Als Cache? Ram ja sicherlich nicht? Wo befindet sich der Speicher in der CPU oder auf dem Mainboard? Welche positiven Auswirkungen hätte vergleichbares im Desktop Segment?

Wird er in die Listen der Top500 aufgenommen, wenn sie im Juni aktualisiert wird? Oder erst, wenn er vollständig steht?

SVΞN · 18. Mai 2020

fox40phil schrieb:
Wird er in die Listen der Top500 aufgenommen, wenn sie im Juni aktualisiert wird? Oder erst, wenn er vollständig steht?

Wenn er seine reale (Rmax) und theoretische Spitzenleistung (Rpeak) im als Branchenstandard geltenden Benchmark auf Basis von LINPACK nachgewiesen hat.

Peter_J_Georg · 18. Mai 2020

fox40phil schrieb:
Wie kann man das verstehen? Als Cache? Ram ja sicherlich nicht? Wo befindet sich der Speicher in der CPU oder auf dem Mainboard? Welche positiven Auswirkungen hätte vergleichbares im Desktop Segment?

Als RAM. Zusätzlicher DDR4 (o.ä.) Speicher ist nicht vorhanden.
Wie bei HBM üblich mit auf dem Package.
Auswirkungen? Sehr hohe Bandbreite des Hauptspeichers, allerdings dadurch auch stark beschränkt in der Kapazität.

ofenheiz · 18. Mai 2020

fox40phil schrieb:
Wie kann man das verstehen? Als Cache? Ram ja sicherlich nicht? Wo befindet sich der Speicher in der CPU oder auf dem Mainboard? Welche positiven Auswirkungen hätte vergleichbares im Desktop Segment?

Zusätzlich, zu dem was bereits Peter gesagt hat, sind auch die Latenzen anders. Sie sollen höher sein als DDR4. RAM nach stecken geht damit auch nicht.

Interessant wird der reale Linpack Wert. Bin gespannt.

Bigeagle · 18. Mai 2020

Dürfte für die vor allem ein ziemlicher Sprung zum K Computer werden.
Bin schon irgendwie gespannt auf den Eintrag in die TOP500, denn mit der hohen Speicherbandbreite sollte der in LINPACK gut abschneiden. Die relativ geringe Menge an RAM dämpft eventuell ein bisschen, aber das sollte zumindest da nicht so tragisch sein.

Da auch Vergleiche zu den US Supercomputern aufkamen die ja öfter für relativ spezifische Einsatzzwecke gedacht sind wäre es eventuell auch von interesse dass das RIKEN ziemlich breit aufgestellt ist, einfach mal einen Blick auf deren englische Seite werfen.

Mich würden ja auch noch Erfahrungsberichte von Anwendern interessieren, besonders welche die auch auf x86 Clustern gearbeitet haben. Kompensieren inzwischen die Compiler die meisten Unterschiede, oder muss man immer noch vergleichsweise viel beachten? Hab da früher einige 'fehlende Begeisterung' mitbekommen wenn jemand mal was mit ARM machen musste.
Da wird sicher auch immer wieder recht hardwarenaher Code geschrieben, bei highlevel code kommt das alles kaum zum tragen.
SVE klingt nebenbei auch ziemlich interessant. Klingt etwas als könnte man da mit einem 512 Bit Datentyp rechnen anstatt nur kleinere Datentypen reinpacken. Weiß da vielleicht jemand mehr?

mibbio · 18. Mai 2020

Ist halt die Frage, wie die Berechnungen aussehen, die hauptsächlich darauf laufen sollen. Wenn die verhältnismäßig wenig RAM brauchen, aber von der Bandbreite stark profitieren, bringt HBM2 ja eher Vorteile ggü “klassischem“ RAM.

Und irgendwas werden die Leute sich ja auch dabei gedacht haben, diese Variante zu verbauen.

Peter_J_Georg · 18. Mai 2020

Bigeagle schrieb:
SVE klingt nebenbei auch ziemlich interessant. Klingt etwas als könnte man da mit einem 512 Bit Datentyp rechnen anstatt nur kleinere Datentypen reinpacken. Weiß da vielleicht jemand mehr?

Du kannst z.B. anhand der Language Extensions für C nachlesen welche Datentypen ARM SVE unterstützt: https://developer.arm.com/docs/100987/latest

Aber schonmal vorweg, sofern ich deine Frage richtig verstanden habe: Nein, du kannst, wie üblich, nur vordefinierte, kleinere, Datentypen "reinpacken". Der größte Datentyp scheint 64bit groß zu sein.

Die wilde Inge · 19. Mai 2020

Hier stimmt doch was nicht, oder?
Die aktuelle Nummer 1 hat Rpeak 200 TeraFlops, das Teil hier sol über 500 PetaFlops haben, mit nur der 5 oder 6 fachen Anzahl an Kernen? Das ist ja mehr als die 2000fache Leistung. Das ist dochn Schreibfehler?!

edit: ah, gecheckt. Ami Schreibweise. Das sind nicht 200, sondern 200.000 TFlops, also 200 PetaFlops.

senf.dazu · 19. Mai 2020

Peter_J_Georg schrieb:
Als RAM. Zusätzlicher DDR4 (o.ä.) Speicher ist nicht vorhanden.
Wie bei HBM üblich mit auf dem Package.
Auswirkungen? Sehr hohe Bandbreite des Hauptspeichers, allerdings dadurch auch stark beschränkt in der Kapazität.

Also eigentlich recht ähnlich zu XEON Phi ..

nur ARM/SVW/HBM/Tofu statt x86/AVX/HMC/Omnipath. Mit zeitgemäß leicht erhöhtem HBM GB (x2?) und ggf Vernetzungskapazität. Die Zahl der Prozessoren und die die SIMD Vektorgrößen nahezu gleich.

Wer hat solche Stapel-DRAM Konzepte mit CPU-SIMD eigentlich zuerst probiert - Fujitsu oder Intel ?

Aber vermutlich sieht die Verlustleistung/Flops bei der moderneren Technologie und Architekturoptimierungen deutlich besser aus.

Peter_J_Georg · 19. Mai 2020

senf.dazu schrieb:
Also eigentlich recht ähnlich zu XEON Phi ..

Ich gehe mal von einem Vergleich mit KNL aus (ein Vergleich mit KNC "Beschleuniger-Karten" macht wenig Sinn):
Jein, schon recht ähnlich, beim Speicher aber doch anders. Der Xeon Phi x200 hat den Vorteil auf zusätzlichen DDR4 Speicher zugreifen zu können. Die 16GB HMC können in unterschiedlichen Modi konfiguriert und entsprechend verwendet werden. Diese 16GB alleine als Hauptspeicher wären, für die meisten Anwendungen, einfach nicht ausreichend gewesen. Dies ist auch der gravierende Nachteil beim A64FX: 32GB pro CPU werden schnell zu wenig sein. Dies versucht man mit einem sehr guten (?) Interconnect (Tofu) abzufedern.

senf.dazu · 19. Mai 2020

Naja 29 GBit/s x 2 lanes x 10 Ports, wenn man die 2 lanes mal für hin un her unterstellt bleiben also etwa 290 GBit/s für jede Richtung dieser Tofu Links. Das ist im Vergleich mit der Datenrate von HBM (1 TByte/s beide Richtungen zusammen) aber der übliche Witz - von wahlfreiem Zugriff auf den verteilten Hauptspeicher (a la SMP) ist das meilenweit entfernt. (Die "x2 lanes" sind aber frei interpretiert - man muß tiefer graben als ich's jetzt mag um den Webdokumenten das zu entreißen - wenn die Hersteller wolkiges CPU Geschwafel lieben kann ich das auch ..)

Auch die bislang in (einigen) XEON und PHI verbauten 2x100G (auch je Richtung) Omnipath (entspricht 32xPCIe3.0) waren nicht wirklich sehr viel weniger. (zum Vergleich NVlink/Blulink 2.0 (alt) 6x200GBit/s je GPU chip. 3.0: 12x200G)

Hinsichtlich KNC/KNL - in dem XEON Phi Supercomputer in der Top500 Liste waren wohl von Cray 7250 also tatsächlich welche mit DDR4 und nicht mehr HMC verbaut (tot. 115GByte/s für DDR4 2400x6ch) entsprechend auch mehr Speicher.

News RIKEN Fugaku: ARM-Supercomputer erreicht bis zu 537 PetaFLOPS

Redakteur a.D. Pro

Digital Caveman

Vice Admiral

Lt. Junior Grade

Admiral

Onkel Föhn

Gast

Commodore

Commander

Rear Admiral

Redakteur a.D. Pro

Ensign

Cadet 3rd Year

Lt. Commander

Admiral

Ensign

Commander

Lieutenant

Ensign

Lieutenant

Ähnliche Themen

Passend zum Thema