News RIKEN Fugaku: ARM-Supercomputer erreicht bis zu 537 PetaFLOPS

SVΞN

Redakteur a.D.
Registriert
Juni 2007
Beiträge
22.987
  • Gefällt mir
Reaktionen: kryzs, Smartbomb, [wege]mini und 5 andere
sehr beeindruckend so ein system. solange damit sinnvolle sachen errechnet werden und nicht für waffentests genutzt wird...

wie aktuell ist eigentlich die liste der supercomputer? auf den ersten 10 plätzen finden man ausser intel noch IBM und noch einen hersteller aber AMD ist mal nicht vorhanden.
 
  • Gefällt mir
Reaktionen: flo.murr
Die Liste der Supercomputer wird immer jahrlich um den Juni rum aktualisiert.
 
  • Gefällt mir
Reaktionen: flo.murr, LamaTux, [wege]mini und eine weitere Person
7nm, Erster Platz in Green500 und 537 PetaFLOPS für COVID-Forschung?
Nice!
 
  • Gefällt mir
Reaktionen: LamaTux, Transistor 22, SVΞN und eine weitere Person
  • Gefällt mir
Reaktionen: Smartbomb, Onkel Föhn und gartenriese
Ich fände es schön, wenn hier noch mal auf den part eingegangen wäre:
Jedem A64FX stehen 32 GB HBM2 mit einer Bandbreite von 1.024 GB/s [...] zur Verfügung.
Wie kann man das verstehen? Als Cache? Ram ja sicherlich nicht? Wo befindet sich der Speicher in der CPU oder auf dem Mainboard? Welche positiven Auswirkungen hätte vergleichbares im Desktop Segment? :)

Wird er in die Listen der Top500 aufgenommen, wenn sie im Juni aktualisiert wird? Oder erst, wenn er vollständig steht?
 
fox40phil schrieb:
Wird er in die Listen der Top500 aufgenommen, wenn sie im Juni aktualisiert wird? Oder erst, wenn er vollständig steht?

Wenn er seine reale (Rmax) und theoretische Spitzenleistung (Rpeak) im als Branchenstandard geltenden Benchmark auf Basis von LINPACK nachgewiesen hat.
 
  • Gefällt mir
Reaktionen: NDschambar, [wege]mini und fox40phil
fox40phil schrieb:
Wie kann man das verstehen? Als Cache? Ram ja sicherlich nicht? Wo befindet sich der Speicher in der CPU oder auf dem Mainboard? Welche positiven Auswirkungen hätte vergleichbares im Desktop Segment? :)

Als RAM. Zusätzlicher DDR4 (o.ä.) Speicher ist nicht vorhanden.
Wie bei HBM üblich mit auf dem Package.
Auswirkungen? Sehr hohe Bandbreite des Hauptspeichers, allerdings dadurch auch stark beschränkt in der Kapazität.
 
  • Gefällt mir
Reaktionen: fox40phil
fox40phil schrieb:
Wie kann man das verstehen? Als Cache? Ram ja sicherlich nicht? Wo befindet sich der Speicher in der CPU oder auf dem Mainboard? Welche positiven Auswirkungen hätte vergleichbares im Desktop Segment? :)
Zusätzlich, zu dem was bereits Peter gesagt hat, sind auch die Latenzen anders. Sie sollen höher sein als DDR4. RAM nach stecken geht damit auch nicht.

Interessant wird der reale Linpack Wert. Bin gespannt.
 
  • Gefällt mir
Reaktionen: fox40phil
Dürfte für die vor allem ein ziemlicher Sprung zum K Computer werden.
Bin schon irgendwie gespannt auf den Eintrag in die TOP500, denn mit der hohen Speicherbandbreite sollte der in LINPACK gut abschneiden. Die relativ geringe Menge an RAM dämpft eventuell ein bisschen, aber das sollte zumindest da nicht so tragisch sein.

Da auch Vergleiche zu den US Supercomputern aufkamen die ja öfter für relativ spezifische Einsatzzwecke gedacht sind wäre es eventuell auch von interesse dass das RIKEN ziemlich breit aufgestellt ist, einfach mal einen Blick auf deren englische Seite werfen.

Mich würden ja auch noch Erfahrungsberichte von Anwendern interessieren, besonders welche die auch auf x86 Clustern gearbeitet haben. Kompensieren inzwischen die Compiler die meisten Unterschiede, oder muss man immer noch vergleichsweise viel beachten? Hab da früher einige 'fehlende Begeisterung' mitbekommen wenn jemand mal was mit ARM machen musste.
Da wird sicher auch immer wieder recht hardwarenaher Code geschrieben, bei highlevel code kommt das alles kaum zum tragen.
SVE klingt nebenbei auch ziemlich interessant. Klingt etwas als könnte man da mit einem 512 Bit Datentyp rechnen anstatt nur kleinere Datentypen reinpacken. Weiß da vielleicht jemand mehr?
 
Ist halt die Frage, wie die Berechnungen aussehen, die hauptsächlich darauf laufen sollen. Wenn die verhältnismäßig wenig RAM brauchen, aber von der Bandbreite stark profitieren, bringt HBM2 ja eher Vorteile ggü “klassischem“ RAM.

Und irgendwas werden die Leute sich ja auch dabei gedacht haben, diese Variante zu verbauen.
 
  • Gefällt mir
Reaktionen: fox40phil
Bigeagle schrieb:
SVE klingt nebenbei auch ziemlich interessant. Klingt etwas als könnte man da mit einem 512 Bit Datentyp rechnen anstatt nur kleinere Datentypen reinpacken. Weiß da vielleicht jemand mehr?

Du kannst z.B. anhand der Language Extensions für C nachlesen welche Datentypen ARM SVE unterstützt: https://developer.arm.com/docs/100987/latest

Aber schonmal vorweg, sofern ich deine Frage richtig verstanden habe: Nein, du kannst, wie üblich, nur vordefinierte, kleinere, Datentypen "reinpacken". Der größte Datentyp scheint 64bit groß zu sein.
 
  • Gefällt mir
Reaktionen: Bigeagle
Hier stimmt doch was nicht, oder?
Die aktuelle Nummer 1 hat Rpeak 200 TeraFlops, das Teil hier sol über 500 PetaFlops haben, mit nur der 5 oder 6 fachen Anzahl an Kernen? Das ist ja mehr als die 2000fache Leistung. Das ist dochn Schreibfehler?!

edit: ah, gecheckt. Ami Schreibweise. Das sind nicht 200, sondern 200.000 TFlops, also 200 PetaFlops.
 
Peter_J_Georg schrieb:
Als RAM. Zusätzlicher DDR4 (o.ä.) Speicher ist nicht vorhanden.
Wie bei HBM üblich mit auf dem Package.
Auswirkungen? Sehr hohe Bandbreite des Hauptspeichers, allerdings dadurch auch stark beschränkt in der Kapazität.

Also eigentlich recht ähnlich zu XEON Phi ..

nur ARM/SVW/HBM/Tofu statt x86/AVX/HMC/Omnipath. Mit zeitgemäß leicht erhöhtem HBM GB (x2?) und ggf Vernetzungskapazität. Die Zahl der Prozessoren und die die SIMD Vektorgrößen nahezu gleich.

Wer hat solche Stapel-DRAM Konzepte mit CPU-SIMD eigentlich zuerst probiert - Fujitsu oder Intel ?

Aber vermutlich sieht die Verlustleistung/Flops bei der moderneren Technologie und Architekturoptimierungen deutlich besser aus.
 
Zuletzt bearbeitet:
senf.dazu schrieb:
Also eigentlich recht ähnlich zu XEON Phi ..

Ich gehe mal von einem Vergleich mit KNL aus (ein Vergleich mit KNC "Beschleuniger-Karten" macht wenig Sinn):
Jein, schon recht ähnlich, beim Speicher aber doch anders. Der Xeon Phi x200 hat den Vorteil auf zusätzlichen DDR4 Speicher zugreifen zu können. Die 16GB HMC können in unterschiedlichen Modi konfiguriert und entsprechend verwendet werden. Diese 16GB alleine als Hauptspeicher wären, für die meisten Anwendungen, einfach nicht ausreichend gewesen. Dies ist auch der gravierende Nachteil beim A64FX: 32GB pro CPU werden schnell zu wenig sein. Dies versucht man mit einem sehr guten (?) Interconnect (Tofu) abzufedern.
 
Naja 29 GBit/s x 2 lanes x 10 Ports, wenn man die 2 lanes mal für hin un her unterstellt bleiben also etwa 290 GBit/s für jede Richtung dieser Tofu Links. Das ist im Vergleich mit der Datenrate von HBM (1 TByte/s beide Richtungen zusammen) aber der übliche Witz - von wahlfreiem Zugriff auf den verteilten Hauptspeicher (a la SMP) ist das meilenweit entfernt. (Die "x2 lanes" sind aber frei interpretiert - man muß tiefer graben als ich's jetzt mag um den Webdokumenten das zu entreißen - wenn die Hersteller wolkiges CPU Geschwafel lieben kann ich das auch ..)

Auch die bislang in (einigen) XEON und PHI verbauten 2x100G (auch je Richtung) Omnipath (entspricht 32xPCIe3.0) waren nicht wirklich sehr viel weniger. (zum Vergleich NVlink/Blulink 2.0 (alt) 6x200GBit/s je GPU chip. 3.0: 12x200G)

Hinsichtlich KNC/KNL - in dem XEON Phi Supercomputer in der Top500 Liste waren wohl von Cray 7250 also tatsächlich welche mit DDR4 und nicht mehr HMC verbaut (tot. 115GByte/s für DDR4 2400x6ch) entsprechend auch mehr Speicher.
 
Zuletzt bearbeitet:
Zurück
Oben