News Supercomputer: Leibniz-Rechenzentrum testet ARM-Server für BEAST

SVΞN · 26. Juni 2020

Das Leibniz-Rechenzentrum hat einige ARM-Server vom Typ HPE Cray CS500 bestellt und evaluiert diese im Hinblick auf den kommenden Supercomputer BEAST hinsichtlich ihrer Leistung und Effizienz gegenüber etablierten x86-Prozessoren und professionellen Beschleunigern. Die ARM-Technik stammt vom schnellsten Supercomputer der Welt.

Zur News: Supercomputer: Leibniz-Rechenzentrum testet ARM-Server für BEAST

Skysnake · 26. Juni 2020

Also die gleichen Server sind es nicht. Cray darf/kann kein TOFUD Interconnect anbieten sondern nimmt da Mellanox oder OPA was über PCI-E Angebunden ist.

Für kleine Installationen nicht so relevant, aber an sich schon ein gravierender Unterschied. Zudem hat man das Cray Software Environment. Das ist also insgesamt schon eine andere Maschine. Nur die CPU ist sehr ähnlich/die Gleiche. Wobei ich mir da nicht sicher bin, bei dem Announcement meine ich mich zu erinnern hies es das es da auch kleinere Unterschiede gibt.

LamaMitHut · 26. Juni 2020

Hoffentlich wird was draus. Wir können nicht ewig von den USA abhängig sein, und mit ASML / ARM / Zeiss haben wir doch fast alles, was das Herz begehrt.

Conqi · 26. Juni 2020

@LamaMitHut Ganz so einfach ist es dann leider auch nicht. ASML baut vielleicht die Belichtungsmaschinen, aber damit ist es noch lange nicht getan. Auf TSMC wird man vermutlich trotzdem angewiesen sein, selbst wenn man einen Chip entwickelt hat. Das sind immerhin keine Amerikaner.

RaptorTP · 26. Juni 2020

Ich so: Keks Hersteller benötigt nen Supercomputer ?! FAIL xD

Fab · 26. Juni 2020

Vielleicht auch ein Punkt den man sehen muss ist der Stromverbrauch. X86 vs. ARM. Und auch Kühlung darf man auch nicht vergessen. Weniger Strom bei gleicher oder mehr Leistung ist doch meist auch weniger Abwärme.

LamaMitHut · 26. Juni 2020

@Conqi

Stimmt natürlich. 100 % unabhängig ist keiner, und dies ist auch gut so.

Oberst08 · 26. Juni 2020

Fab schrieb:
Vielleicht auch ein Punkt den man sehen muss ist der Stromverbrauch. X86 vs. ARM. Und auch Kühlung darf man auch nicht vergessen. Weniger Strom bei gleicher oder mehr Leistung ist doch meist auch weniger Abwärme.

Ja natürlich, nur darf man nicht von einem Smartphone SOC auf einen ARM Server schließen. Es gibt durchaus effizientere Server als Fugaku. ARM ist nicht gleich effizienter.

icemanspirit · 26. Juni 2020

@SV3N bei den Beschleunigern mogelt das LRZ aber leicht..

Die 64 GPUs sind in einer eigenen GPU-Cloud, was von aussen nicht offen ersichtlich ist. Es gibt zudem noch zwei DGX Systeme. Beide aber nicht fuer heterogenes Computing aufgesetzt/angedacht. Die GPU-Cloud kann man nur in Einzelinstanzen nehmen und nicht zusammenschalten und die DGX Systeme sind immer ausgebucht.

Novasun · 26. Juni 2020

BEAST - wirklich - da hat ja wer in Bayern Eier aus Stahl.... Aber hey - das muss das Selbstverständnis sein. Wir wollen ein BEAST bauen... Also dann mal teu teu teu...

Flare · 26. Juni 2020

Egal wie hoch die maximal erreichbare Effizienz bei für die Architektur und Vernetzung optimale Software und Workload ist, das kann sich bei minimal anderem Workload drastisch ändern und die Gesamtkonstruktion nach stark ineffizient bis total sinnlos verschieben.
Ich vermute, dass ARM-Server in Kombination mit Beschleunigern und optimaler Vernetzung x86 in weiten Teilen ersetzen könnten. Das hat aber bei weniger gut über die ARM-Nodes skalierbaren Workloads schnell eine Ende falls dann die Beschleuniger nicht ausgelastet werden können weil die Vernetzung oder die ARM-Architektur bremst und stattdessen stärkere Kerne und weniger weitläufige Vernetzung angebracht wäre.
Es gibt für jede Gesamtarchitektur guten und schlechten Workload.

plami · 26. Juni 2020

RaptorTP schrieb:
Ich so: Keks Hersteller benötigt nen Supercomputer ?! FAIL xD

Der muss zählen, ob’s bei jedem Keks auch wirklich 52 Zähne sind.

smalM · 26. Juni 2020

@Flare

Flare schrieb:
Ich vermute, dass ARM-Server in Kombination mit Beschleunigern und optimaler Vernetzung x86 in weiten Teilen ersetzen könnten. Das hat aber bei weniger gut über die ARM-Nodes skalierbaren Workloads schnell eine Ende falls dann die Beschleuniger nicht ausgelastet werden können weil die Vernetzung oder die ARM-Architektur bremst und stattdessen stärkere Kerne und weniger weitläufige Vernetzung angebracht wäre.

Der Witz am Fogaku ist doch gerade, daß da nur ARM-Nodes vorhanden sind – da ist kein einziger Beschleuniger drin, ausschließlich ARM-Cores.

icemanspirit · 26. Juni 2020

smalM schrieb:
Der Witz am Fogaku ist doch gerade, daß da nur ARM-Nodes vorhanden sind – da ist kein einziger Beschleuniger drin, ausschließlich ARM-Cores.

+ das vermutlich derzeit beste HPC Interconnect was es gibt, welches in Kombination mit dem lokalen HBM2 Speicher eine Speicherbandbreite ermoeglicht, die man nirgendwo anders finden kann (wobei die Japaner auch historisch gesehen immer extrem gute Interconnects gebaut haben). Es gibt wohl auch noch einen grossen Push innerhalb von Riken die jetzige Effizienz von ~80% auf die 90% des Vorgaengers zu erhoehen.

Dazu muss man auch sagen, dass die Vektorerweiterung auf dem Fujitsu A64FX (SVE) gerade die Matrizeneinheiten auf Beschleunigern, von manchen Herstellern auch "Tensor Cores" genannt, redundant machen sollten.

MountWalker · 26. Juni 2020

News schrieb:
Die daraus resultierende European Processor Initiative (EPI) und das französische Unternehmen SiPearl sollen einen europäischen ARM-Prozessor für das High Performance Computing (HPC) Projekt der EU entwickeln.

Warum muss ein mit öffentlichen EU-Geldern finanzierter HPC-Prozessor eigentlich die ARM-ISA verwenden? Hatte die EU nicht einmal beschlossen, überall, wo es möglich ist, offene Technologiestandards einzusetzen? Gerade bei einem EU-Prozessor wäre dann doch von MIPS über OpenPower bis RISC-V alles sinnvoller als ARM. Und OpenPower böte auch Vector-Extensions (wie ARM und X86), die man bei HPC vielleicht haben möchte.

smalM · 26. Juni 2020

@MountWalker
Es ist eh nur ein Projekt um Steuergelder abzugreifen, also ist die ISA sowas von egal.

@icemanspirit
Ich kann mich nicht erinnern, daß SVE hardwarebeschleunigte Matrizenberechnungen durchführt. Das ist doch, auch für SIMD, erst für ARMv8.6-A vorgesehen?

icemanspirit · 27. Juni 2020

smalM schrieb:
Ich kann mich nicht erinnern, daß SVE hardwarebeschleunigte Matrizenberechnungen durchführt. Das ist doch, auch für SIMD, erst für ARMv8.6-A vorgesehen?

Ich hatte den Architektur Deep-Dive in diese Richtung ausgelegt mit seinen zwei 512-bit FMAs und dies als Teil der hinzugefuegten Fujitsu HPC ISA Erweiterung angesehen. Ich glaube worauf Du anspielst ist GEMM (General Matrix Multiply) oder?

smalM · 27. Juni 2020

@icemanspirit
Bzgl. GEMM, ja.
Ich gestehe, daß ich nicht weiß, ob Fujitsu da Funktionalität hinzugefügt hat, deshalb habe ich ja auch gefragt. Ich kenne nur das Arm-Dokument "The ARM Scalable Vector Extension" von 2017 und das, so weit ich mich erinnere, kennt keine Matrizenberechnungen.
An die Dokumentation von SVE2 kommt man ja einfach so leider nicht dran; Du hast das nicht zufällig zur Hand?

Skysnake · 27. Juni 2020

@icemanspirit

Also ob tofud der beste aktuelle Interconnect ist würde ich mal bezweifeln. Klar die Latenzen sind schon echt niedrig aber dafür ist es nen 6d Mesh-Torus. Hat also deutlich mehr Shops als Aries oder Slingshot. Zudem sinkt die effektive Bandbreit bei der Topologie wenn man weiter Routen muss.

Also ich bin mir da bei den Riesen Kisten echt nicht sicher ohne Vergleichstests gesehen zu haben.

flug_rosetto · 27. Juni 2020

jetzt aber gleich an die corona berechnungen. sofort.

News Supercomputer: Leibniz-Rechenzentrum testet ARM-Server für BEAST

Redakteur a.D. Pro

Captain

Captain

Vice Admiral Pro

Fleet Admiral Pro

Ensign

Captain

Lieutenant

Ensign

Commander

Commander

Cadet 4th Year Pro

smalM

Gast

Ensign

Fleet Admiral

smalM

Gast

Ensign

smalM

Gast

Captain

Lieutenant

Passend zum Thema