Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsSupercomputer: Leibniz-Rechenzentrum testet ARM-Server für BEAST
Das Leibniz-Rechenzentrum hat einige ARM-Server vom Typ HPE Cray CS500 bestellt und evaluiert diese im Hinblick auf den kommenden Supercomputer BEAST hinsichtlich ihrer Leistung und Effizienz gegenüber etablierten x86-Prozessoren und professionellen Beschleunigern. Die ARM-Technik stammt vom schnellsten Supercomputer der Welt.
Also die gleichen Server sind es nicht. Cray darf/kann kein TOFUD Interconnect anbieten sondern nimmt da Mellanox oder OPA was über PCI-E Angebunden ist.
Für kleine Installationen nicht so relevant, aber an sich schon ein gravierender Unterschied. Zudem hat man das Cray Software Environment. Das ist also insgesamt schon eine andere Maschine. Nur die CPU ist sehr ähnlich/die Gleiche. Wobei ich mir da nicht sicher bin, bei dem Announcement meine ich mich zu erinnern hies es das es da auch kleinere Unterschiede gibt.
Hoffentlich wird was draus. Wir können nicht ewig von den USA abhängig sein, und mit ASML / ARM / Zeiss haben wir doch fast alles, was das Herz begehrt.
@LamaMitHut Ganz so einfach ist es dann leider auch nicht. ASML baut vielleicht die Belichtungsmaschinen, aber damit ist es noch lange nicht getan. Auf TSMC wird man vermutlich trotzdem angewiesen sein, selbst wenn man einen Chip entwickelt hat. Das sind immerhin keine Amerikaner.
Vielleicht auch ein Punkt den man sehen muss ist der Stromverbrauch. X86 vs. ARM. Und auch Kühlung darf man auch nicht vergessen. Weniger Strom bei gleicher oder mehr Leistung ist doch meist auch weniger Abwärme.
Vielleicht auch ein Punkt den man sehen muss ist der Stromverbrauch. X86 vs. ARM. Und auch Kühlung darf man auch nicht vergessen. Weniger Strom bei gleicher oder mehr Leistung ist doch meist auch weniger Abwärme.
Ja natürlich, nur darf man nicht von einem Smartphone SOC auf einen ARM Server schließen. Es gibt durchaus effizientere Server als Fugaku. ARM ist nicht gleich effizienter.
@SV3N bei den Beschleunigern mogelt das LRZ aber leicht..
Die 64 GPUs sind in einer eigenen GPU-Cloud, was von aussen nicht offen ersichtlich ist. Es gibt zudem noch zwei DGX Systeme. Beide aber nicht fuer heterogenes Computing aufgesetzt/angedacht. Die GPU-Cloud kann man nur in Einzelinstanzen nehmen und nicht zusammenschalten und die DGX Systeme sind immer ausgebucht.
BEAST - wirklich - da hat ja wer in Bayern Eier aus Stahl.... Aber hey - das muss das Selbstverständnis sein. Wir wollen ein BEAST bauen... Also dann mal teu teu teu...
Egal wie hoch die maximal erreichbare Effizienz bei für die Architektur und Vernetzung optimale Software und Workload ist, das kann sich bei minimal anderem Workload drastisch ändern und die Gesamtkonstruktion nach stark ineffizient bis total sinnlos verschieben.
Ich vermute, dass ARM-Server in Kombination mit Beschleunigern und optimaler Vernetzung x86 in weiten Teilen ersetzen könnten. Das hat aber bei weniger gut über die ARM-Nodes skalierbaren Workloads schnell eine Ende falls dann die Beschleuniger nicht ausgelastet werden können weil die Vernetzung oder die ARM-Architektur bremst und stattdessen stärkere Kerne und weniger weitläufige Vernetzung angebracht wäre.
Es gibt für jede Gesamtarchitektur guten und schlechten Workload.
Ich vermute, dass ARM-Server in Kombination mit Beschleunigern und optimaler Vernetzung x86 in weiten Teilen ersetzen könnten. Das hat aber bei weniger gut über die ARM-Nodes skalierbaren Workloads schnell eine Ende falls dann die Beschleuniger nicht ausgelastet werden können weil die Vernetzung oder die ARM-Architektur bremst und stattdessen stärkere Kerne und weniger weitläufige Vernetzung angebracht wäre.
+ das vermutlich derzeit beste HPC Interconnect was es gibt, welches in Kombination mit dem lokalen HBM2 Speicher eine Speicherbandbreite ermoeglicht, die man nirgendwo anders finden kann (wobei die Japaner auch historisch gesehen immer extrem gute Interconnects gebaut haben). Es gibt wohl auch noch einen grossen Push innerhalb von Riken die jetzige Effizienz von ~80% auf die 90% des Vorgaengers zu erhoehen.
Dazu muss man auch sagen, dass die Vektorerweiterung auf dem Fujitsu A64FX (SVE) gerade die Matrizeneinheiten auf Beschleunigern, von manchen Herstellern auch "Tensor Cores" genannt, redundant machen sollten.
Die daraus resultierende European Processor Initiative (EPI) und das französische Unternehmen SiPearl sollen einen europäischen ARM-Prozessor für das High Performance Computing (HPC) Projekt der EU entwickeln.
Warum muss ein mit öffentlichen EU-Geldern finanzierter HPC-Prozessor eigentlich die ARM-ISA verwenden? Hatte die EU nicht einmal beschlossen, überall, wo es möglich ist, offene Technologiestandards einzusetzen? Gerade bei einem EU-Prozessor wäre dann doch von MIPS über OpenPower bis RISC-V alles sinnvoller als ARM. Und OpenPower böte auch Vector-Extensions (wie ARM und X86), die man bei HPC vielleicht haben möchte.
@MountWalker
Es ist eh nur ein Projekt um Steuergelder abzugreifen, also ist die ISA sowas von egal.
@icemanspirit
Ich kann mich nicht erinnern, daß SVE hardwarebeschleunigte Matrizenberechnungen durchführt. Das ist doch, auch für SIMD, erst für ARMv8.6-A vorgesehen?
Ich kann mich nicht erinnern, daß SVE hardwarebeschleunigte Matrizenberechnungen durchführt. Das ist doch, auch für SIMD, erst für ARMv8.6-A vorgesehen?
Ich hatte den Architektur Deep-Dive in diese Richtung ausgelegt mit seinen zwei 512-bit FMAs und dies als Teil der hinzugefuegten Fujitsu HPC ISA Erweiterung angesehen. Ich glaube worauf Du anspielst ist GEMM (General Matrix Multiply) oder?
@icemanspirit
Bzgl. GEMM, ja.
Ich gestehe, daß ich nicht weiß, ob Fujitsu da Funktionalität hinzugefügt hat, deshalb habe ich ja auch gefragt. Ich kenne nur das Arm-Dokument "The ARM Scalable Vector Extension" von 2017 und das, so weit ich mich erinnere, kennt keine Matrizenberechnungen.
An die Dokumentation von SVE2 kommt man ja einfach so leider nicht dran; Du hast das nicht zufällig zur Hand?
Also ob tofud der beste aktuelle Interconnect ist würde ich mal bezweifeln. Klar die Latenzen sind schon echt niedrig aber dafür ist es nen 6d Mesh-Torus. Hat also deutlich mehr Shops als Aries oder Slingshot. Zudem sinkt die effektive Bandbreit bei der Topologie wenn man weiter Routen muss.
Also ich bin mir da bei den Riesen Kisten echt nicht sicher ohne Vergleichstests gesehen zu haben.