News EuroHPC „Leonardo“: Ampere macht aus 200 PetaFLOPS rund 10 ExaFLOPS

SVΞN

Redakteur a.D.
Registriert
Juni 2007
Beiträge
22.747
  • Gefällt mir
Reaktionen: andi_sco, M1812M, Makso und 3 andere
Techp*rn vom Feinsten :)
 
But can it run Crysis?! :D

Aber schon krass, was für Leistung da mittlerweile zustande kommt.
 
  • Gefällt mir
Reaktionen: flo.murr, Coeckchen und TøxicGhøst
Da sind die ganzen RTX30** Chips hin :D
 
  • Gefällt mir
Reaktionen: C4pTuReD, Ops, andi_sco und 19 andere
  • Gefällt mir
Reaktionen: Popey900, SyntaX, Makso und 2 andere
slow_snail schrieb:
But can it run Crysis?! :D
Tatsächlich eher nicht, weil es ja eigentlich nur einen CPU-Kern und einen zweiten zerquetschten benutzt. Schon bitter.
 
  • Gefällt mir
Reaktionen: Makso
Das heißt da kommen diese A100 Dinger mit EPYC CPUs+ Ampere GPUs zum Einsatz?

Da ist mächtig Leistung dahinter. Ziemlich beeindruckend
 
A100 sind doch AMD CPUs oder?
 
cele schrieb:
oder sie haben von den tausenden bestellten Karten 15 geliefert gekriegt^^
Hahaha😂😂..wenn es dann nicht mit dem Impfstoff klappt, wissen wir ja...das wir Jensen "Lederjacke" auch dafür die Schuld geben können.😁
 
But can Lederjacke Ampere liefern? 👀

Im Ernst, 10 ExaFlops 😮
 
@SV3N Der Artikel sollte klarer unterscheiden. Im ersten Paragraph werden von ExaFLOPS und weiter unten von PetaFLOPS gesprochen. Dabei sind zwei ziemlich verschiedene Größen gemeint: NVidia spricht von FP16-FLOPS. Die Top500 nutzt FP64-FLOPS als Metrik.
 
domian schrieb:
Das hat so nen 🧔...

Solang nix Deutlich überragenderes kommt wird es eben standart bleiben :D
Crysis war Technisch ein Meilenstein und was Physik angeht bieten heutige Shooter meistens nichtmal 10% Dessen. Die KI war überragend für den Zeitpunkt teils sogar bis heute und es gab sogar Multi Core Support^^

Es war in so vielem so viel besser als andere shooter zu der Zeit, sonst würde heute keiner davon Reden, so wie vom Rest wie UT3, Enemy Terretory: Qake wars, Medal of Honor Airborne und viele mehr.

Und ich Empfand dieses spiel damals als 16 Jähriger als extrem Immersiv. Ich hab bis auf Halo, Rust und Arma keinen Shooter länger gespielt :D. Ich kann mich noch erinnern als man mit diesem Heliflieger abgesetzt wird und in Artilleriebeschuss gerät, was für ein Mittendrin gefühl :D
Und die Musik war auch sehr Passend.

Dazu hab ich noch Hunderte Stunden im Editor versenkt :D Man konnte damit soooo viel machen.

Das einzig Schlechte an Crysis is Crysis 2 und 3 :D
 
Finde es jaemmerlich das einzig in der EU nichts zustande gebracht wird von wegen Super Skalar Computer,
nein wir brauchen Nvidia, Intel und Amd.

Achso ARM als Lizenzgeber ging ja auch an ein US Unternehmen, genauer Nvidia.
Wir in der EU haben wirklich nur Waschlappen in diesem Bereich. 🤦‍♂️
 
  • Gefällt mir
Reaktionen: Strahltriebwerk
@seth777 Selbst wenn ARM damals nicht an die Japaner und jetzt nicht an die Amerikaner verkauft worden wäre, wäre es heute kein Unternehmen aus der EU mehr. So wie's aussieht, sogar bald aus einem Drittstaat ohne Handelsabkommen. :-|
Außerdem kann man bei ARM (im Gegensatz zu den anderen genannten Firmen) keine fertigen Chips kaufen. Das ist wohl wohl auch eine Hürde. Im Kern gebe ich dir aber recht.
 
PS828 schrieb:
Das heißt da kommen diese A100 Dinger mit EPYC CPUs+ Ampere GPUs zum Einsatz?

Da ist mächtig Leistung dahinter. Ziemlich beeindruckend
Nein, steht doch im Artikel.

Atos BullSequana XH2000
HPE Apollo 6500

Das sind custom systeme die auf die größe von 1-3 Racks ausgelegt sind. Also eigene MAinboards, eigene Chassis, eigene Power distribution eigene Kühlung etcpp. Bei Atos Bull könnte man auch ein von Ihnen entwickeltes Netzwerk (Bull BXI) nehmen oder halt wie hier Mellanox. Das wird von HPE auch verwendet werden in der Apollo Serie.
 
  • Gefällt mir
Reaktionen: PS828
mgr R.O.G. schrieb:
Im Ernst, 10 ExaFlops 😮
nullPtr schrieb:
@SV3N Der Artikel sollte klarer unterscheiden. Im ersten Paragraph werden von ExaFLOPS und weiter unten von PetaFLOPS gesprochen. Dabei sind zwei ziemlich verschiedene Größen gemeint: NVidia spricht von FP16-FLOPS. Die Top500 nutzt FP64-FLOPS als Metrik.

@mgr R.O.G. @nullPtr @SV3N
Man sollte das noch genauer spezifizieren, es sind nämlich auch nicht beliebige FP16 Ops, die NVIDIA hier referenziert!

Bei 14k A100 kommt man Richtung 10 ExaFlops nur mit TF16, das sind die TensorFloat FP16 Ops und selbst dann auch nur mit Sparsity, ohne Sparsity wären wir bei der halben Leistung (und die Regel in der Praxis ist eher, dass die Masse an Berechnungen nicht sparse sind).

Außerdem steht im NVIDIA Whitepaper zum A100 ganz klar:
Peak rates are based on GPU Boost Clock
Es müssten in einem Lastszenario also alle 14k A100 parallel boosten und das über einen langen Zeitraum, damit die volle Leistung auch wirklich dauerhaft für KI-Experimente zur Verfügung steht.

Wenngleich die Leistung trotzdem brachial ist, so kann ich zumindest von Volta & Turing aus der Praxis berichten: die tatsächliche Performance liegt bei KI-Experimenten deutlich unter dem Peak. Das liegt alleine schon daran, dass die Peak-Leistung nur die theoretisch möglichen Ops misst. In der Praxis hängt das aber natürlich sehr stark an Daten-Input, Netzwerkgeschwindigkeit, konkreter Simulation (gibt es überhaupt genug Ops, die gerade derart parallelisiert werden können?) usw.

Die A100 TensorCores beschleunigen TF16 ja so stark, weil ein TensorCore 256 FP16 FMA (fused multipy add) Ops pro Takt berechnen kann, was effektiv in einer 8x4x8 MixedPrecision Matrix mündet. Was aber, wenn ein Rechenschritt im KI-Modell >256 FMA Ops benötigt und/oder mehr als 8x4x8. Das passiert in der Praxis durchaus und dann passiert das gleiche wie bei Parallelisierung auf CPUs -> nicht alle TensorCores können 100% ausgelastet werden und manche idle'n auch mal, weil sie auf die Ergebnisse von anderen warten, die mehr als 1 Takt für die Berechnung brauchen.
 
  • Gefällt mir
Reaktionen: Ryoukou, nullPtr und BlueBringer
Zurück
Oben