News Frontier-Supercomputer: HPE/AMD-System ist das erste westliche Exascale-System

TheCrab · 31. Mai 2022

Geiles Teil, hoffen wir mal, dass die Abwärme auch sinnvoll zum heizen eines Gebäudes genutzt wird. Das würde die Effizienz noch weiter erhöhen.

ghecko · 31. Mai 2022

TheCrab schrieb:
auch sinnvoll zum heizen eines Gebäudes

Eines Gebäudes? Ich hoffe nicht, man braucht da schon eine Kleinstadt um die Energie los zu werden.

DAASSI · 31. Mai 2022

Dass es nicht für das erste Exascale-System gereicht hat, liegt an China. Hier werden seit einem oder gar zwei Jahren bereits zwei Systeme vermutet.

Naja, also wer keine offiziellen Benchmarks laufen lässt, der hat auch nicht das schnellste System. Jeder kann sagen mein Eigenbau-Auto fährt 500kmh, aber ich lasse es nicht testen

Skysnake · 31. Mai 2022

Max007 schrieb:
Was läuft auf solchen Supercomputern?

Alles mögliche läuft auf so Kisten. Das ist extrem diverse.

Max007 schrieb:
Gibt es Szenarien, die die gesamte Rechenleistung über einen längeren Zeitplan benötigen

Ja gibt es. Z.b. Simulationen zur Entstehung des Universums oder LargeEddy Simulationen belegen mal über längere Zeiträume auch komplette Maschinen. Wobei man bei den Exascale Maschinen schauen muss was da noch für ein Problem die ganze Maschine belegen wird. Aber einfach mal nach Gordon Bell Prize schauen. Da gibt es immer gute Kandidaten.

Heutzutage wird aber auch in den klassischen Feldern wie Wetter auf so großen Systemen eher 1000 mal das Wetter für morgen parallel berechnet um eben Statistik zu bekommen wie Stabil ein gewisses Wetter ist.

Auch ansonsten wird sehr viel Variationsrechnung gemacht. Sei es beim Falten von Molekülen oder sonstigen Optimierungsproblemen. Da geht dann schnell extrem viel Leistung drauf. Du hast da aber eher keine großen Probleme. Das würde einfach irgendwann zu teuer werden. Und genau da wird man sehen wie viele große Probleme da wirklich noch gerechnet werden. 1h das "ganze" System bekommen ist halt so langsam extrem teuer. Wobei das "ganze" System irgendwo zwischen 50 und 90% bedeutet. Mehr bekommt man eigentlich nie, weil auch immer irgendwas kaputt geht und eben die Maschine sonst auch leer läuft...

So was muss/will man dann doch auch planen.

Max007 schrieb:
oder ist es eher dazu gedacht, dass da parallel zig Kunden ihre Szenarien berechnen lassen können?

Das ist der Normalfall. Auf so nem 20PFLOP System laufen mal gerne 100+ Jobs parallel. Wobei auch schon auf nem 2 PFLOP System 100 Jobs parallel laufen können. Man geht da eher nach der Anzahl der Knoten. Du kannst bei großen Systemen wie hier davon ausgehen das 90% vom System nur in Tranchen von mindestens einem Knoten rausgegeben werden.

Beim Rest werden dann aber eventuell dann einzelne CPU Cores oder einzelne GPUs verteilt. Wobei das eher bei kleineren Systemen der Fall ist. Habe auch schon ein System mit paar hundert Knoten gesehen, da lief auf der Hälfte der Knoten Single Core Jobs.

Kommt halt extrem auf deine "Kunden" drauf an und wie DU als Betreiber die Maschine betreibst. Also den Job Sheduler. Trick the Sheduler ist bei manchen Forschungsbereichen wie Chemie gerade zu ein Sport wie mir scheint.... du wirst immer irgendwelche High throughput Leute haben die das Spiel spielen. Ich habe da schon alles gesehen. Leute die vermeintlich große Jobs machen um dann innerhalb des Jobs quasi nur einzelne Cores zu verteilen, also quasi nen eigenen Job Sheduler haben... genau wie Leute die alle paar Sekunden den Status des Clusters abfragen um dann "passende" Jobs für die Lücken zu kreieren bis hin zu Leuten die einfach tausende von kleinen Jobs erstellen und damit das System fluten...

Da gibt es quasi alles. Hängt halt immer davon ab was die Leute machen und wie stark das System überbucht ist. Sehr oft werden 10% mehr an Rechenzeit vergeben als vorhanden, damit es zu keinem Leerlauf kommt. Wenn aber alle schön ihre Zeit maximal ausnutzen, weil an sich eh schon zu wenig, dann ist ne Kiste halt immer voll. Das Gleiche passiert auch wenn es mit Beschaffungen Probleme gibt etc.

Bei Prace ist man ja in einem Verbund. Da wird dann auch mal verschoben wenn ein System nicht kommt, damit die Forscher nicht völlig im Regen stehen. Dann ist das System aber vielleicht sogar zu 15 oder 20% überbucht....

Ist nett wenn man vor Abschaltung einer Maschine schon genug Jobs in der Queue hat um das System für zwei Monate länger voll auszulasten...

Dann gibt es aber auch sites wie z.b. Jülich da war/ist es bekannt, dass die Auslastung eher gering ist weil viele große Jobs dort laufen und es damit mehr Lücken gibt. Früher gab es da dann wohl auch mit den BlueGene nicht so das Interesse von Leuten mit kleineren Jobs die Lücken zu füllen bzw kein Interesse so Leute auf die Kiste zu lassen...

Wie du siehst gibt es da fast nichts was es nicht gibt.

Quonux · 31. Mai 2022

Chris_S04 schrieb:
But can it run Crysis?

Hängt von der wine version ab

Ergänzung (31. Mai 2022)

Wattwanderer schrieb:
Bei über Mio sind wir ja bereits im Bereich von unfassbar viel. Daher greifen wir ja auf Fußballfelder zurück statt in mm^2.

Das verschiebt nur die Anzahl der Nullen. Der (Physische) Wert ist immernoch der gleiche, egal welche Einheit. Ein Lichtjahr ist immernoch so lang wie ein Lichtjahr in Meter.

Ergänzung (31. Mai 2022)

[wege]mini schrieb:
Aber ganz klar, die Min0r sind schuld an den Hardwarepreisen.

Hör doch auf damit, am Ende kommen die Menschen noch drauf dass GPGPU auch für Ki workloads genutzt werden kann und wird.

ThirdLife · 31. Mai 2022

Naja, schon nett aber wirkt von den Zahlen halt auch sehr auf Wow gepusht. Insbesondere der Satz "wenn x Mrd Menschen eine Operation". Ja klar, weil die Hardware daheim auch nur eine Op pro Sekunde macht.

Klingt halt nicht mehr ganz so beeindruckend wenn man es so umschreibt: 50-200k Personen die eine 3080 Ti / 6900XT und einen 5950x Vollgas rechnen lassen für eine Sekunde.

Da braucht es keine Jahre.

Quonux · 31. Mai 2022

ThirdLife schrieb:
Ja klar, weil die Hardware daheim auch nur eine Op pro Sekunde macht.

Manuel war gemeint. Und ja, beim mentalen Operationen sind Menschen nicht so schnell.
Dafür können das KI's überhaupt noch nicht.

ThirdLife · 31. Mai 2022

Quonux schrieb:
Manuel war gemeint. Und ja, beim mentalen Operationen sind Menschen nicht so schnell.
Dafür können das KI's überhaupt noch nicht.

Ja, ok. Given.

Aber selbst wenn, damit klingt auch ein iPhone krank spektakulär von den Specs her. Vermutlich sogar ein Toaster-Chip.

Volker · 31. Mai 2022

Artikel-Update: Am Stand von HPE auf der ISC 2022 in Hamburg konnte sich ComputerBase die einzelnen Blades des Frontiere-Supercomputers in einem Glaskasten genauer ansehen. Überaus imposant ist dabei, wie viel Technik auf dem dann vergleichsweise kleinen Raum unterkommt: In einem „Einschub“ stecken zwei Nodes („Knoten“) und damit quasi ein doppeltes System.

Ein Prozessor, mit dem RAM versteckt unter den grünen HPE Slingshot Mezzanine Cards, wird im vorderen Teil von vier wassergekühlten CDNA-2-GPUs flankiert - das ergibt einen „Node“ (Knoten). Und genau das gleiche gibt es im hinteren Teil des Blades noch einmal. In dem Blade stecken damit gleich zwei Epyc-CPUs und acht Grafikkarten (mit jeweils zwei Chiplets).

[Bilder: Zum Betrachten bitte den Artikel aufrufen.]

Nitschi66 · 31. Mai 2022

Interessante Wasserleitungsführung. Hätte man auch kürzer auslegen können - aber oftmals ist der kürzeste weg ja nicht der beste.

Schuhkarton · 31. Mai 2022

Ob solche "Supercomputer" eines Tages einem akturanischen Megaesel alle vier Beine wegdiskutieren können?

Nitschi66 · 31. Mai 2022

HAHAHAHA, @Volker
Was ist denn eigentlich DDR$? Bild 10 von 11. AMD bleibt sich wirklich treu...
Es ist keine offizielle AMD Folie wenn nicht mindestens ein Schreibfehler drin ist.

Wattwanderer · 31. Mai 2022

Staune. Das Kabelmanagement hätte ich professioneller erwartet.

Was außen schon etwas lieblos schien setzt sich also auch im Inneren fort?

Apropos, was sind das für Kabel außen? Der Dicke nach sieht es nach Kupfer aus und nicht nach Faser?

Nitschi66 · 31. Mai 2022

Wattwanderer schrieb:
Apropos, was sind das für Kabel außen?

Wasserleitungen. Deshab auch blau und rot.

FrozenPie · 31. Mai 2022

@Volker

Zwei Prozessoren, versteckt unter den grünen HPE Slingshot Mezzanine Cards, werden im vorderen Teil von vier wassergekühlten CDNA-2-GPUs flankiert. Und genau das gleiche gibt es im hinteren Teil des Blades noch einmal. In dem Blade stecken damit gleich vier Epyc-CPUs und acht Grafikkarten.

Also irgendwas passt da nicht... In der Bildunterschrift heißt es "Ein Frontier-Blade mit 8 GPUs und zwei CPUs" und ich kann auf dem Bild auch nur RAM-Slots für eine CPU pro vier GPUs finden. In einem Blade stecken also zwei Epyc-CPUs und acht Grafikkarten (aufgeteilt in eine CPU pro vier GPUs) und nicht vier Epyc-CPUs.

Edit: Wie ich sehe hast du es gerade schon korrigiert

Wattwanderer · 31. Mai 2022

Nitschi66 schrieb:
Wasserleitungen. Deshab auch blau und rot.

Ah, danke.

Wunderte mich über Dicke, Biegeradius und Farbe.

Hoffen wir, dass man das Rechenzentrum nicht unter Wasser setzt wenn man ein Element rauszieht.

Da sind sicher Ventile? Halten sie zuverlässig die Nutzungdauer eines Supercomputers durch?

Rickmer · 31. Mai 2022

FrozenPie schrieb:
In einem Blade stecken also zwei Epyc-CPUs und acht Grafikkarten und nicht vier Epyc-CPUs.

Ist offensichtlich ein GPU-Blade

So wie in Bild 2 (Folie 16) gezeigt sieht das auch nicht aus, da ist als GPU-Blade ein anderes Layout gezeigt.
Das sind wohl nur die dedizierten CPU-Blades, die mit 4 CPUs daher kommen.

Wattwanderer schrieb:
Hoffen wir, dass man das Rechenzentrum nicht unter Wasser setzt wenn man ein Element rauszieht.

Da sind sicher Ventile? Halten sie zuverlässig die Nutzungdauer eines Supercomputers durch?

Da werden Schnellverschlüsse zum Einsatz kommen, keine Sorge. Das sieht alles nach Edelstahl oder verchromt/verzinkt aus (schwer zu sagen), die paar auf/zu, die es im Leben mitmachen wird, wird das wohl locker wegstecken.

Ich wäre sehr verwundert, wenn sich nicht ein Blade im laufenden Betrieb wechseln läst.

FrozenPie · 31. Mai 2022

Wattwanderer schrieb:
Hoffen wir, dass man das Rechenzentrum nicht unter Wasser setzt wenn man ein Element rauszieht.

Da sind sicher Ventile? Halten sie zuverlässig die Nutzungdauer eines Supercomputers durch?

Das dürften Schnellwechselventile sein, die beim lösen maximal ein paar Tropfen verlieren.
Die Lebensdauer sollte nahezu unbegrenzt sein bzw. die Lebensdauer des Rechners bei weitem übersteigen, wenn man sie nicht gerade im Minutentakt ab- und wieder ansteckt

Rickmer schrieb:
So wie in Bild 2 (Folie 16) gezeigt sieht das auch nicht aus, da ist als GPU-Blade ein anderes Layout gezeigt.
Das sind wohl nur die dedizierten CPU-Blades, die mit 4 CPUs daher kommen.

Wenn ich das richtig sehe, sind auf dem Bild pro CPU-Compute Blade sogar acht CPUs zu sehen. Jetzt von der Anzahl der kupfernen Kühlplatten (zwei werden durch die Slingshot-PCBs verdeckt) und der Positionierung der RAM-Bänke aus geschlossen.

Jan · 31. Mai 2022

FrozenPie schrieb:
Edit: Wie ich sehe hast du es gerade schon korrigiert

Wir waren bei so vielen GPUs, CPUs und der Tatsache, dass HP die CDNA-2-Chiplets teilweise separat zählt, kurzfristig orientierunglos.

bad_sign · 31. Mai 2022

Geil😁

News Frontier-Supercomputer: HPE/AMD-System ist das erste westliche Exascale-System

Lt. Junior Grade

Digital Caveman

Lt. Commander

Captain

Lieutenant

Captain

Lieutenant

Captain

Ost 1

Kreisklassenmeister Pro

Ensign

Kreisklassenmeister Pro

Rear Admiral

Kreisklassenmeister Pro

Ensign

Rear Admiral

Silent-Fanatiker

Ensign

Chefredakteur

Commodore

Ähnliche Themen

Passend zum Thema