Bericht Hazel Hen: Zu Besuch bei Deutschlands schnellstem Supercomputer

@Kowa
Wenn du X Threads an einem Problem rechnen lässt, dann musst du die Daten ja zwangsweise aufspalten und verteilen sowie am Ende wieder zusammenführen. Ohne Kommunikation geht es da nicht. Das wird all zu oft beliebig komplex und die Kommunikation zwischen Threads bzw. Knoten zum Flaschenhals. Bei so großen Rechnern ist es daher durchaus üblich, dass mehrere Probleme, die voneinander unabhänig sind gleichzeitig auf den Rechnern laufen. Daher es arbeiten weniger Threads an einem Problem, die Verwaltung und Kommunikation wird aber einfacher. Klimasimmulationen machen sich da ganz gut. Die lässt man überlicherweise eh mehrmals laufen. Je mit abweichenden Modellen, Eingangswerten und sonstigen Parametern.
Bei einigen Dingen ist es auch so, dass die sich nur sehr schlecht parallelisieren lassen, im schlimmsten Fall läuft dann eben nur ein Knoten mit einem solchen Problem. Dafür hat man aber ein paar hundert Knoten um je Varianten dieses Problems zu lösen.
Probleme die auf knapp 200k Threads gut skalieren sind hingegen nicht die Regel*

Direkte Wasserkühlungen in Rechenzentren sind seit vielen Jahren auf der Mode gekommen. Der initiale Aufwand, die Wartungskosten als auch die Energieeffizienz solcher Lösungen ist einfach vergleichsweise schlecht. Zudem braucht es parallel immer trotzdem noch eine Luftkühlung in jedem Rack, um den Kleinkram der Mainboards zu kühlen. Da hat man dann fix 2 separate Kühlsysteme.

* Mit einem ganz großem "es kommt drauf an"

########################################

Zur Diskussion der "nicht militärischen" Projekte.
Da gibt es in der Regel Leitlinien, die in den Hochschulgremien formuliert wurden und anhand derer wird entschieden. Wobei es immer Möglich ist zweifelhafte Fälle sowas fröhlich in div. Gremien und Ausschüsse eskaliert wird. Wobei sich diese in der Regel aus Professoren, Hoschulmitarbeitern und Studenten zusammen setzen.
Das gibt immer mal wieder üble Diskussionen, ob nun das Dronenprojekt mit 1.000kg Traglast zur Aufklärung von Krisengebieten nach Naturkatastrophen als ziviles Projekt zu werten ist, oder ob die Möglichkeit einer militärischen Zweitverwertung ausreicht um ein solches Projekt unter die "keine militärische Forschung"-Klauseln fallen zu lassen. Es ist jedem Studenten nur zu empfehlen sich in solchen Gremien zu engagieren. Danach wundert man sich dann, wie das mit der Demokratie im Bundestag und der EU überhaupt so gut klappt wie es klappt :freak:
 
@Kowa

BONIC ist ja ähnlich denke ich ......Privat Computer rechnen und dann wird alles auf den Hauptrechner geleitet quasi auch ein Supercomputer
 
dienst schrieb:
Ich denke mittlerweile baut man lieber Grafikkarten in die Supercomputer ein, weil die Vektoroperationen gebraucht werden.
Eigentlich baut man schon lieber CPUs ein, da einfacher zu kühlen, mehr Arbeitsspeicher und günstiger in der Anschaffung. Und in vielen Fällen ist die Software schlicht nicht als GPU-Version verfügbar. Wir haben mal Tests gemacht, wo wir zwar ne 2-5fache Beschleunigung erreicht haben, dafür aber ein mehr als 20-facher Stromverbrauch.

Kowa schrieb:
Ich frage mich immer, was das für Berechnungen sind. Offenbar lassen sich diese auf 185.088 Cores parallelisieren. Aber wenn es sich so stark parallelisieren läßt, dann braucht man doch auch nicht einen großen Rechner, sondern kann kleinere Einheiten kaufen? Bleiben also Berechnungen, die parallel laufen, aber untereinander kommunizieren müssen?
Nein, da laufen nicht alle Cores gleichzeitig mit einem Programm. Da laufen tausende Projekte gleichzeitig und benutzen entsprechend weniger CPUs.
Das läuft gewöhnlich über unterschiedliche Queues, die je nach Art der Ressourcenanforderung, z.b. wenig Cores mit viel Ram, viele Cores mit wenig Ram, Rechnungen über mehrere Nodes, Rechnungen die in Sekunden fertig sind, Rechnungen die Monate laufen müssen, bei uns gibt es auch Queues, speziell für Nodes mit GPU und viele mehr, je nach Anwendungsbereich.

Aber als kleine Anekdote: während eines Auslandaufenthaltes habe ich auch eine Rechnung abgeschickt und für diese 4 CPUs reserviert, aber aufgrund einer fehlerhaften Input-Datei und des schlecht verwalteten Hostsystems hat sich mein Programm verselbstständigt und irgendwann alles abgegriffen was gerade frei wurde, so dass mein Prozess am Ende über 1000 CPUs benutzt bzw blockiert hat (99% aller CPUs) und dann niemand anderes was rechnen konnte :D Bei professioneller-gewarteten Systemen soll das natürlich nicht passieren ;)

Aber dass durch mehr Cores die Rechnung schneller fertig wird, ist Irrglaube. Denn dementsprechend steigt auch der Kommunikationsaufwand im Netzwerk. Da haben wir auch Tests gemacht, in denen sich zeigte, dass die selbe Rechnung irgendwann sogar langsamer wurde je mehr Cores man dazu nahm. Eine 4h-Rechnung dauerte dann auf einmal 3 Tage.
Es hat schon einen Grund, dass die Anschaffungskosten für die Netzwerkhardware solcher Cluster teilweise teurer ist als die Knoten selbst.

Und wie schon erwähnt, die Anwendungszwecke sind auch ganz unterschiedlich und dementsprechend auch die Anforderungsprofile. Ich z.b. arbeite an Programmen für quantenphysikalische Rechnungen, die sehr speicherintensiv sind und sich verhältnismäßig schlecht paralleliseren lassen. Da laufen die Rechnungen eher mit 1-64 Cores, dafür mit bis zu 512GB RAM. GPUs sind da bisjetzt gänzlich ungeeignet.
Aber gerade eher klassisch physikalische Probleme und Simulationen wie sie auch hier im Bericht erwähnt werden, lassen sich deutlich besser parellelisieren.
Und was auch oft ein Problem ist, dass gerade im wissenschaftlichen Bereich die Software häufig intern entwickelt wird/werden muss (wie bei mir auch) und deshalb selten richtige Informatiker dran sitzen. Dementsprechend unterschiedlich ist auch die Qualität der Implementierungen.

Übrigens sind bei solchen Rechnern weniger die Anschaffungskosten als die Betriebskosten relevant.
 
BONIC ist ja ähnlich denke ich ......Privat Computer rechnen und dann wird alles auf den Hauptrechner geleitet quasi auch ein Supercomputer

wobei die Heim-PC´s im Vergleich wesentlich ineffizienter sind. HDD/SSD, GPU, NT im ideal Bereich etc. pp. Heim SC kann man das auf das wesentliche CPU+RAM runterbrechen.

Was die Kühlung angeht, schöne wäre in diesem Bereich eine Entwicklung hin zu einem komplett unter Flüssigkeit liegenden System. Bei enstrepchender Viskosität und Thermik wäre eine perfekte Kombination aus Luft und Wasser-Kühlung gefunden.
 
Danke sehr interessant, hätte gedacht die kühlen mit einem Wasserkreislauf direkt?!

Dann können sie ja jetzt auf Epyc umsteigen, damit würde man auch deutsche Arbeitsplätze in Dresden/GF supporten.

mfg
 
P4ge schrieb:
[...]
Was die Kühlung angeht, schöne wäre in diesem Bereich eine Entwicklung hin zu einem komplett unter Flüssigkeit liegenden System. Bei enstrepchender Viskosität und Thermik wäre eine perfekte Kombination aus Luft und Wasser-Kühlung gefunden.

Ich lade dich recht herzlich zum nächsten Admistratoren / Systemtechniker Deathmatch ein. Es wird im Modus "Last man standing" vorgegangen, die Teamaufteilung lautet: Du gegen álle Anderen. Die Admins haben rootrechte und damit Zugriffe auf alle Waffen, du nicht :P

Im Ernst, es gibt solche Systeme mit dünnflüssigen, synthetischen Ölen und auch verflüssigten Halogeniden in die die Hardware eingelegt wird und genauso gibt es Gründe wieso diese Systeme so extrem selten sind.

#####################################

Epyc wird noch eine Weile brauchen bis es in solchen Rechenzentren landet. Von der Ausschreibung bis zur Umsetzung vergehen Jahre und AMD hatte zu letzt so miese Hardware und vor allem auch Software, dass die sich erst wieder hoch arbeiten müssen.
 
Zuletzt bearbeitet:
oldmanhunting schrieb:
Sehr interessant und Danke dafür!

Frage mich (als Laie) wie die Software dafür aussieht, wenn so extrem parallelisiert gerechnet wird.

Grob gesagt sieht das für gitterbasierter Probleme (z.B. eine Temperaturverteilung auf einem Körper berechnen) zum Beispiel so aus:

- Man benutzt ein numerisches Verfahren um das diskretisiertes Problem zu lösen (z.B. FEM). Häufig muss man dabei lineare Gleichungssysteme lösen, was auf der ganz großen Skala nicht wie in der Schule mit Varianten vom Gaußverfahren (direkt) geschieht, sondern indem man schrittweise immer bessere Näherungslösungen ausrechnet ("interativ").
- Das numerische Verfahren besteht u.a. aus elementaren Teilschritten wie z.B. Additionen und Skalierung von Vektoren oder Matrix-Vektor Produkten, die sich parallelisieren lassen und die im Idealfall den Hauptaufwand ausmachen. Sie müssen meistens sehr oft hintereinander ausgeführt werden.
- Die auf den Gitterknoten definierten Daten (Vektoren, Matrizen) werden in parallele Datenstrukturen gespeichert (z.B. Domain Decomposition, d.h. beim Wärmeleitungsproblem könnte man unterschiedliche räumliche Regionen des Körpers verschiedenen Prozessen zuordnen und die Daten dementsprechend verteilen).
- Jeder Prozess rechnet den Teilschrittes nach Erhalt der Daten nur auf seinem eigenen Teil der verteilten Daten aus (das sollte am besten ohne große Kommunikation möglich sein, eine Vektoraddition oder Skalierung kann z.B. komplett ohne Kommunikation ablaufen).
- Falls nötig, werden die Ergebnisse des Teilschritts danach an die anderen Prozesse verschickt.

Verteilte Datenstrukturen kann man in C++ z.B. mit Trilinos Epetra verwalten. Kommunikation erfolgt meistens mit dem MPI Framework und ist möglichst zu begrenzen! Die Berechnungsroutinen können dann im Prinzip bis auf die Kommunikation aussehen, wie wenn das ganze Problem mit einem einzigen Prozess gelöst werden würde. Oft wird für sie C++ oder Fortran benutzt.

Manchmal nimmt man auch mehr Interationen in Kauf, um in den Algorithmen mit Näherungen zu rechnen, die weniger Kommunikation benötigen (z.B. additive Schwarz Methode für lineare Gleichungssysteme), weil es trotzdem schneller geht.

Beispiel für häufige Szenarien im Ingenieurwesen
- Feldproblem ohne Fernwirkung (etwa mechanische, thermische oder strömungsmechanische u.U. gekoppelte Probleme)
- Finite Elemente oder Finite Volumen zur räumlichen Diskretisierung
- Finite Differenzen zur zeitlichen Diskretisierung
- Newton-Raphson Verfahren zur interativen Lösung für nichtlineare Probleme
- Mehrgitterverfahren für die Lösung von den dabei auftretenden sehr großen linearen Gleichungssystemen

Ist ein sehr interessantes Gebiet!
 
@Piktogramm

Wieso so gemein? Das ist ernst gemeint gewesen.
Supercomputer produzieren enorme Mengen an Abwärme, gleichzeitig ist ihr nutzen nich ganz unnütz. Mit "eingelegter" Hardware könnte man die Abwärme noch effektiver nutzen. Photothermie-Brenner-KWK*** usw.


Das die Abwärme weitergenutzt wird finde ich super, aber auch dort kann man weiter forschen.
 
@P4ge

War nicht gemein gemeint. Sollte nur anders als die zigmal im Thread ausdrücken, dass jedwede Verfahren die von Luft als direktem Kühlmedium abweichen unglaublich aufwendig und damit schlicht und ergreifend nicht wirtschaftlich sind. Die paar Prozent an gesteigertem Ertrag von Nutzwärme gleichen diesen Aufwand nicht aus.
Typische dünnflüssige, synthetische Öle bedeuten in Bereichen wo Starkstrom anliegt eine enorme Brandlast. Diese Brandlast begegnet man typischerweise indem man den ganzen Raum mit Stickstoff flutet und/oder die Öle mit Halogenen beaufschlagt was die Brühe recht umweltgefährdend werden lässt. Die Implikationen und Auflagen zum Umwelt- und Arbeitsschutz sind enorm. Der Aufwand für den Aufbau und Wartung ist katastrophal und der Nutzwert im Vergleich ein Witz. Zudem dürfte die Kühlflüssigkeit kaum über 40-50°C warm werden, da man ja die Hardware kühlen will. Man braucht damit weiterhin Wärmepumpen um auf Temperaturen zu kommen, die als Prozesswärme sinnvoll einsetzbar sind.

An solchen Dingen wird geforscht, deswegen sind heutige Rechenzentren auch wesentlich effizienter als Früher. Die aufwändigen Flüssigkühlsysteme von früher haben dazu geführt, dass das Kühlsystem 50-100% der Energie der gekühlten Rechner zusätzlich benötigte. Moderne Rechenzentren sind heute oft bei 5-30%, ohne das man die für Heizzwecke zurückgewonnene Wärme gegenrechnet. Stand der Technik / Forschung ist aber eben genau so wie es da in Stuttgart gebaut wurde.
 
Am LRZ gibt es 1x im Jahr den Tag der offenen Tür (also am gesamten Forschungscampus Garching bei München, inkl. TUM, Max-Planck, ESO usw.). Da gibt es öffentliche Führungen durch den Rechner der übrigens 2019 spätestens erneuert wird (Ausschreibung läuft gerade).

Alle 3 Supercomputer in Deutschland sind in einem gemeinsamen Verband und bekommen entsprechende Geldmittel vom Bund, so dass, alle 2 Jahre ein Supercomputer ersetzt wird. Da es eben Round-Robin ist, somit alle 6 Jahre pro Standort.

Im übrigen wird am LRZ eine Warmwasserkühlung benutzt und dort werden die CPUs und der RAM direkt gekühlt und die Abwärme u.a. dafür genutzt das Institutsgebäude zu "heizen" (es ist keine richtige Heizung, aber die Abwärme wird zumindest teilweise genutzt). Dafür gab es, meinen Informationen zu folge, auch schon entsprechende Green Energie Preise.

@Kowa: Es gibt fast keine Software die wirklich alle Cores auslastet und selbst wenn, die Supercomputer berechnen in der Regel mehrere Projekte parallel. Als Forscher wird dir eine entsprechende Anzahl an Nodes zugewiesen. Es wäre ja auch fatal, wenn dein Programm abstürzt und der komplette Supercomputer hätte umsonst gerechnet. Oder wenn eine Node ausfällt und dann alles von vorne berechnet werden müsste. Noch dazu skalieren eben die meisten Probleme nicht so gut.
 
Sithys schrieb:
Wieviel PHs der wohl zum Minen zur Verfügung hätte 🤤

Das war auch mein erster Gedanke. Der zweite war "128GB RAM pro Xeon!? Und ich dachte schon die 8GB-Smartphones sorgen für die Speicherknappheit..." :evillol:
Ergänzung ()

C4rp3di3m schrieb:
Dann können sie ja jetzt auf Epyc umsteigen, damit würde man auch deutsche Arbeitsplätze in Dresden/GF supporten.

mfg

Na ja nur indirekt. Glaube nicht dass EPYC in Dresden gefertigt wird. Da sind eher GPUs und SoCs am Start (Erinnere mich an die Erzählung meines Kumpels, der dort im Sommer für acht Wochen ausgeholfen hat und einmal einen Wagen mit Wafern rumschob, auf denen statt der normalen Nummer nur "XXX" stand. Passte vom Zeitpunkt perfekt zum Shrink des XBox One-SoCs.) Da man in DD auch den 12nm FDX und in Zukunft evtl auch den 7nm-Prozess herstellen will, mit welchen eMRAM produziert wird, tippe ich stark auf SoC-Produkte, die hier entstehen und weniger auf die CPUs selbst, da tippe ich eher auf Malta, New York.

Ich könnte auch mal meinen Bekannten fragen, der arbeitet bei GF, vielleicht weiß er was wo hergestellt wird.
 
Zuletzt bearbeitet:
Kowa schrieb:
Zu den Kosten ist leider nur wenig zu erfahren.

In Stuttgart schreibt man dazu:

...

„Nach vier, fünf Jahren ist ein System veraltet – vor allem, weil es zu viel Strom verbraucht“, berichtet Resch. Hazel Hen genehmige sich 3,1 Megawatt – pro Stunde.

Ziemlich peinlicher Lapsus wenn eine Wissenschaftsjournalist am Werk gewesen sein sollte. :)

Mein Porsche verbraucht 300 PS - pro Stunde???

Frustrierend wie sich der Fortschritt verlangsamt hat. Es gab mal Zeiten da war die Technik schon veraltet wenn das nagelneue System das erste mal eingeschaltet wurde.

Ansonsten, schon erstaunlich, dass man mit weniger als 5MW einen der schnellsten Supercomputer betreiben kann.
 
Das die Dinger zu dem Zeitpunkt veraltet waren, wenn die offizielle in Betriebsnahme stattfand war eigentlich nie so. Es mag eine Zeit gegeben haben, wo es häufiger neue Systeme gab, die die Top500 Liste ordentlich durchgemischt haben. Aber nur weil jemand noch mehr Geld in die Hand nimmt und noch ein dickeres System in die Landschaft stellt veraltet ein System nicht.

Derzeit ist es bei vielen öffentlichen Großrechnern einfach nicht mehr in Mode das dickste Ding überhaupt zu erwerben, es wird viel eher eine Strategie gefahren, die ein bis zwei Erweiterungen über die gesamte Betriebszeit vorsieht. Damit reißt man keine Top Platzierungen mehr, aber hat dennoch dauerhaft sehr gute Kisten dastehen.
 
Wattwanderer schrieb:
Frustrierend wie sich der Fortschritt verlangsamt hat. Es gab mal Zeiten da war die Technik schon veraltet wenn das nagelneue System das erste mal eingeschaltet wurde.

Ansonsten, schon erstaunlich, dass man mit weniger als 5MW einen der schnellsten Supercomputer betreiben kann.

Wachstum ist in einem geschlossenen System nun mal nicht unendlich möglich. Solange wir auf diesem Erdklumpen durch's Weltall kreisen müssen wir uns darauf beschränken was er uns bietet. Sollte man wissen und akzeptieren, wenn man sich schon über normale Formulierungen wie "Strom verbrauchen" aufregt :p
 
Dann geht mal schauen, was der aktuelle Schweizer "Piz Daint" verbraucht :)
 
Soll in naher Zukunft nicht ein viel schnellerer Supercomputer in DE gebaut werden? Oder war das EU? Hatte da mal was gelesen, was ich aber nicht mehr finde.
 
Zurück
Oben