News Archer2: Britischer Supercomputer setzt auf 12.000 Epyc-2-CPUs

pathfinder · 16. Oktober 2019

Wem sein Home-PC ist denn bitte so schnell wie aktuelle Supercomputer?
Hier verlieren manche den Überblick über die Realität scheint mir...

Laskaris · 16. Oktober 2019

rg88 schrieb:
Doch, so pauschal kann man es sagen.

Nein, man kann nicht pauschal sagen (wie Du es in Deinem Posting getan hast), dass 64 Kerne für einen Server "nice", aber für eine Workstation "Quatsch" seien. Weil es eben durchaus Anwendungsfälle gibt, wo eine Workstation mit 64 Kernen absolut Sinn macht.

Die Anzahl der Kerne ist eben nur ein Faktor. Die Taktrate der zweite.

Und dann kommen noch Dinge wie Cache, Speicherbandbreite, AVX-512 usw. dazu. Was beispielsweise dazu führt, dass der Intel Xeon Gold 6138 (All-Core Boost mit AVX-512: 20 x 1,9 GHz) beim Molekulardynamik-Simulator GROMACS deutlich besser abschneidet als der Threadripper 2990WX mit seinen 32 hochtaktenden Kernen.

Du wirst mit einem Threadripper bei 4GHz und 40 Kernen IMMER eine höhere Leistung haben als bei 64Kernen und 2,2 GHz.

Ich hatte auch nie das Gegenteil behauptet. Sondern lediglich darauf hingewiesen, dass bei den Klimasimulationsprogrammen, die ich verwende, die Performance wesentlich besser mit der Zahl der Kerne als mit der Taktrate skaliert. Das lässt sich mit Benchmarks belegen.

Oder, um mal ein öffentlich einsehbares Beispiel mit dem Molekulardynamik-Simulator NAMD zu bringen: diese und diese Benchmark von ServeTheHome. Hier ist schön zu sehen, dass der Epyc 7551P (All-Core Boost: 32 x 2,55 GHz) ziemlich exakt die doppelte Leistung bringt wie der Epyc 7281 (All-Core Boost: 16 x 2,7 GHz). Der Threadripper 1950X hingegen hat mit einem All-Core Boost von 16 x 3,7 GHz zwar eine um 37 % höhere Taktrate als der Epyc 7281, ist bei der NAMD-Benchmark aber nur um rund 10 % schneller.

Dazu kommt die bessere Performance-pro-Watt, die der Epyc im Vergleich zum Threadripper hat. In diesem Sinne: Je nach Anwendungsfall ist es absolut sinnvoll, bei einer Workstation lieber auf mehr Kerne als auf höhere Taktraten zu setzen.

Ganz ein anderes Thema. Aber für sowas nutzt man die Leistung in einem Rechencluster/-zentrum und keine Workstation, die dann währenddessen nicht mehr anderweitig nutzbar ist.

Nicht jeder hat genug Rechenzeit bei einem Rechenzentrum zur Verfügung, um mit der dortigen Hardware eine größere Zahl von langwierigen Simulationen vornehmen zu lassen. Es gibt deshalb in den naturwissenschaftlichen Fächern zahlreiche Doktoranden und Profs, die ihre Simulationen auf einer Workstation machen. Oder die mit der Workstation zumindest schon mal "vorrechnen" und dann nur noch die wesentlichen Runs, bei höherer Komplexität der Simulation, im Rechenzentrum machen lassen.

Ein_Freund · 16. Oktober 2019

PickNick schrieb:
Kann der dann auch berechnen wie lange es noch für den Brexit braucht?

Das könnte in per Anhalter durch die Galaxis mehrere Millionen Jahre dauern. Aber es lohnt sich während alle ausgetreten sind sie immernoch drin.

adAstra · 16. Oktober 2019

beercarrier schrieb:
Tja nett, warum aber auf GPU´s verzichtet erschließt sich mir nicht ganz. Gibt es wirklich noch essentielle Berechnungen die auf GPU´s nicht berechnet werden können?

Zunächst einmal beherrschen im Bereich high performance computing vergleichsweise wenige Entwicklerinnen und Entwickler CUDA/OpenCL. Zum anderen halte ich die meisten Forscherinnen und Forscher in den numerisch anspruchsvollen Bereichen eher für konservativ, neue Solver - zum Beispiel mit GPU-Support - müssen ihre Eignung und die Konsistenz mit bisherigen Ergebnissen zunächst umfangreich unter Beweis stellen. All dies ist langwierig und bringt eher wenig Prestige (Stichwort: publish or perish), was die Entwicklung hemmt.

michelthemaster · 16. Oktober 2019

ghecko schrieb:
Läuft richtig gut für AMD. Gerade führt auch kein Weg an Rome vorbei

Alle Wege führen nach Rom ;-)

LG

Micha

zizzler · 16. Oktober 2019

Freut mich sehr, dass AMD immer mehr vom Kuchen abbekommt.

beercarrier · 16. Oktober 2019

KuestenNebel schrieb:
Zunächst einmal beherrschen im Bereich high performance computing vergleichsweise wenige Entwicklerinnen und Entwickler CUDA/OpenCL. Zum anderen halte ich die meisten Forscherinnen und Forscher in den numerisch anspruchsvollen Bereichen eher für konservativ, neue Solver - zum Beispiel mit GPU-Support - müssen ihre Eignung und die Konsistenz mit bisherigen Ergebnissen zunächst umfangreich unter Beweis stellen. All dies ist langwierig und bringt eher wenig Prestige (Stichwort: publish or perish), was die Entwicklung hemmt.

Tja aber auch für Ministerien und Hochschulen gibt es Budgetgrenzen, Simulationen profitieren ja enorm von zusätzlichen Recheneinheiten und parallelisierbar ist in dem Bereich fast alles. Also ehrlich so hätte ich das Teil nicht abgenickt, außer es ist möglich ein paar Jahre später Karten, Stromversorgung und Kühlung nachzurüsten.

Bigeagle · 16. Oktober 2019

beercarrier schrieb:
Tja nett, warum aber auf GPU´s verzichtet erschließt sich mir nicht ganz. Gibt es wirklich noch essentielle Berechnungen die auf GPU´s nicht berechnet werden können?

Reichlich, sofern man nicht essentiell als 'relativ anspruchslos parallelisierbar und mit wenig abhängigkeiten' definiert. Viel I/O, viele Abhängigkeiten im Code ... also genau genommen ließe sich wohl inzwischen fast alles mit GPU-Anteil berechnen, aber es wäre teils langsamer und mit erheblichem Mehraufwand verbunden. Also macht man es einfach nicht.

rg88 schrieb:
Du wirst mit einem Threadripper bei 4GHz und 40 Kernen IMMER eine höhere Leistung haben als bei 64Kernen und 2,2 GHz.

Öhm ... nö? I/O gebundene Tasks, alles wo irgendeine vorgelagerte I/O Bandbreite ausbremst (Massenspeicher, Netzwerk (darunter auch die Node Interconnects) oder RAM) und da gibts durchaus immer wieder auch praktisch relevante Berechnungen. Höhere Rohleistung übersetzt sich eben nur in höhere Endleistung wenn das nicht vorher durch irgendeinen Flaschenhals limitiert wird.

beercarrier schrieb:
Tja aber auch für Ministerien und Hochschulen gibt es Budgetgrenzen, Simulationen profitieren ja enorm von zusätzlichen Recheneinheiten und parallelisierbar ist in dem Bereich fast alles.

Schon, aber bis man 100 Entwicklerstunden über die Einsparungen an der Hardware wieder reinhat muss man auch einiges an Rechenzeit einsparen. Wie siehts denn momentan aus mit größerer Fortran Codebasis auf die GPU bringen?
CPU ist einfach der altbewährte Allrounder der 'einfach funktioniert' während GPU der immer noch neuere Beschleuniger für eher spezifische Codeanteile ist. Es braucht eine andere Sprache, anderen Compiler und verhält sich ganz anders, die ganze Optimierung der letzten Jahre oder Jahrzehnte im bestehenden Code wäre nutzlos und man kann auch viele Erfahrungen aus dem CPU Bereich nicht anwenden. Immer vorrausgesetzt der Code eignet sich überhaupt für die schnellere Ausführung auf der GPU, was man ja im zweifelsfall erstmal ausprobieren müsste mit vergleichsweise hohem Aufwand.
Einfach nur ganz viele Grafikkarten in den Cluster stecken um hohe Zahlen bei Effizienz und Peak FLOPS zu erreichen führt öfter nur dazu dass die dann weitgehend ungenutzt im Rack hängen und Leerlaufstrom fressen.

Es stimmt dass sehr vieles im HPC Umfeld parallelisierbar ist, aber nicht notwendigerweise nach SIMD Prinzip. Ich kenne mich nicht aus was aktuelle GPUs angeht, können die effizient mit jedem Kern unterschiedliche Daten mit unterschiedlichen Anweisungen bearbeiten? Es reicht ja schon wenn die Threads asynchron laufen. Unter umständen geht denen dann einfach der Cache aus und die Speicherbandbreite oder Latenz limitiert, was die Leistung dann wieder in oder unter CPU Niveau zurückwerfen kann.

PS828 · 16. Oktober 2019

Immer wieder spannend zu lesen welche Mengen da verbaut werden

bedenkt man wie viele wafer man beim aktuellen yield braucht sieht man wie die auslastungen der fabs zustande kommen. Schon weil das ja nicht der einzige Auftrag ist und neben supercomputern auch Enterprisekunden, Privatleute und OEMs ihre Chips möchten.

Immerhin fallen so auch immer Teildefekte chiplets an sodass immer genügend da ist für die kleinen Ryzen und EPYC

max9123 · 16. Oktober 2019

Laskaris schrieb:
Und dann kommen noch Dinge wie Cache, Speicherbandbreite, AVX-512 usw. dazu. Was beispielsweise dazu führt, dass der Intel Xeon Gold 6138 (All-Core Boost mit AVX-512: 20 x 1,9 GHz) beim Molekulardynamik-Simulator GROMACS deutlich besser abschneidet als der Threadripper 2990WX mit seinen 32 hochtaktenden Kernen.

Glücklicherweise hat sich hier Zen2 stark verbessert. Trotzdem, es gibt nicht die beste CPU, sondern nur die beste CPU für den jeweiligen Einsatzzweck.

Corto · 16. Oktober 2019

pathfinder schrieb:
Wem sein Home-PC ist denn bitte so schnell wie aktuelle Supercomputer?
Hier verlieren manche den Überblick über die Realität scheint mir...

Und wieder andere haben den Genitiv bereits verloren.

WESSEN !

rentex · 16. Oktober 2019

Endlich können sie den BREXIT, genauer durchrechnen😁

adius · 16. Oktober 2019

INTEL's Antwort dazu

Benchmark's finde ich sowieso immer überbewertet...seit mein Rechner immer langsamer weil älter wird.

PS828 · 16. Oktober 2019

adius schrieb:
INTEL's Antwort dazu

Anhang anzeigen 831666

Benchmark's finde ich sowieso immer überbewertet...seit mein Rechner immer langsamer weil älter wird.

Nichts anderes habe ich von Intel erwartet. Wobei ich mich frage wo sie jetzt mit ihrer real World Performance herkommen, wo doch die real World Performance bei Server CPUs durchaus damit beginnt Monate lang durchzurechnen auf maximaler last. Aber ist halt doof wenn man selbst nichts anbieten kann

pathfinder · 16. Oktober 2019

Corto schrieb:
WESSEN !

Tut mir Leid, bin Ausländer. Hab trotzdem Abitur.
Wäre schön, wenn einer auf den Inhalt eingeht und nicht auf Rechtschreibung.

Hias_L · 16. Oktober 2019

Bin auf die Quartalszahlen von AMD am 22.10.19 gespannt.
Hoffentlich konnten die ganzen CPUs schon eingerechnet werden.

Corto · 16. Oktober 2019

pathfinder schrieb:
Tut mir Leid, bin Ausländer. Hab trotzdem Abitur.
Wäre schön, wenn einer auf den Inhalt eingeht und nicht auf Rechtschreibung.

war doch nur spaß, nix für ungut

News Archer2: Britischer Supercomputer setzt auf 12.000 Epyc-2-CPUs

Banned

Ensign

Commander

adAstra

Gast

Lieutenant

Cadet 2nd Year

Lt. Commander

Lt. Commander

Der Flieseninspektor Pro

Cadet 4th Year

Commodore

Captain Pro

Lt. Commander

Der Flieseninspektor Pro

Banned

Lieutenant

Commodore

Ähnliche Themen

Passend zum Thema