News Instinct MI100: Die schnellste FP32/FP64-Karte kommt von AMD

Volker · 16. November 2020

Mit der Instinct MI100 greift AMD im HPC-Segment Nvidias A100 an. Den Fokus rückt der Hersteller dabei primär auf FP32 und FP64, wobei die neue Profi-Karte bei FP64 die weltweit schnellste Lösung sein soll. Die Vergleiche zu Nvidias Ampere-Generation sind trotzdem nicht einfach, denn Nvidia sucht ihre Stärken im Int8-Bereich.

Zur News: Instinct MI100: Die schnellste FP32/FP64-Karte kommt von AMD

Termy · 16. November 2020

So schön die Karte ist, so sehr muss auf jeden Fall erstmal die traurige Dominanz von CUDA gebrochen und breiter auf OpenCL/OpenML und co gesetzt werden.

Tawheed · 16. November 2020

Rocm scheint ja langsam in Fahrt zu kommen. Fürs HPC scheint die Karte sehr interessant, besonders wenn FP64 wichtig ist.

troyan · 16. November 2020

A100 bietet 19,5 TFLOPs FP64 Leistung über die TensorCores. Die Aussage in der Überschrift ist falsch. MI100 bietet nur mehr FP32 Leistung. Das sollte korrigiert werden.

PS828 · 16. November 2020

Sehr coole Karten. Und gute Skalierbarkeit. Auch das kann relevant sein. So können sich die Karten den RAM Teilen und wenn man vier davon zusammen nutzt geht die Sonne richtig auf

Der Preis ist tatsächlich Recht günstig, wichtig ist jetzt auch die Software Unterstützung^^

Fritzler · 16. November 2020

Doch spätestens ab hier wird das Bild verwaschen, denn nun gibt es diverse Spezialfälle und Umgebungen. AMD gibt beispielsweise FP32 (Matrix) mit 46,1 TFLOPs an, Nvidia hingegen mit TF32 (als neuer Standard für FP32-Operationen) 160 TFLOPS

Der TF32 ist ja auch Beschiss pur!
Mit 10 Bit Precision ist das nichtmal in der Nähe von float32, sondern ist eher ein float16.
Natürlich geht das dann ab wie Schmidts Katze.
Nur eben unterm Beschissname, der irreführend "32" im Namen hat.
Im Nachbarthread zu den 80GB HBM habt ihr da ja son schönes Übersichtsbild eingefügt.

onkel_axel · 16. November 2020

Geht so.
Aber wenn es dann bald CDNA 2 mit 160 CUs bei 2200MHz gibt, könnte man eine Interessante Lösung haben.

C.J. · 16. November 2020

"Satte 120 CUs und somit 7.680 ALUs sind auf dem Chip zugegen, der mit einem Takt von 1.502 MHz gefahren wird."

Interessanterweise ist RDNA mittlerweile so davongezogen mit dem Takt, dass eine 6900XT bei 2,25Ghz und 80CUs nominell gleichzieht. Klar, die 6900 hat keine 1,2TB/s, keine 32GB und ein schlechtes DP-Ratio. Apropos: Wie kommen die 46TFlops/s in FP32 zustande? Bei 7680SPs, zwei Flops pro Takt und 1,5Ghz komme ich nur auf exakt die Hälfte davon, also 23TFlops/s. Was übersehe ich?

Shoryuken94 · 16. November 2020

PS828 schrieb:
Sehr coole Karten. Und gute Skalierbarkeit. Auch das kann relevant sein. So können sich die Karten den RAM Teilen und wenn man vier davon zusammen nutzt geht die Sonne richtig auf

Den Vram können allerdings auch die Nvidia teilen.

Ansonsten mal gucken. Ist jetzt nicht so sehr mein Bereich solche Karten. Kommt am ende eh stark auf den Einsatzzweck an. Durch die Tensorcores hat Nvidia schon bei bestimmten Algorithmen echte Vorteile. Dafür ist die normale Rechenleistung bei der AMD karte recht stark. Kommt drauf an, was man halt braucht und welche Rolle Themen wie Cuda, Speicherplatz etc. spielen.

Faust2011 · 16. November 2020

AMD bewirbt die Karte damit:

Exascale Starts Here.
Meet the World’s Fastest HPC GPU

Das find ich mal richtig klasse

Das hier ist die offzielle Seite zum Produkt: AMD Instinct™ MI100 Accelerator

yummycandy · 16. November 2020

https://twitter.com/_rogame/status/1328346732485283846

PS828 · 16. November 2020

@Shoryuken94 das ist eben immer die Sache. Es steht und fällt mit der Software. Das was die Instinct Karten immer ausgezeichnet hat ist eigentlich dass man die Teile Quasi unbegrenzt miteinander Reden konnten egal ob es jetzt 2,3 oder 8 sind.
Ich erinnere mich nicht mehr 100% dran aber die RTG hatte bei den ersten Instinct Karten sowas vorgestellt da konnten die Karten selbst über verschiedene nodes direkt kommunizieren und das ist halt gerade für Supercomputer sehr interessant^^

Shoryuken94 · 16. November 2020

@PS828 Ja das wollen sie auch noch weiter ausbauen. Aktuell ist das Problem da die Geschwindigkeit, da man hier auf den PCI Express Speed limitiert ist (soweit ich weiß) und über mehrere Nodes hinweg natürlich über deren Anbindung.

Mit CDNA2 möchte AMD den Gedanken weitertreiben und alle Speicherpools vereinen. Im Grunde eine Art SAM Pro

tauchte mal auf einer CDNA2 roadmap auf. Dort soll es dann auch direkte Zugriffe zwischen Arbeitsspeicher und Vram geben, so dass man im Grunde einen großen Speicherpool hat.

Maxxx800 · 16. November 2020

Unglaublich was AMD zur Zeit alles raus haut.

PS828 · 16. November 2020

@Shoryuken94 Naja bis PCIe 6.0 ist spezifiert theoretisch. Dazu die ersten Infiniband links mit 1,6 TBit. Da kommen wir bestimmt bald hin

pipip · 16. November 2020

Shoryuken94 schrieb:
Mit CDNA2 möchte AMD den Gedanken weitertreiben und alle Speicherpools vereinen.

AMD betont gefühlt jedes Jahr, dass sie für HPC auf das Konzept APU bzw HSA setzen.

Shoryuken94 · 16. November 2020

PS828 schrieb:
Naja bis PCIe 6.0 ist spezifiert theoretisch. Dazu die ersten Infiniband links mit 1,6 TBit. Da kommen wir bestimmt bald hin

Nur gibts stand Heute halt kein PCIe 6.0 etc. NVLink mit halbwegs ordentlicher Bandbreite hingegen gibts. Und je größer der Speicherpool wird, je eher wird auch die Bandbreite ein Thema. Es sind einfach auch hier wieder verschiedene Einsatzszenarien, die abgedeckt werden und unterschiedliche Bereichen mit unterschiedlichen Stärken und Schwächen bzw. Vor- und Nachteilen. Zudem gehts ja bei allen Herstellern immer weiter voran.

Teralios · 16. November 2020

troyan schrieb:
A100 bietet 19,5 TFLOPs FP64 Leistung über die TensorCores.

Nein, in dem Fall ist es falsch, was du schreibst:

Bei MI100 haben wir die besagten 11,5 TFLOPS bei FP64 »universell«, bei Ampere haben wir »universell« 9,5 TFLOPS.

Die von dir benannten 19,5 TFLOPs FP64 wird über die Tensor Cores erreicht, jedoch sind die Tensor Cores »Fixed Function Units«: M(FP64) * M(FP64) + M(FP64).

»The GEMM operation computes the matrix product D = A * B + C, where C and D are m-by-n matrices, A is an m-by-k matrix, and B is a k-by-n matrix. The problem size of such GEMM operations running on Tensor Cores is defined by the matrix sizes, and typically denoted as m-by-n-by-k.« (Im übrigen sind die »m-by-n« und Co wichtig, denn belegt man die Martizen falsch, bekommt man Mist raus.

)

Zu finden im Whitepaper von NVIDIA, Seite 24.

Die Matrix-Multiplikation ist in dem Fall etwas anderes, als die Vektor-Multplikation der Shader-ALUs, genau so die reine Addition.

troyan · 16. November 2020

AMD spricht von "Peak". Peak sind 19,5 TFLOPs bei A100. Die TensorCores unterstützen das "IEEE-compliant FP64" Format und entsprechend von der Genauigkeit exakt den normalen Einheiten.

Du sollest auch bedenken, dass Probleme meisten in Matrizen abgebildet werden. Werden Anwendungen also auf die TensorCores portiert, wird die Leistung bei A100 gesteigert.

Stahlseele · 16. November 2020

passiv gekühlten 300-Watt-TDP-Karte

Das kann man auch nur im Serverbereich bringen, wo ein Dutzend 15k Lüfter Sturm laufen.

News Instinct MI100: Die schnellste FP32/FP64-Karte kommt von AMD

Ost 1

Rear Admiral Pro

Banned

Cadet 4th Year

Der Flieseninspektor Pro

Captain

Captain

Lieutenant

Admiral

HTTP 418 - I'm a teapot

Commodore

Der Flieseninspektor Pro

Admiral

Lt. Junior Grade

Der Flieseninspektor Pro

Fleet Admiral

Admiral

Teralios

Gast

Cadet 4th Year

Rear Admiral

Ähnliche Themen