News Instinct MI100: Die schnellste FP32/FP64-Karte kommt von AMD

Volker

Ost 1
Teammitglied
Registriert
Juni 2001
Beiträge
18.735
Mit der Instinct MI100 greift AMD im HPC-Segment Nvidias A100 an. Den Fokus rückt der Hersteller dabei primär auf FP32 und FP64, wobei die neue Profi-Karte bei FP64 die weltweit schnellste Lösung sein soll. Die Vergleiche zu Nvidias Ampere-Generation sind trotzdem nicht einfach, denn Nvidia sucht ihre Stärken im Int8-Bereich.

Zur News: Instinct MI100: Die schnellste FP32/FP64-Karte kommt von AMD
 
  • Gefällt mir
Reaktionen: Mr. Rift, Pry_T800, konkretor und 4 andere
So schön die Karte ist, so sehr muss auf jeden Fall erstmal die traurige Dominanz von CUDA gebrochen und breiter auf OpenCL/OpenML und co gesetzt werden.
 
  • Gefällt mir
Reaktionen: flo.murr, projectneo, leon2000 und 13 andere
Rocm scheint ja langsam in Fahrt zu kommen. Fürs HPC scheint die Karte sehr interessant, besonders wenn FP64 wichtig ist.
 
  • Gefällt mir
Reaktionen: Gorgone
A100 bietet 19,5 TFLOPs FP64 Leistung über die TensorCores. Die Aussage in der Überschrift ist falsch. MI100 bietet nur mehr FP32 Leistung. Das sollte korrigiert werden.
 
  • Gefällt mir
Reaktionen: foo_1337
Sehr coole Karten. Und gute Skalierbarkeit. Auch das kann relevant sein. So können sich die Karten den RAM Teilen und wenn man vier davon zusammen nutzt geht die Sonne richtig auf :D

Der Preis ist tatsächlich Recht günstig, wichtig ist jetzt auch die Software Unterstützung^^
 
Doch spätestens ab hier wird das Bild verwaschen, denn nun gibt es diverse Spezialfälle und Umgebungen. AMD gibt beispielsweise FP32 (Matrix) mit 46,1 TFLOPs an, Nvidia hingegen mit TF32 (als neuer Standard für FP32-Operationen) 160 TFLOPS
Der TF32 ist ja auch Beschiss pur!
Mit 10 Bit Precision ist das nichtmal in der Nähe von float32, sondern ist eher ein float16.
Natürlich geht das dann ab wie Schmidts Katze.
Nur eben unterm Beschissname, der irreführend "32" im Namen hat.
Im Nachbarthread zu den 80GB HBM habt ihr da ja son schönes Übersichtsbild eingefügt.
 
  • Gefällt mir
Reaktionen: Kodak, Oberst08, Otsy und 7 andere
Geht so.
Aber wenn es dann bald CDNA 2 mit 160 CUs bei 2200MHz gibt, könnte man eine Interessante Lösung haben.
 
"Satte 120 CUs und somit 7.680 ALUs sind auf dem Chip zugegen, der mit einem Takt von 1.502 MHz gefahren wird."

Interessanterweise ist RDNA mittlerweile so davongezogen mit dem Takt, dass eine 6900XT bei 2,25Ghz und 80CUs nominell gleichzieht. Klar, die 6900 hat keine 1,2TB/s, keine 32GB und ein schlechtes DP-Ratio. Apropos: Wie kommen die 46TFlops/s in FP32 zustande? Bei 7680SPs, zwei Flops pro Takt und 1,5Ghz komme ich nur auf exakt die Hälfte davon, also 23TFlops/s. Was übersehe ich?
 
PS828 schrieb:
Sehr coole Karten. Und gute Skalierbarkeit. Auch das kann relevant sein. So können sich die Karten den RAM Teilen und wenn man vier davon zusammen nutzt geht die Sonne richtig auf :D

Den Vram können allerdings auch die Nvidia teilen.

Ansonsten mal gucken. Ist jetzt nicht so sehr mein Bereich solche Karten. Kommt am ende eh stark auf den Einsatzzweck an. Durch die Tensorcores hat Nvidia schon bei bestimmten Algorithmen echte Vorteile. Dafür ist die normale Rechenleistung bei der AMD karte recht stark. Kommt drauf an, was man halt braucht und welche Rolle Themen wie Cuda, Speicherplatz etc. spielen.
 
  • Gefällt mir
Reaktionen: stevefrogs und PS828
Em87-QEXEAAcHK2.jpg

https://twitter.com/_rogame/status/1328346732485283846
 
  • Gefällt mir
Reaktionen: Colindo
@Shoryuken94 das ist eben immer die Sache. Es steht und fällt mit der Software. Das was die Instinct Karten immer ausgezeichnet hat ist eigentlich dass man die Teile Quasi unbegrenzt miteinander Reden konnten egal ob es jetzt 2,3 oder 8 sind.
Ich erinnere mich nicht mehr 100% dran aber die RTG hatte bei den ersten Instinct Karten sowas vorgestellt da konnten die Karten selbst über verschiedene nodes direkt kommunizieren und das ist halt gerade für Supercomputer sehr interessant^^
 
@PS828 Ja das wollen sie auch noch weiter ausbauen. Aktuell ist das Problem da die Geschwindigkeit, da man hier auf den PCI Express Speed limitiert ist (soweit ich weiß) und über mehrere Nodes hinweg natürlich über deren Anbindung.

Mit CDNA2 möchte AMD den Gedanken weitertreiben und alle Speicherpools vereinen. Im Grunde eine Art SAM Pro :) tauchte mal auf einer CDNA2 roadmap auf. Dort soll es dann auch direkte Zugriffe zwischen Arbeitsspeicher und Vram geben, so dass man im Grunde einen großen Speicherpool hat.
 
  • Gefällt mir
Reaktionen: Fritzler, yummycandy und PS828
Unglaublich was AMD zur Zeit alles raus haut.
 
  • Gefällt mir
Reaktionen: yummycandy
@Shoryuken94 Naja bis PCIe 6.0 ist spezifiert theoretisch. Dazu die ersten Infiniband links mit 1,6 TBit. Da kommen wir bestimmt bald hin ;)
 
Shoryuken94 schrieb:
Mit CDNA2 möchte AMD den Gedanken weitertreiben und alle Speicherpools vereinen.
1605538572186.png


AMD betont gefühlt jedes Jahr, dass sie für HPC auf das Konzept APU bzw HSA setzen.
 
  • Gefällt mir
Reaktionen: Fritzler, PS828 und Shoryuken94
PS828 schrieb:
Naja bis PCIe 6.0 ist spezifiert theoretisch. Dazu die ersten Infiniband links mit 1,6 TBit. Da kommen wir bestimmt bald hin ;)

Nur gibts stand Heute halt kein PCIe 6.0 etc. NVLink mit halbwegs ordentlicher Bandbreite hingegen gibts. Und je größer der Speicherpool wird, je eher wird auch die Bandbreite ein Thema. Es sind einfach auch hier wieder verschiedene Einsatzszenarien, die abgedeckt werden und unterschiedliche Bereichen mit unterschiedlichen Stärken und Schwächen bzw. Vor- und Nachteilen. Zudem gehts ja bei allen Herstellern immer weiter voran.
 
troyan schrieb:
A100 bietet 19,5 TFLOPs FP64 Leistung über die TensorCores.
Nein, in dem Fall ist es falsch, was du schreibst:

Bei MI100 haben wir die besagten 11,5 TFLOPS bei FP64 »universell«, bei Ampere haben wir »universell« 9,5 TFLOPS.

Die von dir benannten 19,5 TFLOPs FP64 wird über die Tensor Cores erreicht, jedoch sind die Tensor Cores »Fixed Function Units«: M(FP64) * M(FP64) + M(FP64).

»The GEMM operation computes the matrix product D = A * B + C, where C and D are m-by-n matrices, A is an m-by-k matrix, and B is a k-by-n matrix. The problem size of such GEMM operations running on Tensor Cores is defined by the matrix sizes, and typically denoted as m-by-n-by-k.« (Im übrigen sind die »m-by-n« und Co wichtig, denn belegt man die Martizen falsch, bekommt man Mist raus. ;))

Zu finden im Whitepaper von NVIDIA, Seite 24.

Die Matrix-Multiplikation ist in dem Fall etwas anderes, als die Vektor-Multplikation der Shader-ALUs, genau so die reine Addition.
 
  • Gefällt mir
Reaktionen: projectneo, Fritzler, BLR und 3 andere
AMD spricht von "Peak". Peak sind 19,5 TFLOPs bei A100. Die TensorCores unterstützen das "IEEE-compliant FP64" Format und entsprechend von der Genauigkeit exakt den normalen Einheiten.

Du sollest auch bedenken, dass Probleme meisten in Matrizen abgebildet werden. Werden Anwendungen also auf die TensorCores portiert, wird die Leistung bei A100 gesteigert.
 
Zurück
Oben