News Instinct MI100: Die schnellste FP32/FP64-Karte kommt von AMD

troyan schrieb:
Du sollest auch bedenken, dass Probleme meisten in Matrizen abgebildet werden.


Und noch mal: Die Tensor Cores sind Fixed Function Units! A*B+C

Und auf ein MAD lassen sich nicht alle Probleme hin lösen und auch das mit den Matrizen ist so nicht richtig, aber das würde jetzt das Thema sprengen.
 
  • Gefällt mir
Reaktionen: projectneo und Colindo
troyan schrieb:
AMD spricht von "Peak". Peak sind 19,5 TFLOPs bei A100. Die TensorCores unterstützen das "IEEE-compliant FP64" Format und entsprechend von der Genauigkeit exakt den normalen Einheiten.

Du sollest auch bedenken, dass Probleme meisten in Matrizen abgebildet werden. Werden Anwendungen also auf die TensorCores portiert, wird die Leistung bei A100 gesteigert.

Das ist nicht so ganz richtig was du schreibst, so einfach lässt sich das nicht vergleichen.
Heise hat das meiner Meinung nach auch besser herausgestellt:
https://www.heise.de/news/Server-Be....html?wt_mc=rss.red.ho.ho.rdf.beitrag.beitrag

Lock and Load,
Denny Crane
 
Tensor-Cores bringen eben nur dann etwas, wenn man die beschleunigte Berechnung ausführen will. Bei allen anderen Rechenschritten bringen sie genau nichts.

Deswegen betont CB auch, dass die MI100 eher für herkömmliche Berechnungen geeignet ist, während die A100 bei Deep Learning ihre Stärken ausspielen kann.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: matty2580, Otsy und Teralios
Btw der Chip hat 128CUs.

Die MI100 hat "nur" 120 davon aktiv. Ist also ein Salvage
 
  • Gefällt mir
Reaktionen: Icke-ffm und Colindo
Das Bild von AMD mit zwei EPYCs, 32 DIMMs und 8 MI100 ist schon krass.

Da muss ordentlich heiße Luft hinten raus fliegen.
 
Termy schrieb:
So schön die Karte ist, so sehr muss auf jeden Fall erstmal die traurige Dominanz von CUDA gebrochen und breiter auf OpenCL/OpenML und co gesetzt werden.
Nvidia hat sich echt Mühe gegeben rund um CUDA ein Ökosystem mit Mehrwert aufzubauen. Bei OpenCL sieht es hingegen wirklich schlecht aus. Zum einen ist das Ökosystem am dahinsiechen und zum eine Implementierungen sind mit teils absurden Fehlern behaftet (ok es ist Jahre her, aber mir ist es gelungen einen Algoritghmus zu schreiben, der auf CPU, Intel GPU und AMD GPU drei unterschiedliche Ergebnisse geliefert hat).

Ich hoffe mittlerweile, dass die Compute Erweiterung von Vulkan als Neustart gesehen wird. OpenCL3 wird kaum Verbesserung liefern. Da gab es wenig technische Neuerung, dafür wurden aber viele OpenCL2 Features optional, was (noch) mehr Inkompatibilitäten zwischen den Softwarestacks erwarten lässt.

C.J. schrieb:
"Satte 120 CUs und somit 7.680 ALUs sind auf dem Chip zugegen, der mit einem Takt von 1.502 MHz gefahren wird."

Interessanterweise ist RDNA mittlerweile so davongezogen mit dem Takt, dass eine 6900XT bei 2,25Ghz und 80CUs nominell gleichzieht. Klar, die 6900 hat keine 1,2TB/s, keine 32GB und ein schlechtes DP-Ratio. Apropos: Wie kommen die 46TFlops/s in FP32 zustande? Bei 7680SPs, zwei Flops pro Takt und 1,5Ghz komme ich nur auf exakt die Hälfte davon, also 23TFlops/s. Was übersehe ich?
GCN1 Whitepaper:
https://www.techpowerup.com/gpu-specs/docs/amd-gcn1-architecture.pdf
GCN1 hat 4 Ausführungseinheiten je CU

GCN 5 / Vega Shader:
https://developer.amd.com/wp-content/resources/Vega_Shader_ISA_28July2017.pdf
Bei GCN5 (Vega) gibt es 4 vALUs und 1 sALU. Im Optimalfall können die 4vALUs gleichzeitig arbeiten und schaffen damit statt deiner angenommen zwei 32bit Operationen je Tackt ganze vier. Natürlich reines Numbercrunching bei gut vektorisierbaren Problemen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: foo_1337
Die Rohleistung und der günstige Preis hilft AMD auch wenig weiter, wenn Nvidia allein mit der DGX mittlerweile acht GPUs mit NVLink und NVSwitch mit 4,8 TBytes/s untereinander verbindet (16 GPUs mit 9,6 TB/s wären mit NVSwitch machbar) und darüber hinaus mit GPUDirect/RDMA und den hauseigenen Mellanox Connect-X 6 Karten über mehrere 200 Gbit/s Links einen recht schnellen Datenaustausch zwischen mehreren Nodes ermöglicht.

Dazu ein passendes Software-Framework mit CUDA/cuDNN, welches im Gegensatz zu OpenCL auch vernünftig seit Generationen gepflegt wird.
 
Das Problem ist wie immer die Software, die Hardware scheint ja wirklich aufzuholen im HPX Sektor. Ich bin gespannt wann AMD hier bei der Software nachlegt, damit man mit den Karten auch etwas anfangen kann.
Die Dminanz von CUDA ist in dem Segment wohl einfach zu stark bisher.
 
Was mich bisschen Wundert ist das AMD nur die MI100 vorgestellt hat.
wenn die GPU 128CU´s hat und auf der MI100 ganze 120 Aktiv sind, müsste entweder die Ausbeute perfekt sein. was ich bei der Größe doch mal bezweifele, entweder kommt noch was kleineres oder aber sie hat mehr wie 128CU´s, woher stammt die Zahl ?
ein Nachfolger mit HBM2e wird es hoffentlich dann auch noch geben ;) mein Depot freut sich auf 2021 ;)
 
Colindo schrieb:
Und HBM2 hat die Karte doch schon?
ja sorry korreliert, meine HBM2e wie Nvidia auch mehr Speicher und schneller ;)
 
  • Gefällt mir
Reaktionen: Colindo
Ja super, was bringt mir eine Grafikkarte, die wie auch die anderen 7nm Instinct Karten nicht erhältlich sind und zudem preislich wahrscheinlich derart auf der Intel/Nvidia Schiene laufen, dass die für ein Homelab sowieso nutzlos sind.
 
Jetzt finde ich diese Karten (ob von AMD wie diese hier, oder von NVIDIA) ja schon sehr spannend, aber wie wäre es mit ein paar Beispielen in solchen Artikeln, wozu die fp32 und 64 Präzision denn so wichtig sind? Die meisten hier haben ja wohl keine solche Beschleuniger bei sich zu Hause stehen, ich jedenfalls nicht. Sobald ich dann aber weiß warum die Rechenleistung bei welchen Anwendungen von solcher höheren Präzision profitiert, kann ich mir viel besser eine Meinung bilden, und hab vielleicht sogar noch was gelernt dabei.
 
FP32 ist die Standardgröße für Grafikkarten. FP64 ist ein Sonderfall, der doppelt so viele Stellen vor und nach dem Komma bereitstellt, um mit extremer Genauigkeit Berechnungen anzustellen. Wird nur von hochprofessioneller Software verwendet, also absolute Nische. Deswegen kann man solche Karten wie die hier vorgestellte auch nicht im Einzelhandel erwerben.

Für wissenschaftliche Anwendungen gibt's nichts Besseres als FP64-Leistung, außer du kannst die Tensor-Cores nutzen.
 
  • Gefällt mir
Reaktionen: PS828
@eastcoast_pete stell dir vor man macht eine Iterative Rechung (also von Punkt zu Punkt). Jeder wert kann an der x. Stelle hinter dem Komma Fehler haben bzw wird es immer ungenauer wenn man Runden muss weil man auf FP32 beschränkt ist.

Reicht das nicht wird es ziemlich schnell chaotisch Wegen der Fehler Multiplikation. Deshalb ermöglicht man mit FP 64 genauere Berechnungen da hier die Zahlen Reinpassen (außer unendlich nicht periodische Brüche)
 
Colindo schrieb:
FP32 ist die Standardgröße für Grafikkarten. FP64 ist ein Sonderfall, der doppelt so viele Stellen vor und nach dem Komma bereitstellt, um mit extremer Genauigkeit Berechnungen anzustellen. Wird nur von hochprofessioneller Software verwendet, also absolute Nische. Deswegen kann man solche Karten wie die hier vorgestellte auch nicht im Einzelhandel erwerben.

Für wissenschaftliche Anwendungen gibt's nichts Besseres als FP64-Leistung, außer du kannst die Tensor-Cores nutzen.
Das kann man so nicht sagen...

An vielen Stellen wird FP64 benutzt, weil man halt "genaue" Ergebnisse will. Wie schon oben gesagt sind ansonsten manche iterativen Löser einfach nicht stabil.

Das zu den Tensorcores ist btw bullshit. Man opfert da halt Genauigkeit für mehr Performance. Aber "haben" will das eigentlich keiner.... man nimmt es halt wenn es was nützt und nicht zu viel Mehraufwand ist. Und das ist jetzt wirklich Nische...

Und ansonsten auch FP64 reicht für manche Dinge nicht aus. Gibt auchh Quad Precision also FP128. Man überlegt sich aber genau ob man das wirklich braucht weil fast keine Hardware das kann und dann eben in Software emuliert werden muss, was echt langsam ist...

Da ist es dann oft schneller einen anderen Löser zu verwenden.

Für den Finanzsektor ist fixpoint teilweise auch sehr viel wichtiger als FP64. Daher supporten die IBM Kisten das teilweise noch.

Kurz um do ne Pauschalaussage ist ziemlich daneben.
 
  • Gefällt mir
Reaktionen: PS828
Kommt halt immer darauf an wie stabil die betrachteten Systeme sind, FP16 oder 32 ist halt oftmals zu wenig. Da nützt einem Geschwindigkeit garnichts wenn einem die Karte in Rekordgeschwindigkeit falsche Ergebnisse ausspuckt :D
 
Wenn's nicht nur gut aussehen soll schon. Da hast du Recht.

Stichwort Filmbranche. Da reicht es ja Wenn's einfach nur gut aussieht.
 
  • Gefällt mir
Reaktionen: PS828
Zurück
Oben