News AMD Instinct MI200: Multi-Chip-GPUs mit bis zu 47,9 TFLOPS, 128 GB und 560 W

Man sieht halt deutlich, dass AMD einen Fokus auf HPC Anwendungen legt, wo höhere Präzision gefragt ist, während Nvidia eher auf den AI-Markt zielt. Ist vermutlich auch strategisch sinnvoller, da AMD derzeit sowieso nicht mit dem ganzen Ökosystem von Nvidia mithalten kann, Nvidia durch diesen Fokus aber eben angreifbar im HPC Markt wird. Ich denke auch nicht, dass sich AMD selber noch auf den Markt stürzen wird, könnte mir eher vorstellen, dass AI auch eher über Xilinx angegriffen wird.
 
  • Gefällt mir
Reaktionen: AlphaKaninchen und Icke-ffm
Ich denke die größte Ansage neben der brachialen Leistung der neuen Architektur ist, dass AMD nun selbst eine EMIB Alternative hat.
 
modena.ch schrieb:
Wer soll denn das fertigen?
Apple hält fast alles an 5NM Kapa bis Apple zu 3NM weiterzieht.
Dann werden die 5NM bei TSMC frei.

Man kann nur hoffen, dass Samsung irgendwann den Arsch hoch bekommt.
AMD könnte ja auch das dreifache bezahlen wie Apple und das dreifache verlangen. Es würde sich schon jemand finden, der das zahlt.
 
Da gibt es lange im Voraus langfristige Verträge, da kann nicht einfach jemand dazwischengrätschen.
 
modena.ch schrieb:
Da gibt es lange im Voraus langfristige Verträge, da kann nicht einfach jemand dazwischengrätschen.
Natürlich nicht, aber man hätte es ja vor 2 Jahren machen können. Intel scheint es ja für die Server in Zukunft so zu machen.
 
sloven schrieb:
Aber der war ja auch nur mit der Voodoo 5500 im Einsatz, von einem Unternehmen, welchem die Kohle für den Feinschliff fehlte. Ansonsten wären solche Lösungen vermutliche schon seit 20 Jahren verbreitet...
Die Rage Fury Maxx gabs für Consumer schon zur Jahrtausendwende. Das Problem ist hier ja
Henne und Ei, also braucht man entweder erst die Hardware die das kann, oder die Software
die das unterstützt? Software und Hardware waren damals ja wesentlich unflexibler als heute,
wo man vereinfacht und allgemeinert gesagt bei vielen Programmen "einfach" weitere Karten
oder Module zuschalten kann. Ähnlich wie bei Video Rendering, das mit mehr Kernen schneller
arbeitet, ich glaube das war auch nicht immer so. 3Dfx hat die richtige Idee gehabt, haben sich
aber, wie du es richtig sagst, völlig verkalkuliert. Schade, aber daraus konnten andere lernen.
 
Qarrr³ schrieb:
Natürlich nicht, aber man hätte es ja vor 2 Jahren machen können. Intel scheint es ja für die Server in Zukunft so zu machen.
Du weisst doch garnicht was Amd sich alles reserviert hat bei tsmc! Ausserdem muss auch die cpu Architektur zum Prozess passen, sonst wird das nix. Zen4 kommt doch 2022 in 5nm. das heisst ein halbes jahr vorher müsste die Produktion schon anlaufen.
AMD ist aber nicht Intel, das budget unterscheidet sich massive. Intel's strategie wird interresant. Sie lassen fertigen(tsmc) und fertigen für sich und andere in den eigenen Fabriken. Bin gespannt wie sich diese Firma verändern wird.
 
Balikon schrieb:
Hmm, die Ankündigungen von Zen 1 bis Zen 3 sowie seit RDNA 1 wurden ziemlich genau eingehalten und partiell sogar übertroffen. Da hast Du also die letzten 4 - 5 Jahre keine Erfahrungswerte mehr gesammelt, wie es scheint.
Wie so oft wird man immer missverstanden.
Immer wenn etwas groß probagiert wurde wars net doll
Aber ist auch egal k.b jetzt hier so zu disskutieren.
Ist nur meine Meinung.
Jeder kann ja seine eigene haben.
 
Colindo schrieb:
Scheint, als gäbe es jetzt 4 Matrix-Einheiten pro CU im Vergleich zu einer pro CU bei CDNA 1. Ich würde echt gerne das neue Whitepaper analysieren und mit CDNA 1 vergleichen, hab aber wohl den ganzen Tag Migräne :grr:

Vielleicht möchte ja jemand anderes von den Experten drauf schauen? @Teralios @Locuza Ich vergrab mich bis heute Abend und lese eure Analyse dann.

Die Rechenleistung pro Matrix-Einheit hatte ich hier schonmal ausgerechnet.

Edit: Wut? Teralios ist nicht mehr im Forum?
Sowohl bei CDNA1, als auch CDNA2, gibt es 4 Matrix-Einheiten pro CU.
Aldebaran-CDNA-CU.jpg


Semi-spekulativ habe ich einen Vergleichsthread bzw. Video dazu erstellt:
https://twitter.com/Locuza_/status/1457596601657176064

Bzw. auch ein Part davor mit Unterschieden zwischen CDNA1&CDNA2.

Und ein aktuelles Post-Mortem:
https://twitter.com/Locuza_/status/1458132215221702662

Was bei meiner Annahme falsch war (das Bild oben ist schon korrigiert):
- Matrix FP64 hat die selbe Rate wie FP32, ist also doppelt so schnell wie von mir ursprünglich angenommen.
CDNA1 unterstützt gar keine FP64 Matrix OPs
- AMD verwendet keinen großen Interposer, um die Chips schnell und effizient miteinander kommunizieren zu lassen, sondern nur 4x GMI-Package-Links mit insgesamt 400GB/s zwischen ihnen.

Eine Vergleichstabelle mit Nvidias A100 vs. Intels Ponte Vecchio:
Aldebaran-korrigierte-tabelle.png


Die packed FP32 und Matrix FP64 rate ist auf dem Blatt Papier der Killer, Vector FP64 auch konkurrenzfähig gegenüber Intel.
Der Rest ist aber relativ dürftig.
Für Low-Precision-Ops für Training und Inference ist man bei FP16/BF16 nur ein wenig besser als Nvidia, bei INT8 stinkt man dagegen ab und es gibt kein support für das relativ neue TF32 Datenformat.
Was aber dann wirklich "eklig" ist, ist das Cache-Subsystem.
Es gibt nur 16KB L1D$ pro CU und 64KB programmierbaren Scratchpad Memory.
Nvidia bietet eine konfigurierbare 192KB Struktur pro SM, hat insgesamt also mehr Storage-Space als MI250X, welcher zwei Chips verwendet, und dank Konfiguration wird da auch eine größere Flexibilität geboten.
Der L2$ beim A100 ist mit 40MB deutlich größer, als bei Aldebaran, wo 2x8MB zum Einsatz kommen.
Von Intel braucht man da fast gar nicht zu sprechen, die schießen den Vogel komplett ab was die Cache-Kapazität angeht.
64MB L1/SLM (Bzw. 2x32MB) und 144MB L2$ pro Base-Die (288MB insgesamt), wie groß der Rambo Cache ist, wurde noch nicht geteilt.
Intel verwendet auch EMIB zwischen den Chips, dass sollte dann schon deutlich schneller und energetisch effizienter laufen, als 4x Package Links mit 400GB/s bei AMD.
Der Nachteil ist, dass es wohl ziemlich teuer in der Herstellung ist und während AMD Ende 2021 als Auslieferungstermin für Frontier geschafft hat, musste Intel mindestens ein halbes Jahr Verzug melden.
 
  • Gefällt mir
Reaktionen: karl_laschnikow, Volker und Colindo
tomgit schrieb:
So toll wie die Werte auch klingen, das größte Problem an der Karte ist die prinzipielle Ausrichtung AMDs. Die letzte Consumer-Karte, welche vollständig von ROCm (AMDs CUDA Layer) unterstützt wurde/wird, sind die drei Vega-Karten. Weder Navi noch Big Navi werden offiziell unterstützt, auch die Vega-Einheiten der APUs nicht offiziell.
Das ist keine Frage der prinzipiellen Ausrichtung, sondern der 2015 verfügbaren Budgets.
2015 musste AMD erkennen dass sie schlicht und einfach nicht die Mittel hatten, um den Weg über HSA weiterzugehen. Es war eben nicht damit getan nur die Hardware bereitzustellen. Um die GPGPU-Anwendungen auf den APUs zum Laufen zu bringen hätte AMD jede Menge Software bereitstellen müssen.

Dafür war 2015 bei AMD kein Geld da. Also hat AMD ROCm aus der Taufe gehoben mit der Zielrichtung HPC. Seit dem hat AMD einiges an ROCm geschraubt und es war ausreichend um einige Großrechneraufträge zu gewinnen.

Der AMD Corporate Fellow Phil Rogers der HSA vorangetrieben hatte ist wegen dieser Kursänderung zu Nvidia gegangen.

Aber wir haben nicht mehr 2015 und AMD hat inzwischen Geld, deshalb muss mehr kommen.
tomgit schrieb:
Und woher soll ich als kleiner Entwickler dann die Hardware nehmen, um einen Prototypen zu entwickeln?
Das ist der großen Haken an dieser Strategie.

Aber es war die Frage, will AMD komplett scheitern oder will AMD sich auf ein Ziel konzentrieren und dort Erfolg haben. Dieses Ziel waren die Supercomputer.
tomgit schrieb:
Hier hat Nvidia eine große Stärke, mal abgesehen von dem weitläufigen Support CUDAs, nämlich dass man als Entwickler einfach jedes x-beliebige Notebook oder System mit einer Nvidia-Karte der letzten Generationen nehmen kann und darauf seinen Prototypen testen.
Es ist noch schlimmer, es gibt ja auch Leute die Entwickler werden wollen.
Und für die gibt es aktuell einen einfachen Pfad zu Nvidia und eigentlich keinen zu AMD.
tomgit schrieb:
Ich mag AMD, aber, c'mon, denkt doch mal an den Einstieg in euer Ecosystem...
Das ist einigen bei AMD bewusst.

Aber in dem Sinne war die Präsentation am Montag enttäuschend.
AMD muss sich zu einer Softwarestrategie auch abseits der Supercomputer bekennen und klar sagen was sie vorhaben.

Es ist nicht so dass AMD nichts tut, aber AMD stellt es nicht in den Blickpunkt.
https://www.amd.com/en/technologies/infinity-hub

Vielleicht kommt ja noch was.

stiffler17 schrieb:
Wenn ich mich nicht täusche, wird seit dem Release 4.5 (was die Tage rauskam) angeblich NAVI21 unterstützt.
Reddit-Post
Es war wohl die offizielle Unterstützung von RDNA geplant, aber bei der Validierung gab es Bugs.
1636505919930.png


Angeblich soll ROCm 5.0 noch dieses Jahr kommen, wir werden sehen.

Aber auch mit der Unterstützung von RDNA 2 ist AMD noch lange nicht fertig:
  • ROCm muss bei den Linus Distributionen untergebracht werden, so dass die Funktion verfügbar is
  • ROCm, bzw die Funktionenmuss AMD auch für Windows bereitstellen.
    So wie ich es verstehe ist es das Ziel in Zukunft einiges von der Funktionalität von ROCm in die Treiber zu verlagern.
  • AMD muss den Softwareentwickler eine Prespektive aufzeigen, nur dann gibt es eine breite Unterstützung
C4rp3di3m schrieb:
Hoffe es gibt auch wieder bezahlbare HBM Karten für Privatkunden. Hätte sogar eine gebraucht Radeon 7 gekauft, aber die Preise sind dank Miningmist einfach nur lächerlich.
Ich denke nicht dass HBM für Gaming-Karten verwendet werden wird. Der Infinty Cache von RDNA 2 bietet die fürs Gaming erforderliche Bandbreite. Die Kosten für HBM sind einfach enorm.

Allerdings werden auch die RDNA-3-Karten nicht billig. Die Performance-Steigerung werden mit Chipfläche erkauft.
Northstar2710 schrieb:
Du weisst doch garnicht was Amd sich alles reserviert hat bei tsmc!
Ich bin gar nicht sicher, dass die Kapazitäten bei TSMC das eigentliche Problem sind.

AMD ist für TSMC ein wichtiger Kunde und ist bei der Entwicklung von vielen neuen Technologien beteiligt.
Angeblich ist AMD inwischen der größte Kunde von TSMC N7. Natürlich ist Apple noch größer.

Northstar2710 schrieb:
Ausserdem muss auch die cpu Architektur zum Prozess passen, sonst wird das nix. Zen4 kommt doch 2022 in 5nm. das heisst ein halbes jahr vorher müsste die Produktion schon anlaufen.
Der Tape Out soll Anfang 2021 erfolgt sein.
Northstar2710 schrieb:
AMD ist aber nicht Intel, das budget unterscheidet sich massive.
Aber das Budget ist 2020 und 2021 bei AMD massiv gewachsen.
Northstar2710 schrieb:
Intel's strategie wird interresant. Sie lassen fertigen(tsmc) und fertigen für sich und andere in den eigenen Fabriken.
Hier gibt es auch die Erklärung, dass das Buchen der TSMC N3 Kapazitäten eine Rückversicherung war, falls die Prozessentwicklung bei Intel nicht funktioniert. Bzw. ein Ansporn an die Leute die eigenen Prozesse zum Laufen zu bekommen.

Northstar2710 schrieb:
Bin gespannt wie sich diese Firma verändern wird.
Die Foundry-Strategie ist nicht glaubwürdig, wenn Intel auf den neusten Prozessen von TSMC fertigen lässt.

Bisher war es so, dass Intel Produkte auf alten Prozessen bei TSMC fertigen lies. Damit konnte Intel die eigenen Fabriken komplett auf die neuen Nodes umrüsten.

Ich kann mir nicht vorstellen, dass Intel mit den neuesten Prozessen zweigleisig fährt. Es kostet viel Geld dasselbe Produkt in verschiedenen Prozessen herstellen zu lassen. das wird auch für Intel zu teuer.
 
Zuletzt bearbeitet: (link eingefügt)
  • Gefällt mir
Reaktionen: Locuza
@Locuza Danke für den Überblick. Ich habe gestern Abend dann das Whitepaper gelesen, sind schon einige deutliche Verbesserungen ohne zuviel zu ändern.
Locuza schrieb:
Für Low-Precision-Ops für Training und Inference ist man bei FP16/BF16 nur ein wenig besser als Nvidia, bei INT8 stinkt man dagegen ab und es gibt kein support für das relativ neue TF32 Datenformat.
Bei TF32 sagen sie ja sogar in den Folien, dass sie das mangels IEEE-Konformität einfach komplett ignorieren.
Locuza schrieb:
Was aber dann wirklich "eklig" ist, ist das Cache-Subsystem.
Es gibt nur 16KB L1D$ pro CU und 64KB programmierbaren Scratchpad Memory.
Interessanterweise sieht der L1 auf den Blockschaltbildern der CU größer aus als bei CDNA 1. Im Text steht dazu aber nichts. Weißt du sicher, dass der gleich geblieben ist?
Laut Whitepaper wurden die Bandbreiten verdoppelt, das soll anscheinend für die Zielgruppe reichen. Ich denke mal größere Caches braucht man eher für AI als für Scientific, wo FP64 King ist, oder?
ETI1120 schrieb:
Ich bin gar nicht sicher, dass die Kapazitäten bei TSMC das eigentliche Problem sind.
Ich finde die Tatsache, dass AMD für alle GPUs auf N6 setzt, zeigt deutlich, dass sie lieber 2 Fertigungslinien belasten wollen als wie zuletzt alles auf eine (N7).
Ergänzung ()

@Locuza Wusste gar nicht, dass du auch Videos machst. Hast ja ziemlich viel anhand der Treiber vorhersagen können.
 
  • Gefällt mir
Reaktionen: karl_laschnikow
[wege]mini schrieb:
Man hat 2 mal mehr Verbrauch, hat aber 3mal mehr Leistung. (hat ein Milchmädchen berechnet).

Was soll daran schlimm sein?
Dass bei wachsender Weltbevölkerung global einfach nicht genügend Strom geliefert werden kann, wenn die Geräte des Alltags stetig mehr Energie benötigen. Eine Weile lang sank der Strombedarf durch Einführung von Energiesparlampen und LED-Lampen, mittlerweile steigt er leider wieder. Und künftig wollen auch noch hunderte vom Millionen von E-Autos mit Strom betankt werden. In Summe graut mir davor...
Ergänzung ()

Makso schrieb:
Ohh Gott wieder einer mit Jetztblick. Was passt dir mit den CPU´s nicht?
Ergänzung ()


Du hast echt keine Ahnung.
Das sagt der richtige...
Ergänzung ()

Mracpad schrieb:
Das ist doch keine Karte zum zocken! :D
Was kann man dann damit tun? Mikado spielen?
Ergänzung ()

JesusLiftus schrieb:
Was ein Quatsch. Solange das Teil eine bessere Performance pro Watt liefert (was hier eindeutig der Fall ist), darf es auch gerne 1kW ziehen und man hat der Umwelt zur vorrigen Gen was besseres getan.
Wenn ich die doppelte Performance pro Watt liefere und dennoch > 1.000 Watt verbrate, ist es also gut?
Nein!
 
Colindo schrieb:
Ich finde die Tatsache, dass AMD für alle GPUs auf N6 setzt, zeigt deutlich, dass sie lieber 2 Fertigungslinien belasten wollen als wie zuletzt alles auf eine (N7).
Sind das überhaupt 2 verschiedene Fertigungslinien? Baut TSMC neue fertigungskapazität für N6 auf?

Mein Verständnis ist, dass N6 mehr EUV-Schritte als N7 verwendet und dadurch die Gesamtzahl der erforderlichen Schritte verringert. Damit ist N6 billiger als N7.

TSMC erwartet dass sich der Anteil von N6 in diesem Jahr drastisch erhöht.
Bei den Kapazitäten weist TSMC N6 nicht gesondert aus, sondern sieht ihn als Prozessvariante von N7.
 
  • Gefällt mir
Reaktionen: Locuza
Colindo schrieb:
Ja, aber N5 für Zen4 ist dann getrennt.
Es gibt widersprüchliche Gerüchte welche Produkte AMD außer dem Zen 4 CCD noch auf N5 fertigen lässt.

Aber ich gehe davon aus dass AMD mit dem "Wechsel" auf N5 die Kapazitäten erweitert. Ich erwarte nicht dass AMD Kapazitäten bei N7 freigibt.

Mit dem ausgereiften N7/N6-Prozess könnte AMD bei den CPUs wieder das Preissegment 100 bis 250 Euro bedienen.
 
Wenn nur Zen4 auf N5 kommt, oder eventuell auch die Gaming-GPUs, wären auch deutlich mehr Kapazitäten bei N5, so dass man wieder auf eine große Produktpalette setzen kann. Dazu APUs auf N6, schon kann man Stückzahlen liefern.

Das Ganze würde natürlich in sich zusammenfallen, wenn AMD nur geringe Waferzahlen bei N5 geordert hat, aber das kann ich mir nicht vorstellen.
 
  • Gefällt mir
Reaktionen: ETI1120
Weyoun schrieb:
Was kann man dann damit tun? Mikado spielen?
Die Daten von Weltraumteleskopen analysieren? Einen Crashtest für ein Flugzeug simulieren das noch nicht gebaut wurde? Das Wetter vorhersagen damit du weißt wann du n Regenschirm einpacken musst?

Was auch immer man damit macht, es wird zur Erledigung der Aufgabe weniger Strom verbraucht als mit dem Vorgänger, da die Karte effizienter ist! Wieviel Watt die einzelne Karte benötigt, spielt doch dafür überhaupt keine Rolle.
 
  • Gefällt mir
Reaktionen: AlphaKaninchen
Zurück
Oben