News AMD Instinct: MI300X mit 192 GB HBM3 und 153 Milliarden Transistoren

Glyphus schrieb:
Wie sieht das eigentlich unter Linux aus für AMD? DirectML ist da sicher aussen vor und ROCm wird wohl nie produktive Level erreichen. Wie perfomant ist man da mit OpenCL unterwegs?
ROCm ist schon lange im produktiven Einsatz (CDNA). Nur weil es im Consumerbereich (RDNA) noch nicht richtig unterstützt wird, kannst du nicht ableiten das es nicht "produktiv" ist. Und HIP ersetzt OpenCL!

Es sieht aus das mit ROCm 5.6 der Support für Windows 10/11 kommt, aber wieder komische Entscheidungen das RDNA2 nur HIP bekommt, während eine alte Fury den kompletten ROCm Paket bekommt. Ich sehe das die Dokumente nicht mehr verfügbar sind.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: phanter und Unnu
Bedingt offtopic: Aus Effizienzgründen wäre es wünschenswert, wenn wir nochmal eine Grafikkarte, gerne auch Mittelklasse, mit HBM sehen würde. Leider nach wie vor zu teuer bzw. zu teuer gehalten. Gerade in der 75W Klasse könnte HBM seine Effizienzvorteile ausspielen.
 
  • Gefällt mir
Reaktionen: BAR86
bei der Rechenleistung ist nVidia sicher nicht allgemein vorne, sondern teils etwas vorne, teils dahinter
 
  • Gefällt mir
Reaktionen: Rockstar85, Oberst08 und Freiheraus
mich würde mal interessieren, ob AMD irgendwann mal ein Konkurrenzprodukt zu Nvidias vGPU-Karten auf CDNA3 Basis rausbringen wird. Nvidia kassiert hier nämlich schön für ihre überteuerten Karten und greift noch pro User zusätzliche Kosten ab für die Lizensierung… aktuell haben sie grünen hier leider ein Monopol, da AMDs Karten total veraltet sind…
 
Beeindruckende Hardware!
Leider ist grade der Bereich (zumindest unterhalb von Supercomputern) ein wunderbares Beispiel für die Schädlichkeit von Vendor-Lock-In (CUDA)...

AMD Partnerschaft mit Huggingface könnte da natürlich positiv ausfallen - sowohl für AMD, als auch für uns alle. AI kann nur Gesellschaftsverträglich funktionieren, wenn sie FOSS ist meiner Meinung nach.

Auf der einen Seite will ich den Bereich natürlich nicht in den alleinigen Händen von Nvidia sehen, auf der anderen Seite wäre es natürlich wünschenswert, wenn AMD die Spieler eher im Fokus behält als es bei NV der Fall ist ;)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Unnu und hans_meiser
Ich stell die Zitate ein wenig um, da es in meinem Beitrag jetzt etwas mehr Sinn macht in dieser Reihenfolge zu antworten. Bitte entschuldige das. Ebenso werde ich Zitate auch ein Stück einkürzen. Die Kürzungen werden - wissenschaftlich korrekt mit folgendem gekennzeichnet: [...]
BxBender schrieb:
Natürlich hat ein monolitisches Design in zahlreichen Ausführungen [...] immer noch seine eigenen Vorteile, ...
So pauschal ist das falsch aus verschiedenen Gründen. Natürlich haben monolitische Design ihre Vorteile in bestimmten Bereichen, diese werden aber durch immer bessere Chip-to-Chip-Verbindungen in der Fertigung immer weiter verschoben oder gar vollständig aufgehoben.

So wird zum Beispiel die Latenz als Vorteil genannt, weil die Signalewege kürzer sind. Das ist im ersten Moment "schlüssig", aber hier kommt es darauf an, wie die Chips verbunden werden. Der Signalweg bei Navi31 zwischen den MCD und dem CCD sind nicht "wirklich" länger. als bei einem monolitischen Design, weil diese sehr dirch zusammen gefasst werden. Der Signalweg zwischen einem CCD und dem IOD bei Zen2 - Zen4 ist da länger. Anderes "Verfahren".

Bei den X3D-Cache-CPUs ist der Signalweg in den weiterten Cache sogar "kürzer", weil hier die Chips aufeinander gesetzt werden und entsprechende Leitungen eben Vertikal verlaufen. Hier würde der Weg zu bestimmten Cache-Slices in einem monolitischem Design sogar länger werden.

Und auch bei der Energieeffizienz ist das immer so ein Punkt. Klar kann ein monolitisches Design "effizienter" sein, aber auch bei der Effizienz gibt es entsprechende Stelleschrauben die man nutzen kann. Die Frage ist, ob diese gezogen werden.

Der primäre Vorteil von monolitschen Designs liegen aktuell noch beim Wärmetransport - könnte sich aber mit den Planungen die Datenwege von der Stromversorgung zu trennen, etwas äöndern.

BxBender schrieb:
verschlingt aber unter anderem halt Unsummen an Entwicklung und ist halt auch nicht unendlich skalierbar.
Die Entwicklung für ein Multi-Chip-Design dürfte da nicht unbedingt weniger kosten in der Entwicklung. Das Problem liegt aktuell eher daran, dass Chips nicht beliebig groß werden können ohne entsprechende Renundanzen zu schaffen und eben, dass ab einem gewissen Zeitpunkt man doch wieder ein Multi-Chip-Design benötigt.
BxBender schrieb:
Das System ist vor allen Dingen kostenoptimiert.
Glaube ich bei den Server-CPU und bei der Server-GPU nur zum "Teil". Wenn man sich die Größe des Packages ansieht, was hier alles auch an Chips zusammen kommt, dann wird hier eher die Skalierbarkeit der ausschlaggebende Punkt gewesen sein.
Glyphus schrieb:
Wie sieht das eigentlich unter Linux aus für AMD?
ROCm, wie du es selbst erwähnst.
Glyphus schrieb:
DirectML ist da sicher aussen vor und ROCm wird wohl nie produktive Level erreichen.
DirectML ist auch unter Windows nur bedingt ein guter Ersatz. Die DirectML-Treiber für die meisten Frameworks sind okay, aber die Cuda-Treiber sind oft deutlich besser. Man merkt an dieser Stelle, wie viel Geld NVIDIA hier in die Entwicklung der Treiber steckt, während AMD sich aktuell auf ROCm in Linux stürzt.
Glyphus schrieb:
Wie perfomant ist man da mit OpenCL unterwegs?
OpenCL kannst du - selbst freundlich ausgedrückt - vergessen. Man merkt, dass Apple OpenCL hat fallen lassen und dann alles weitere quasi eingeschlafen ist. Apple war hier der primäre Treiber - eben weil sie weder von AMD, Intel noch NVIDIA abhängig sein wollten. Als Apple sich Metal "verschrieben" hat, gab es nur noch ein paar Kämpfer dafür.

Die "Hoffnung" liegt ein Stückweit bei Vulkan Compute, aber hier ist CUDA allgemein zu mächtig, weswegen ja AMD mit "HIP" hier agiert-
Slowz schrieb:
Das Problem ist aber, dass es Bereiche gibt, in denen AMD leider keiner Alternative zu Nvidia darstellt.
Erneut ist es ein: Ja und Nein zur gleichen Zeit. Es bleibt weiterhin so, dass alle aktuellen beteiligten großen Firmen weitgehend ihre Frameworks in zwei Schichten teilen und Herstellerspezifischen-Code im "Anwenderteil" sehr schnell beseitigen und aufräumen. Keine dieser Firmen will sich alleine abhängig von NVIDIA machen und das aus gutem Grund.

Du musst hier - das machst du auch, ich erwähne es nur - eben wirklich trennen:
Slowz schrieb:
Ich arbeite bspw. in der (KI-)Forschung und mir ist bisher nicht ein einziges Paper untergekommen, in dem nicht PyTorch oder Tensorflow mit einer Nvidia Grafikkarte genutzt wird.
Viele der Papers kenne ich in diesem Bereich auch - es mutiert vom Hobby zur Leidenschaft. Hier ist der wichtige Punkt, dass man aber zwischen den "Inhalten" der Papers trennen muss. Es gibt Papers, die sind "allgemeiner", die sich mit bestimmten "Softwareproblemen" befassen, die man theoretisch auf jeder x-beliebigen Hardware durchführen könnte. Ebenso gibt es aber auch Papers, die sich speziell mit der Hardware-Implementation und Co befassen und da ist NVIDIA wirklich stark vertreten, nur findet man da auch sehr viel von Xilinx und dank deren Kauf kommt auch von AMD da "endlich" etwas.

Das primäre Problem liegt hier an einer anderen Stelle und du hast schon das passende Stichwort genutzt: Grafikkarte.

In deinem Bereich - Forschung - hat NVIDIA gegenüber AMD einen glasklaren Vorteil und auch hier hat NVIDIA wieder den Zeichen der Zeit "erkannt". In der Forschung kenne ich viele, die ihre Arbeiten zu KI nicht auf entsprechenden Serverfarmen mit den GV100, GA100 oder GH100 machen oder die für ihre Workstations entsprchende GPUs bekommen - die sind massiv teuer. Da kommen dann gerne die Quadros oder sogar "GeForce" zum Einsatz, die dann wesentlich günstiger sind und da sie eh die "vollen" Tensor-Kerne haben und NVIDIA hier sogar extra "darauf" achtet, dass die Karten voll genutzt werden können fürs Training, hat man hier für die Foschung einen kostengünstigen Einstieg.

AMD hat hier quasi nur CDNA2 aktuell und bald CDNA3, die entsprechende Kerne mitbringt. RDNA1 und RDNA2 kannst du hier vergessen und auch RDNA3 ist der "KI-Kern" auch eher eine Verlegenheitslösung. Die AMD-Karten werden hier selbst von kleineren Ampere und nun auch Ada-Karten verhauen. Und damit:
Slowz schrieb:
Das betrifft auch Paper von Google, Microsoft und Co. Evtl. sieht das im Produktiveinsatz anders aus, dennoch würde ich Nvidia definitiv als Platzhirsch sehen.
Natürlich betrifft das dann genau so Google, Microsoft und Co. Solange AMD sich der KI in ihren normalen GPUs verschließt, wird NVDIA auch hier den Platzhirsch stellen in der Forschung. Das ist in dem Fall aber eine Kostenfrage.

Der Einsteig in KI ist bei AMD aktuell sehr teuer mit CDNA3. Wenn ich bedenke, dass die 4090 aktuell im Testsystem mit der 7900 XTX bei KI-Anwendungen sowohl unter Linux als auch unter Windows den Boden aufwischt, wird sich das auch erst mal nicht ändern in der Forschung. Hier muss AMD auf jeden Fall bei RDNA4 und in Zukunft ihren Weg überdenken, wenn sie wollen das Universitäten, Firmen und Co in den Forschungsarbeiten mal AMD-Hardware verwenden.
 
  • Gefällt mir
Reaktionen: Unnu, ghecko und Slowz
S.Kara schrieb:
Beim Speicher hat Nvidia noch die H100 NVL mit 188 GB HBM3 in der Pipeline.

Die H100 NVL sind zwei Karten, und sind kein high-density Formfaktor wie die hier präsentierten Module. I.e. Die müsstest Du in einen 4U oder 5U Server packen. Auf den gleichen Formfaktor kriegst Du auch 8 MI300, i.e. 4 H100 NVL vs 8 MI300 (oder 8 H100) was dann auf jeden Fall kein fairer Vergleich mehr ist :)
 
AMD MI250XNvidia H100 SXM5Nvidia H100 PCIe
ArchitekturCDNA 2Grace HopperHopper
max. Board Power500 (passiv) oder 560 Watt (Wakü)700 Watt300-350 Watt
Leistung*
FP64 Vektor47,9 TFLOPS34 TFLOPS26 TFLOPS
FP64 Matrix / Tensor Core95,7 TFLOPS67 TFLOPS51 TFLOPS
Was den Leistungsvergleich angeht, müssen Tests abgewartet werden. In puncto Rechenleistung dürfte aber Nvidia vorn liegen,...
Nope, viel zu pauschal/undifferenziert die Aussage. Geht es um HPC mit FP64 Genauigkeit liegt AMD seit 2 Jahren uneingeholt vorne und wird den Vorsprung mit CDNA3 / MI300X noch ausbauen. Die Dominanz in den Top 10 der Top500/Green500 kommt auch nicht von ungefähr.
Im Bereich KI mit FP32/FP16/FP8 etc. wird man abwarten müssen ob und wie stark Nvidia vorne liegt.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Plasmaversum, eXe777, Ganjaware und eine weitere Person
Glyphus schrieb:
Wie sieht das eigentlich unter Linux aus für AMD? DirectML ist da sicher aussen vor und ROCm wird wohl nie produktive Level erreichen. Wie perfomant ist man da mit OpenCL unterwegs?

Es gibt auch noch OpenMP Target Offloading, mit welchem man innerhalb des Compiler-Stacks bleibt aber dann die Abzweigung nimmt OpenMP GPU-Code generieren zu lassen.

Slowz schrieb:
Das Problem ist aber, dass es Bereiche gibt, in denen AMD leider keiner Alternative zu Nvidia darstellt. Ich arbeite bspw. in der (KI-)Forschung und mir ist bisher nicht ein einziges Paper untergekommen, in dem nicht PyTorch oder Tensorflow mit einer Nvidia Grafikkarte genutzt wird. Das betrifft auch Paper von Google, Microsoft und Co. Evtl. sieht das im Produktiveinsatz anders aus, dennoch würde ich Nvidia definitiv als Platzhirsch sehen.

TensorFlow?! TensorFlow ist tot.

LamaMitHut schrieb:
Gibt ja noch andere spannende KI-Monster von IBM (das mit dem virtuellen L3 Cache ist krass) oder Cerebras WSE-2.

Viele dieser Startups kollabieren jedoch gerade. Und ein generatives AI Startup hat nicht die Zeit experimentelle Hardware zum Laufen zu bringen. Die werden immer auf den etablierten Tech-Stack setzen.
 
  • Gefällt mir
Reaktionen: Unnu
Wird AI das neue Crypto?
Besteht eigentlich das Risiko, falls AI Rechenkraft monetarisierbar wird, dass es wieder Personen und Gruppierungen geben wird, die in Grafikkarten investieren wie zu Cryptozeiten?

Also sobald sich damit Geld verdienen lässt, artet das mit ziemlicher Sicherheit wieder so aus...
Wie seht ihr das?
 
AMD stellt neuerdings Produkte viel zu früh vor, bzw erscheinen diese später, als es der Zeitpinkt der Präsentation suggeriert. Hat ja schon bei Phoenix angefangen.
Kein Wunder, dass die Aktie trotz "AI Präsentation" etwas nachgibt.

Damals bei MI200 war die Präsentation Anfang November 2021, Auslieferung "ab sofort" bzw Anfang 2022 für die PCIe Version. Jetzt bei MI300 wurde MI300A schon im Januar vorgestellt, MI300X jetzt im Juni. Production Ramp bei beiden aber erst in Q4. Bedeutet effektiv Auslieferung Mitte/Ende Q1 2024 und damit mehr als 2 Jahre nach MI200, obwohl die Präsentationen der ersten Produkte beider Familien nur etwas mehr als ein Jahr auseinanderliegen.

Wenn MI300 also verfügbar wird, steht schon die Präsentation von Hopper Next (Blackwell?) vor der Tür und dann ists noch maximal ein halbes Jahr bis zur Auslieferung derselbigen. Und bis Ende Q1 2024 kann Nvidia noch einiges an H100 verscherbeln.
 
  • Gefällt mir
Reaktionen: Convert und IllusionOn
Philste schrieb:
AMD stellt neuerdings Produkte viel zu früh vor, bzw erscheinen diese später, als es der Zeitpinkt der Präsentation suggeriert. Hat ja schon bei Phoenix angefangen.
Kein Wunder, dass die Aktie trotz "AI Präsentation" etwas nachgibt.

(..)

NVIDIA hat es bei der H100 genau gleich gemacht, scheint eher ein neuer Ansatz zu sein um die AI-Leute fuer das eigene Produkt zu begeistern.
 
icemanspirit schrieb:
TensorFlow?! TensorFlow ist tot.
Also, für einen Toten, ist TensorFlow aber relativ lebending: https://www.tensorflow.org/
icemanspirit schrieb:
Viele dieser Startups kollabieren jedoch gerade. Und ein generatives AI Startup hat nicht die Zeit experimentelle Hardware zum Laufen zu bringen. Die werden immer auf den etablierten Tech-Stack setzen.
Das Problem ist hier - wie immer - dass viele dieser Firmen zwar tolle Hardware-Ideen haben, aber den Softwarestack vergessen und daran dann scheitern. Die tollste Hardware bringt nichts, wenn der Support für die entsprechenden Frameworks nicht gegeben ist und zwar von Anfang an.
DonnyDepp schrieb:
Besteht eigentlich das Risiko, falls AI Rechenkraft monetarisierbar wird, dass es wieder Personen und Gruppierungen geben wird, die in Grafikkarten investieren wie zu Cryptozeiten?
Denke ich in dem Fall weniger, da hier - anders als bei Cryptowährungen - auch sehr viele Daten beim Training bewegt werden müssen. Du benötigst hier nicht nur eine Grafikkarte, sondern auch entsprechend Bandbreite um das effektiv zu nutzen.
Philste schrieb:
AMD stellt neuerdings Produkte viel zu früh vor, bzw erscheinen diese später, als es der Zeitpinkt der Präsentation suggeriert.
Im Bereich HPC und Co ist es aber relativ normal, dass man die Produkte relativ früh vorstellt, weil hier auch deutlich längere Produktzyklen zu erwarten sind.

Im Bereich der Rechenzentren geht die Planung relativ früh los, wenn man jetzt anfängt das System zu konzipieren, dann wird hier mit de MI300 gerechnet, da ist es irrelevant ob im Januar/Feburar dann NVIDIA die nächste Generation ankündit und die ein halbes Jahr später auf dem Markt kommt.

Relevant ist deine Ausführung eher für die Käufer, die hier "spontaner" agieren können.
 
  • Gefällt mir
Reaktionen: Unnu
BDR529 schrieb:
All das bringt AMD leider wenig, wenn die größte Bandbreite an KI Software auf Nvidia (CUDA) zugeschnitten ist. Da muss zuerst einmal was passieren, bis AMD überhaupt eine Chance hat zu Nvidia aufzuholen.
AMD schrieb:
Das Heterogeneous Computing Interface for Portability (HIP) ist ein herstellerneutrales C++-Programmiermodell zur Implementierung fein abgestimmter Auslastungen für GPUs. HIP ist (wie CUDA) ein Dialekt von Vorlagen, Klassen, Lambdas und anderen C++-Konstruken, die C++ unterstützen.
Ein “Hipify” wird ebenfalls bereitgestellt, was die Konvertierung von CUDA-Code in HIP erleichtert. So ist die Code-Kompilierung für GPU (CUDA) Umgebungen mit AMD oder NVIDIA möglich. Der ROCm HIP-Kompilierer basiert auf Clang, der LLVM-Compiler-Infrastruktur und der “libc++” C++-Standardbibliothek.

https://www.amd.com/de/graphics/servers-solutions-rocm-hpc
 
  • Gefällt mir
Reaktionen: DevPandi
Freiheraus schrieb:
Im Bereich KI mit FP32/FP16/FP8 etc. wird man abwarten müssen ob und wie stark Nvidia vorne liegt.
Die Frage ist, ob FP64 hier so Aussagekräftig ist. Wenn ich mir die FP32, FP16 und INT8 Werte angucke, dann liegt AMD sehr weit hinten aktuell:
AMD MI250XNvidia H100 SXM5
FP32 Vektor47,9 TFLOPS67 TFLOPS
FP32 Matrix / Tensor Core95,7 TFLOPS989 TFLOPS
Peak bfloat16/FP16383 TFLOPS1979 TFLOPS
INT8383 TFLOPS3958 TFLOPS

Bei FP16 ist die Nv Karte > 5x so schnell und bei INT8 und FP32 Matrix sogar > 10x.
 
DevPandi schrieb:
Also, für einen Toten, ist TensorFlow aber relativ lebending: https://www.tensorflow.org/

(..)

Ich erkenne nicht das Lebenszeichen hier? Kein Researcher, oder state-of-the-art Machine learning Modell ist mehr in TensorFlow gebaut. Die weitere Entwicklung wurde eingestellt, und das Einzige was man davon noch nimmt ist der Product-Serving Stack, und der Compiler von TensorFlow (XLA).

Die Zukunft bei Google ist JAX. Welches auch TensorFlow bei allen Machine learning Konferenzen komplett verdrängt hat.

Das Hauptvermächtnis von TensorFlow ist effektiv der XLA-Compiler, welcher aber in die OpenXLA Organisation ausgegliedert wurde.
 
DevPandi schrieb:
NVIDIA scheint hier eine "Übermacht" zu sein, weil NVIDIA - gerade beim Marketing zu den "Consumern" alles daran setzt um eine Verbindung KI und NVIDIA herzustellen, nur Firmen wie Google, Apple, Microsoft, Meta und Co mögen keine einseitige Abhängigkeit, da sie sich damit Erpressbar machen und entsprechend gehen die da vor.

Intel arbeitet ja auch an entsprechenden API-Unterbau für TensorFlow und Co mit ihrer OneAPI. In diesem Bereich ist NVIDIA also garnicht mal so fest im Sattel, wie man durch das Marketing meinen könnte.
Deine Ausführungen in Ehren - sind sehr gut. Aber es ist ja eben nicht nur so das NV im KI Feld gefühlt vorn dabei ist. Die Quartalszahlen sprechen da eine klare Sprache. Auch Autobauer (wie viele NV Partnerschaften gibt es da) bezüglich autonomen Fahrzeugen setzen (fast) ausschließlich auf NV Hardware - Qualcom spielt noch eine Rolle.

AMD ist im Vergleich leider da noch eine kleine Nummer.

Und da beziehe ich mich allein auf die Hardwareverkäufe.
 
  • Gefällt mir
Reaktionen: Unnu
DevPandi schrieb:
NVIDIA scheint hier eine "Übermacht" zu sein, weil NVIDIA - gerade beim Marketing zu den "Consumern" alles daran setzt um eine Verbindung KI und NVIDIA herzustellen, nur Firmen wie Google, Apple, Microsoft, Meta und Co mögen keine einseitige Abhängigkeit, da sie sich damit Erpressbar machen und entsprechend gehen die da vor.
Nvidia ist die Übermacht:
Microsoft: https://winfuture.de/news,135161.html
Google: https://nvidianews.nvidia.com/news/...latform-built-on-the-new-l4-gpu-and-vertex-ai
Meta: https://techcrunch.com/2023/05/18/m...i9j2kl7GknpWQ33B92iudO4DqKBeFyNOWdpk9OOujaCdt
 
Tolle Kommentare hier, v.a. zu der Frage, inwiefern NVidia hier durch sein CUDA-Ökosystem eine Moat / Barriers to Entry gebaut hat oder eben nicht.

Nochmal genau so informativ wie der Artikel selbst. :-)
 
  • Gefällt mir
Reaktionen: yummycandy, Unnu und zazie
Zurück
Oben