News AMD Instinct: MI300X mit 192 GB HBM3 und 153 Milliarden Transistoren

@Clausewitz

Sorry, ich bin wirklich AMD Fan. Aber man muss ganz klar auch anerkennen wenn jemand gute Arbeitet leistet.
Und NV als Firma hat sehr früh auf diesen Trend gesetzt und sehr viel dafür getan...
Wie eigentlich fast immer - sie sehen einen Trend - sie bauen Hardware und helfen dann den Businesscase umzusetzen... Das ist der Grund wieso die im Moment im Geld baden können - wieso sie eine solche Aussicht bringen können - und wieso sie vom Markt als "machbar" akzeptiert wurde (steigender Kurs).

Neidlos muss man anerkennen das NV da einen guten Job gemacht hat. [und das obwohl das für mich als Gamer nicht so gut ist -> siehe Preise NV Karten]

AMD geht im Moment den Weg über die Supercomputer - und konzentriert sich da hoffentlich drauf. Denn da ist es für sie einfacher [denn max-Leistung effizient ist wichtig] und die Betreiber haben dann noch genug Ressourcen um Softwareseitig die Sachen hinzubiegen => daraus könnte dann auch bessere Unterstützung für die breite Masse werden [wird aber noch dauern]
Der zweite Weg wird Xilinx sein. Dort dann in Automation und co... Da werden dann zwangsläufig auch Softwarestacks entstehen die funktionieren und lange supported werden - auch von dort kann dann was für die breite Masse kommen was die Situation Softwareseitig verbessert...
 
  • Gefällt mir
Reaktionen: Unnu
MrHeisenberg schrieb:
Die Frage ist, ob FP64 hier so Aussagekräftig ist. Wenn ich mir die FP32, FP16 und INT8 Werte angucke, dann liegt AMD sehr weit hinten aktuell
Das kommt halt drauf an, was man machen will. Der weltweit schnellste und drittschnellste Rechner ist mit Sicherheit nicht von irgendwelchen Leuten zusammen geschustert worden, die keine Ahnung haben.
Gerade im HPC Bereich hat sich das Blatt ja massiv gewandelt. Vor 5 Jahren war AMD in den Top 10 quasi gar nicht vertreten, jetzt sind zwei der Top3 Systeme all AMD.
Das Thema KI geht man inzwischen auch intensiver an, auch wenn NVidia da noch viel Vorsprung hat. Wobei man auch sagen muss: Die Zahlen sagen nicht immer was über die tatsächliche Leistung aus. So schlecht ist AMD wohl nicht aufgestellt, sonst würde Microsoft nicht auch in Azure KI AMD MI Beschleuniger anbieten. Die Industrie erkennt AMD also durchaus als Konkurrent gegenüber NVidia an und nutzt die wohl auch (sonst würde MS die ja nicht anbieten, die wollen ja Geld mit dem Zeug verdienen).
 
DevPandi schrieb:
Denke ich in dem Fall weniger, da hier - anders als bei Cryptowährungen - auch sehr viele Daten beim Training bewegt werden müssen. Du benötigst hier nicht nur eine Grafikkarte, sondern auch entsprechend Bandbreite um das effektiv zu nutzen.
Also gibt es wenn einen Sturm auf Grafikkarten und Gigabit Internetanschlüsse ^^
Wehe dem der dann am gleichen Kabelstrang online zocken will mit der 900er Latenz.
 
ruthi91 schrieb:
Nvidia ist die Übermacht:
Hast du verstanden, was ich geschrieben habe? Hab ich mich unklar ausgedrückt?

Meine Beiträge befassen sich mit dieser Aussage:
BDR529 schrieb:
All das bringt AMD leider wenig, wenn die größte Bandbreite an KI Software auf Nvidia (CUDA) zugeschnitten ist. Da muss zuerst einmal was passieren, bis AMD überhaupt eine Chance hat zu Nvidia aufzuholen.
Und diese Aussage ist an dieser Stelle eben falsch. Die große Bandbreite an KI-Software wird nicht CUDA/NVIDIA spezifisch programmiert, sondern in den aktuell gängigen KI-Frameworks.

Die Frameworks werden von Google, Microsoft, Meta und Co weitgehend Hardware unabhängig ausgelegt und programmiert. Keine dieser Firmen will alleine von NVIDIA abhängig werden. Auf Softwareseite ist NVIDIA eben nicht die "Übermacht". Hier stellt sich nicht die Frage, ob man in Metal, OpenCL, DirectML, CUDA und Co programmiert, sondern nach dem Framework, dass man dafür wählt.

NVIDIAs "Übermacht" in diesem Bereich ist - anders als zum Beispiel bei "Contentcreation"-Software in Verbindung mit CUDA - kein absolutes Bollwerk, dass erst aufgebrochen werden muss. Dafür hat Google, Meta und Co gesorgt.

NVIDIAs Stärke in diesem Bereich ist auf die aktuell sehr gute Hardware - TensorCores - zurück zu führen und damit auch verbunden die von NVIDIA bereitgestellten "Treiber" für die Frameworks. Mircosoft, Google und Co bestellen aktuell massiv bei NVIDIA, weil sie die dafür stärkste Hardware auf dem Markt haben.

Hier muss NVIDIA aber auch massiv am Ball bleiben, weil sie eben nicht Quasi-Softwarestandard stellen. KI ist also aktuell das Steckenpferd von NVIDIA, aber eben nicht die Bastion, die AMD, Intel und Co erst knacken müssen.

Novasun schrieb:
Aber es ist ja eben nicht nur so das NV im KI Feld gefühlt vorn dabei ist. Die Quartalszahlen sprechen da eine klare Sprache. Auch Autobauer (wie viele NV Partnerschaften gibt es da) bezüglich autonomen Fahrzeugen setzen (fast) ausschließlich auf NV Hardware - Qualcom spielt noch eine Rolle.
Habe ich an der Stelle etwas anders behauptet? Ich schreibe ja selbst, dass NVIDIA in diesem Bereich aktuell die deutlich bessere Hardware hat. Wenn du dich mit KI als Entwickler befassen willst oder damit spielen willst, führt an NVIDIA-Hardware kein Weg vorbei. Dazu ist der Einstieg für passende Hardware bei NVIDIA viel günstiger, da seit Turing alle Karten einen TensorCore haben.

Und natürlich sprechen da auch die Zahlen aktuell eine klare Sprache, auch da hab ich nichts anderes behauptet. Meine Beiträge beziehen sich alleine auf die Aussage, dass die KI-Modelle ja NVIDIA/CUDA spezifisch programmiert werden und das ist falsch.

Anders als bei Programmen im Contentcreation-Bereich, die sich von OpenCL quasi vollständig zu CUDA entwickelt haben, werden KI-Modelle nicht mit CUDA, OpenCL, DirectML und Co "direkt" programmiert und trainiert, sondern mit den entsprechenden Frameworks. Diese Frameworks sind unabhängig von der Hardware und entsprechend gibt es auch "Treiber". Intel, AMD und Co müssen in diesem Bereich nicht die Softwarebastion CUDA knacken, sondern sie müssen nur "gute" Treiber für die Frameworks bereit stellen.

AMD und Intel - sowie die anderen Hardwareanbieter - müssen hier aktuell "nur" auf Seite der Hardware aufholen und DAS ist wesentlich einfacher, als eine Softwarebastion zu knacken.
Novasun schrieb:
Und da beziehe ich mich allein auf die Hardwareverkäufe.
Richtig, du beziehst dich rein auf die Hardwareverkäufe. Und die Hardware von NVIDIA ist aktuell die beste für KI - deswegen schlummert im Karton auch wieder eine 4090, die entsprechend bald eingebaut wird.

Aber das ist nicht mein Thema gewesen und an deiner Aussage, aber auch der von ruthi91 merkt man aber, dass das NVIDIA-Marketing und die Medienpräsenz vollkommen gezogen haben und alle KI nun mit NVIDIA und CUDA verbinden, dabei aber nicht merken, dass die Entwicklung in den Frameworks abläuft - @icemanspirit danke für den Hinweis, ich hatte JAX noch im Hinterkopf, für mich ist es aber Hobby, nicht beruf - und man damit das Training als auch das Ausführung quasi auf jeder beliebigen Hardware ausführen kann.

Gutes Beispiel ist StableFusion: Du kannst die Modelle auf jeder Hardware trainieren, gnauso auf jeder Hardware Bilder erzeugen, nur geht das je nach Hardware schneller oder eben langsamer.

Und das ist der Punkt. AMD, Intel und Co müssen hier nicht Hardware und Software "knacken", sondern nur die Hardware.
Clausewitz schrieb:
Tolle Kommentare hier, v.a. zu der Frage, inwiefern NVidia hier durch sein CUDA-Ökosystem eine Moat / Barriers to Entry gebaut hat oder eben nicht.
In dem Fall haben sie es noch nicht und ich denke kaum, dass Microsoft, Google und Co das zulassen werden.
 
  • Gefällt mir
Reaktionen: Unnu
Oberst08 schrieb:
So schlecht ist AMD wohl nicht aufgestellt, sonst würde Microsoft nicht auch in Azure KI AMD MI Beschleuniger anbieten.
Vielleicht kann Nvidia nicht genügend Stückzahlen liefern, weil die Nachfrage zu groß ist?
 
Novasun schrieb:
Auch Autobauer (wie viele NV Partnerschaften gibt es da) bezüglich autonomen Fahrzeugen setzen (fast) ausschließlich auf NV Hardware - Qualcom spielt noch eine Rolle.
Aktuell 2, 2025 dann 3. Mercedes (seit einem halben Jahr), Volvo und ab 2025 JLR. Für Infotainment Lösungen kommt dann noch Hyundai dazu. Audi hat wohl von NVidia weg gewechselt, denn die werden nicht mehr bei NVidia gelistet. Keine Ahnung, wo du her hast, dass es da nur NVidia und noch etwas Qualcomm gibt. Da gibt es viele Anbieter und gerade wenn man sich die Historie bei NVidia anschaut, konnte man die Kunden immer nur von einer Plattform überzeugen. Den Nachfolger musste man dann bei anderen Kunden platzieren. Aktuell ist wohl sogar Mobileye also Intel verbreiteter als NVidia.
MrHeisenberg schrieb:
Vielleicht kann Nvidia nicht genügend Stückzahlen liefern, weil die Nachfrage zu groß ist?
Warum hat NVidia dann die Bestellungen bei TSMC reduziert, wenn sie mit der Nachfrage nicht nach kommen? Und die MI250 Cluster bei Azure gibt's natürlich auch schon seit grob einem Jahr. Da war der Konkurrent noch A100. H100 kam später dann als weiteres Azure Angebot dazu, allerdings vermute ich dass man MI300 auch wieder anbieten wird. AMD bringt gerade in dem Bereich neue Modelle in recht hohem Takt, will wohl schnell zu NVidia aufschließen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Unnu
MI250 ist eine HPC Lösung, keine AI, dafür ist MI300 zuständig
 
MrHeisenberg schrieb:
Vielleicht kann Nvidia nicht genügend Stückzahlen liefern, weil die Nachfrage zu groß ist?
Durchaus eine valide Vermutung. Würde dann an der Stelle aber auch zeigen, dass NVIDIA in diesem Bereich eben nicht "alternativlos" ist und Intel und AMD hier immer noch die Möglichkeit haben aufzuholen. Also eben, dass die Software/KI-Modelle unabhänig von der Hardware ist und NVIDIAS aktuelle Stärke eben auf Hardware aufbebaut ist und nicht so fest zementiert ist, wie mit CUDA. ;)
Ergänzung ()

bad_sign schrieb:
MI250 ist eine HPC Lösung, keine AI, dafür ist MI300 zuständig
Nicht ganz richtig, nich ganz falsch.

MI250 hat bereits Matrix-Cores die in gewissen Punkten auch mit Volta und Turing überlege sind und in bestimmten Aspekten mit Ampere mithalten können, in anderen aber auch unterlegen sind.

KI-Training geht mit der MI250 durchaus gut.
 
  • Gefällt mir
Reaktionen: Oberst08
Chesterfield schrieb:
Nvidias Quartaszahlen haben eine klare Sprache gesprochen, daher klar wo auch die Reise auch für
AMD gehen wird ! KI !!!!
Naja gut, KI ist DER Zukunftsmotor (ob berechtigt oder nicht, ist eine andere Frage). Auf jeden Fall sollte jede Industrie das auf dem Schirm haben. Aber: KI braucht viel Rechenpower. Wer stellt die zur Verfügung? Intel, Nvidia, AMD - darum MÜSSEN die da mitziehen, sonst sind sie weg vom Fenster. Wer da den Anschluss verpasst, der kann schonmal anfangen die Koffer zu packen.
 
DevPandi schrieb:
ast du verstanden, was ich geschrieben habe? Hab ich mich unklar ausgedrückt?
Kann ich das zurückgeben?
Mag ja sein das BigTech softwaremäßig nicht von Nvidia abhängig sein möchte, kaufen tun sie aber Nvidia.
Das ist ein Sektor in dem seit einem Jahrzehnt fast ausschließlich Nvidia zum Einsatz kommt, in den Köpfen des Personals steckt nur Nvidia, der Status quo läuft mit Nvidia usw…

Das löst sich nicht in Luft auf nur „weil das Framework universell einsetzbar sein soll“.
 
  • Gefällt mir
Reaktionen: ETI1120
Ich finde die Diskussion vermischt zu vieles.

Meine Meinung ist:
Nvidia hat die marktbeherschende Stellung. Das ist bei KI aber weniger die Software an sich, sondern die breite Palette an Hardware die Nvidia anbietet. Vom High End Computer für das Tranieren von riesigen Modellen bis zur Gamning Grafikkarte für ein paar 100 Euro deckt Nvidia ein riesiges Feld ab. Es ist für Studenten leicht mit ihrer Hardware performant in das Thema einzusteigen. Niemand benötigt für die Softwarentwicklung bei Nvidia High End Hardware. Auf kleinen Kisten entwicklen, auf großen Kisten ausrollen.

KI wird mit Nvidia assoziiert. Bei Nvidia weiß jeder dass es funktioniert. Alle anderen müssen es erst noch beweisen. Also alle die schnell und sicher eine Lösung mit AI suchen gehen zu Nvidia. Und alleine das aufzurechen wird dauern.

Auf der anderen Seite sehen es viele Firmen nicht gerne wie Nvidia den KI-Markt beherrscht.

Was der Artikel vollkommen unterschlägt ist der Beitrag von Victor Peng. Er hat die ganze Zeit über Software geredet. Aber leider hat er nicht seinen Vortrag vom FAD 2022 aufgegriffen und fortgeführt, sondern sehr viel über ROCm (d. h. CDNA) geredet. Aber die entscheidenden Fragen nicht beantwort:
  • Wann kommt Windows Support für ROCm?
  • Wann werden die APUs und RDNA-Grafikkarten unterstützt?
  • Was ist mit der Xilinx AIE und ihrer Software, werden sie Teil von ROCm?
  • Lebt die Vision einer Software Suite noch die alle AI-Hardware von AMD unterstützt?
  • Wird es freie Entwicklungsumgebungen auf Basis der aktuellen Xilinx Softwaresuiten für die AI in der Phoenix APU geben?

Der Schwachpunkt bei AMD ist nicht die CDNA-Hardware. Der Schwachpunkt ist, dass die Software die AMD bereitstellt nur auf dieser Hardware läuft. Der Vertreter von PyTorch hat im weggehen gewünscht, dass bald Support für RDNA kommt.

Was ich vollkommen unfassbar finde, ist dass AMD keinen Showcase für die Alevo V70 vorgeführt hat. Aber wahrscheinlich hatten sie Angst, dass diese AI-Inference-Lösung ihre Botschaft zu Epyc unterminiert hätte.

Gar nicht verstehen kann ich, dass AMD bei Phoenix U nicht bei allen SKU die AI Engine aktiviert. AMD muss die AIE möglichst bald breit in den CPUs integrieren und wie 2022 am FAD angekündigt eine Softwaresuite bereitstellen die sowohl Notebooks als auch Supercomputer unterstützt.

Zur Hardware.

Die Performance der CDNA 3 steht und fällt damit auf was sich die 8x höhere AI Performance bezieht.
  • Wenn AMD hier jeweils die 16 Bit Datentypen vergleicht, sieht es von der Roh-Performance ganz gut aus.
  • Wenn AMD hier 8 Bit-Datentypen bei CDNA 3 mit 16 Bit-Datentypen bei CDNA vergleicht ist es zu wenig.
Für HPC mit 64 Bit-Datentypen hat AMD mit der CDNA 2 eine tolle Hardware hingelegt. Aber in diesem Markt ist Cuda gesetzt. Bei den Superrechnern und ihrer Open Source Software ist es leichter zu Punkten als in den Unternehmen. Hier muss AMD erst die Softwareanbieter überzeugen.

Aber Nvidia hatte gar nicht vor die 64-Bitleistung der MI250X zu erreichen. Nvida hat die Transistoren bei den für AI wichtigen Datentypen installiert.

Dass AMD keine Daten zur Performance genannt hat ist befremdlich und verheißt nichts gutes.
 
  • Gefällt mir
Reaktionen: yummycandy, Clausewitz, DevPandi und eine weitere Person
MrHeisenberg schrieb:
Bei FP16 ist die Nv Karte > 5x so schnell und bei INT8 und FP32 Matrix sogar > 10x.
So ist das wenn AMD und Nvidia verschiedene Launch-Rythmen haben, mal ist der eine vorne mal der andere. Ausser bei FP64, da ist AMD immer vorne. Zudem kann man FP32 Matrix nicht mit TF32 gleichsetzen, die Prezision ist unterschiedlich (23 BITS vs. 10 BITS):

AMD MI250XNvidia H100 SXM5
FP32 Matrix95,7 TFLOPSTF32 ! = 989 TFLOPS



Als CDNA2 kam, hatte Nvidia nur Ampere am Markt:

AMD MI250XNvidia A100 80GB
FP32 Vektor47,9 TFLOPS19,5 TFLOPS
FP32 Matrix / Vektor95,7 TFLOPS19,5 TFLOPS (TF32 ! = 156 TFLOPS)
FP16383 TFLOPS312 TFLOPS
INT8383 TOPS624 TOPS
 
  • Gefällt mir
Reaktionen: Oberst08, Unnu und DevPandi
ETI1120 schrieb:
Niemand benötigt für die Softwarentwicklung bei Nvidia High End Hardware. Auf kleinen Kisten entwicklen, auf großen Kisten ausrollen.
Das ist genau der Punkt. Man kann mit einer 2060 bereits günstig da ein steigen und es läuft performant. Dazu funktioniert das alles auf Linux und Windows und stellt keine hohen Hürden da.

ROCm geht nur auf Linux und da auch nur mit bestimmten Karten oder wenn man anfängt zu frickeln. DirectML "wäre" unter Windows durchaus eine Alternative, aber ... naja. Und der Einstieg in KI mit Vega oder Navi macht allgemein kein Spaß, selbst wenn ROCm-Support besteht. Bei NVIDIA bekommst du für 1/3 des Preises die Leistung einer 7900 XTX. (Memo an mich selbst: StableFusion Test für einen Leserartikel).

ETI1120 schrieb:
Der Schwachpunkt bei AMD ist nicht die CDNA-Hardware. Der Schwachpunkt ist, dass die Software die AMD bereitstellt nur auf dieser Hardware läuft.
Irgendwie "Ja" und "Nein". Ich weiß was du willst. Und du hast recht, CDNA ist nicht der Schwachpunkt, die Software ist in der Form aber auch "nicht" unbedingt der Schwachpunkt - ROCm läuft ja gut und kann nun auch mit RDNA, RDNA2 und RDNA3 umgehen.

Das erste Problem ist, dass es - wie du ja schreibst - nicht auf Windows läuft. Aber selbst wenn ROCm auf Windows laufen würde und alle Grafikkarten funktionieren würde, würde die Einsteigshürde weiterhin bestehen, dass NVIDIA "Consumerhardware" in KI-Anwendungen die AMD "Consumerhardware" weit in den Schatten stellt und die aktuellen "AI-Accelator" ist ein schlechter Witz.

AMD wird hier bei RDNA auch umdenken müssen, wenn sie hier "Interessant" werden wollen.
ETI1120 schrieb:
Wenn AMD hier 8 Bit-Datentypen bei CDNA 3 mit 16 Bit-Datentypen bei CDNA vergleicht ist es zu wenig.
Weißt du, wie viel CDNA bei 8-Bit hatte, die Zahlen für CDNA2 hat ja @Freiheraus gerade geliefert. Dann könnte man zumindest etwas "schätzen".

Ansonsten:
ETI1120 schrieb:
Dass AMD keine Daten zur Performance genannt hat ist befremdlich und verheißt nichts gutes.
Ich würde das aktuell nicht zu ernst sehen. Mir ist es aktuell ganz recht, wenn die Hersteller alle mal die Bälle flach halten und nicht irgendwie ständig TOP-Zahlen abliefern, wie viel besser sie in irgendeinem Benchmark als die anderen sind, nur dass man dann fest stellt, dass das auch nur klappt, wenn man genau die Version, mit dem Compiler am 5 Tag des Monats bei Vollmond misst.

Da warte ich echt lieber dann auf die Zahlen von Fachzeitschriften und Co, die das entsprechend ihrer Richtlinien testet.
 
  • Gefällt mir
Reaktionen: Unnu
D0m1n4t0r schrieb:
Baut ne Karte die so schnell wie die RTX 4090 ist und packt 32 GB HBM Speicher drauf. Nvidia würde sowas für 2000 Euro verkaufen. Bin mir sicher bei dem Preis würde sich das auch für AMD lohnen sowas zu fertigen.
2000 €? Letztes Jahr vielleicht. 😂
 
Ich finde es sehr schade das es keine Endverbraucher Karten gibt zur Zeit mit HBM3.
Bei den Preisen die verlangt werden hätte man wengistens mal was Neues für das Geld bekommen.

mfg
 
DevPandi schrieb:
Das ist genau der Punkt. Man kann mit einer 2060 bereits günstig da ein steigen und es läuft performant. Dazu funktioniert das alles auf Linux und Windows und stellt keine hohen Hürden da.
Auspacken. Einschalten. Funktioniert.

Bei AMD erfordert es bei ROCm und AI großes Engagement, und oft funktioniert es dann halt doch nicht.
DevPandi schrieb:
ROCm geht nur auf Linux und da auch nur mit bestimmten Karten oder wenn man anfängt zu frickeln.

Beim FAD sah die Vision für die Zukunft wie folgt aus:
1686770139858.png


Das heißt in einem Stack mit vielen Hardwareoptionen zu entwickeln. Eigentlich hätte ich ein Update erwartet wie weit AMD hier gekommen ist-

Gestern war nur noch von ROCm die Rede. Also der Teil des AI Stacks der für CDNA generiert.

Was ich wirklich fatal war, dass plötzlich die Xilinx Hard- und Software keine Rolle spielt.Obwohl die was AI angeht erheblich besser ist als alles was AMD in dieser Beziehung hatte.

DevPandi schrieb:
Irgendwie "Ja" und "Nein". Ich weiß was du willst. Und du hast recht, CDNA ist nicht der Schwachpunkt, die Software ist in der Form aber auch "nicht" unbedingt der Schwachpunkt - ROCm läuft ja gut und kann nun auch mit RDNA, RDNA2 und RDNA3 umgehen.
Aber AMD ist relativ schüchtern was das Verkünden des offiziellen Supports angeht.

Irgendwie hatte ich mir ja gesagt, ja AMD hat Resourcen umgeschichtet um den AMD Unified AI Stack umzusetzen. Aber Plötzlich ist nur noch von ROCm die Rede, ...
DevPandi schrieb:
Das erste Problem ist, dass es - wie du ja schreibst - nicht auf Windows läuft. Aber selbst wenn ROCm auf Windows laufen würde und alle Grafikkarten funktionieren würde, würde die Einsteigshürde weiterhin bestehen, dass NVIDIA "Consumerhardware" in KI-Anwendungen die AMD "Consumerhardware" weit in den Schatten stellt und die aktuellen "AI-Accelator" ist ein schlechter Witz.
Bei einer Lernplattform ist die Softwareunterstützung extrem wichtig, die Performance ist aus meiner Sicht nicht so wichtig. Das wird sie nur, wenn man sie auch produktiv einsetzen will.

Generell halte ich XDNA für alles was AI angeht für viel geeigneter als es die RDNA je werden können.
Nach dem gestrigen Trauerspiel bin ich nicht mehr sicher, ob AMD den Weg XDNA breit zu integrieren weiterhin gehen will.

CDNA hat meiner Meinung nach 2 Probleme was AI angeht. Zu stark auf FP64 ausgelegt und den Rückstand von AMD was Matrix/Tensor IP angeht.

Die VLIW-Architektur von XDNA macht auf mich einen ausgereiften Eindruck und Xylinx hat auch sehr viel an Software Kow How mitgebracht. Eigentlich warte ich auf ein Scale Out der AIE, aber das wird wohl nicht kommen. So bietet hier AMD nur eine 75 W Karte an, die sich für visuelles Prozessing eignet.

DevPandi schrieb:
AMD wird hier bei RDNA auch umdenken müssen, wenn sie hier "Interessant" werden wollen.
Wieviel % der Render- und Raytracing-Leistung willst Du dafür aufgeben?

Das was AMD in vor der neuen Formate und der WMMA-Befehle gemacht finde ich grundsätzlich richtig. RDNA sind Gaming Grafikkarten und hier sollte der Fokus darauf liegen. RDNA und RDNA 2 waren Schritte in richtige Richtung, nämlich die Hardware auf Gaming zuzuschneiden.

Bei der AI-Unterstützung finde ich ist die CPU aufzumotzen ist der richtige Weg. Aber in der Form von spezialisierter Hardware wie XDNA aka AIE aka Ryzen AI.

DevPandi schrieb:
Weißt du, wie viel CDNA bei 8-Bit hatte, die Zahlen für CDNA2 hat ja @Freiheraus gerade geliefert. Dann könnte man zumindest etwas "schätzen".
Da CDNA 2 kein FP8-Datenformat unterstützt, muss FP16 verwendet werden. Auch wenn die Präzision gar nicht benötigt wird.
DevPandi schrieb:
Ansonsten:

Ich würde das aktuell nicht zu ernst sehen. Mir ist es aktuell ganz recht, wenn die Hersteller alle mal die Bälle flach halten und nicht irgendwie ständig TOP-Zahlen abliefern, wie viel besser sie in irgendeinem Benchmark als die anderen sind, nur dass man dann fest stellt, dass das auch nur klappt, wenn man genau die Version, mit dem Compiler am 5 Tag des Monats bei Vollmond misst.
Ich fand es wie es in den letzten Jahren bei AMD üblich war sehr gut:
Realistische Zahlen nennen, die von den unabhängigen Testern bestätigt werden. Aber davon hat sich AMD wohl verabschiedet. Bei RDNA 3 sind selbst die theoretischen Werte geschönt.

Im Prinzip hast Du recht, niemand braucht Fantasiezahlen.
Aber das wie AMD gestern präsentiert hat war schwach. Es fehlt alles was hilft die Performance abzuschätzen. Und das macht man nicht wenn die Zahlen überzeugen.

Im übrigen ist schon klar, dass die theoretischen Werte relativ uninteressant sind, wenn die Hardware nur zu (30 ... 35) % ausgenutzt werden kann.



Es haben einige gemeint, dass die Sessions mit den Gästen langweilig waren.
Ich finde sie waren eigentlich der interessante Teil.
Zur Hardware wurde insgesamt nur sehr wenig gesagt.

In diesem Video gab es mehr brauchbare Infos zum Aufbau der AIE als im ganzen Event
https://twitter.com/DylanOnChips/status/1668731195121864704
 
ETI1120 schrieb:
Aber AMD ist relativ schüchtern was das Verkünden des offiziellen Supports angeht.
Was ich in gewisser Art verstehen kann. Die Ansprüche vieler Menschen sind in den letzten 20 Jahren teilweise ins Unermessliche gestiegen und zu oft wird leider nur noch in Schwarz und Weiß eingeteilt. Bei Problemen wird die Schuld von vielen sofort bei anderen gesucht, nicht erst mal bei sich selbst. Ich merke das in der Arbeit auch jeden Tag, dass immer erst mal alles andere Schuld sein muss. Und am Ende stellt sich dann doch zu oft heraus, dass es die Person vor dem Bildschirm selbst war. Mit solchen "Sachen" kannst du da zumindest ansatzweise noch die "Schuldfrage" entschärfen und auch versuchen wirklich zu helfen.
ETI1120 schrieb:
Irgendwie hatte ich mir ja gesagt, ja AMD hat Resourcen umgeschichtet um den AMD Unified AI Stack umzusetzen. Aber Plötzlich ist nur noch von ROCm die Rede, ...
Es ging doch bei der Präsentation primär um CDNA3 und eben MI300A und MI300X sowie um die Epycs? In diesem Zusammenhang würde es mich nicht wundern, wenn sie ROCm "fokussiert" haben und nicht den Unified AI Stack.

Nicht, dass ich da jetzt zu viel "raten" will, aber auch für ihren UAS (ich kurz mal ab, bin zu faul), werden sie vermutlich ROCm brauchen für ihre CDNA-Karten, damit diese für das Training und Co da sind, während XDNA als Co-Prozessor in CPUs dann einen anderen Treiber benötigt usw. Das alles wird - schätze ich - dann am Ende eben im UAS zusammen laufen.
ETI1120 schrieb:
Bei einer Lernplattform ist die Softwareunterstützung extrem wichtig, die Performance ist aus meiner Sicht nicht so wichtig. Das wird sie nur, wenn man sie auch produktiv einsetzen will.
Ja und Nein zur gleichen Zeit. Wenn es um einfache Experimente und die ersten Gehversuche geht um sich Grundlagen anzueignen, hast du natürlich recht, da ist die Softwareunterstützung wichtiger und nicht die Performance. Für die ersten Gehversuche braucht man dann aber auch keine NVIDIA-Grafikkarte und auch keine AMD-Grafikkarte, sondern lässt das ganze auf der CPU laufen, das funktioniert bei den ersten Gehversuchen genauso gut/schlecht.

Genauso kann man auf Windows DirectML mit PyTorch und Co nutzen und braucht dann auch keine spezielle NVIDIA oder AMD-Grafikkarte. Auf Linux kann man OpenCL.

Nur wie das so ist, mit den ersten Gehversuchen eigenet man sich Grundlagen an, um dann jedoch richtig zu lernen und auch neue Ideen zu bekommen, benötigt man "Input" und geht unweigerlich auf andere OpenSource-Modelle und fängt an, mit diesen zu experimentieren, befasst sich mit "spezialisiertem" Training und Co und dann kommt es - auch wenn man lernen will - sehr schnell dazu, dass es eben sehr wohl einen Unterschied macht, ob man für das Training den Rechner statt ein paar Stunden laufen zu lassen, ein paar Tage laufen lassen muss oder ob man zur Prüfung der eigenen Entwicklung durch Eingaben nur wenige Sekunden bis Minuten auf ein Ergebnis wartet oder auch wieder mehrere Stunden.
ETI1120 schrieb:
Generell halte ich XDNA für alles was AI angeht für viel geeigneter als es die RDNA je werden können.
Kommt darauf an. XDNA schließt RDNA nicht aus und umgekehrt. NVIDIA geht bei ihren GPUs auch den Weg, dass verschiedene "Bestandteile" in den SM gesammelt wird, die man locker auch "trennen" könnte.

Dazu ist dann auch wichtig, in welche Richtung sich XDNA entwickelt: Zur Ausführung bestehender Modelle oder Training? Man könnte durchaus auch mit der Zeit überlegen, ob man RDNA "etwas" größer macht und die Matrix-Kerne aus CDNA mit einfügt, damit man an dieser Stelle auch etwas "fürs" Training bietet, dass hier Leistung hat.

Aber alles "Spekulation".


ETI1120 schrieb:
CDNA hat meiner Meinung nach 2 Probleme was AI angeht. Zu stark auf FP64 ausgelegt und den Rückstand von AMD was Matrix/Tensor IP angeht.
Die Ausrichtung auf FP64 bei CDNA ist nicht so verkehrt, auch wenn KI aktuell das Thema schlecht hin ist, darf man nicht vergessen, dass auch klassische HPC-Aufgaben immer noch bestehen und diese eben nicht durch KI gelöst werden können.

Nur muss AMD die Matrix-Kerne wirklich weiter verbessern. Und damit - etwas umgestellt deswegen:
ETI1120 schrieb:
Und das macht man nicht wenn die Zahlen überzeugen.
Bei CDNA2 lagen die Matrix-Kerne bei der Leistung und dem Können zwischen Turing und Ampere, mit Achtungserfolg bei FP32 und FP64 - wozu FP64, aber gut. Ich schätze, dass bei CDNA3 die Kerne zwishen Ampere und Hopper/Ada liegen und AMD dieses mal jedoch keinen "Überraschung" wie mit FP32 und FP64 "liefern" kann - das wissen wir ja bereits und man daher einfach die Zahlen nicht nennt. Man wird bei den "nackten" Zahlen hinter Hopper liegen und stürzt sich deswegen auch auf die "Large"-Modells, weil man hier dann dank des RAMs "überholen" kann.

ETI1120 schrieb:
Bei der AI-Unterstützung finde ich ist die CPU aufzumotzen ist der richtige Weg. Aber in der Form von spezialisierter Hardware wie XDNA aka AIE aka Ryzen AI.
Es kommt in dem Fall halt darauf an, was du erreichen willst. Wenn es um das Ausführen bestehnder Modelle geht, ist das sicher durchaus der praktikabelste Weg, gerade in den APU. Bei allem anderen bin ich mir nicht sicher.

ETI1120 schrieb:
Da CDNA 2 kein FP8-Datenformat unterstützt, muss FP16 verwendet werden. Auch wenn die Präzision gar nicht benötigt.
Hier sollte man sich mal angewöhnen, dass wir direkt die richtigen Datentypen hinzufügen. Sonst passiert genau das, was wir jetzt hatten. 8 Bit kannst du int8 oder fp8 meinen, genau so mit 16 Bit usw.

Zudem spricht AMD bei "AI"-Performance von 8-fach, das kann auch wieder auf sehr viel bezogen sein, egal ob jetzt fp8, fp16 und Co. Die Folien sind sehr wage. Mal abwarten.
 
  • Gefällt mir
Reaktionen: ETI1120 und Fegr8
dass man flexibel CPU und GPU segente kombinieren kann ist wirklich cool.

auch schön, dass sie jetzt mit einem reinen GPU chip die Sache noch vervollständigt haben. im AI mag AMD nicht zu Nidia aufschließen können, aber mich würde hier für MI300X die FP32/64/128 Leistung interessieren. hier war AMD immer um Faktoren besser als Nvidia was besonders fürs HPC und compute segment wichtig ist.

AI braucht halt primär INT8 und FP8/16, völlig anderes design dann
 
PS828 schrieb:
dass man flexibel CPU und GPU segente kombinieren kann ist wirklich cool.
Die Umsetzung des Advanced Packaging ist State of the Art vor allem steckt einiges im AID was sehr interessant ist. Da hätten mir bei der offiziellen Vorstellung schon ein paar Infos gefallen.
PS828 schrieb:
auch schön, dass sie jetzt mit einem reinen GPU chip die Sache noch vervollständigt haben.
Das geht auch in die andere Richtung, alles auf CPU
PS828 schrieb:
im AI mag AMD nicht zu Nidia aufschließen können, aber mich würde hier für MI300X die FP32/64/128 Leistung interessieren. hier war AMD immer um Faktoren besser als Nvidia was besonders fürs HPC und compute segment wichtig ist.
https://www.nextplatform.com/2023/06/14/the-third-time-charm-of-amds-instinct-gpu/

hier hat er folgende Tabelle drin, alles in rot dürften seine Annahmen sein, aber er hat natürlich auch ein paar gespräche geführt. Und in den Hintergrundgesprächen erzählt AMD deutlich ehr als sie prärentieren.

1686899845738.png


Wenn das stimmt, wäre es bei FP64 heftig. Aber hier muss AMD im kommerziellen Umfeld gegen Cuda antreten. Aber alles in Rot

Aber aufgepasst, was AMD zu FP8 sagt liegt, genau in der Mitte der Zahlen von Nextforum:
https://www.amd.com/en/claims/instinct

Claim - MI300-04: projected to result in 2,507 TFLOPS estimated delivered FP8 with structured sparsity floating-point performance.

PS828 schrieb:
AI braucht halt primär INT8 und FP8/16, völlig anderes design dann
Und das ist der Punkt. alles was AMD in die FP64-Unterstützung steckt, fehlt bei den AI-Datentypen.

Und hier sind die AIE und AIE-ML die AMD von Xilinx bekommen hat zuhause. Wobei hier der Fokus auf Inferencing und weniger auf Training liegt. Aber das muss nicht so bleiben.

1686900959349.png

FP8 ist leider nicht enthalten.
https://www.xilinx.com/content/dam/...ine_and_to_its_programming_model_20230428.pdf

https://xilinx.github.io/xup_aie_training/index.html

Die Zahlen sind Werte je Tile je Takt. Also bei 1 GHz ist werden je Tile 512 Mrd Werte berechnet (bei voller Auslastung)

Diese Versa ACAPs sind natürlich fürs Inferencing ausgelegt.
Aber auf der Basis der AIE-ML sollte AMD auch etwas im Richtung Training entwickeln können

VOM FAD 2022
Aktuell
1686901610995.png


Zukunft
1686901818980.png


Auf den Adaptive SoCs warte ich eigentlich.

In meier Navien Vorstellung mehr AIE-ML Tiles und weniger sonstige Hardware, die man zwar beim Inferencing braucht aber nicht beim Training.
 
  • Gefällt mir
Reaktionen: PS828
ETI1120 schrieb:
hier hat er folgende Tabelle drin, alles in rot dürften seine Annahmen sein,
Also sowohl Semianalysis als auch AdoredTV haben unabhängig voneinander identische CU Counts angegeben, die komplett von der Angabe hier abweichen. Demnach wären es 40 CUs pro Die, von denen immer 2 deaktiviert sind. Das macht dann 38×8=304 CUs bei MI300X und 38×6=228 CUs bei MI300A. Demnach wären auch alle Leistungsdaten in der Tabelle massiv überzogen.
 
Zurück
Oben