Ich stell die Zitate ein wenig um, da es in meinem Beitrag jetzt etwas mehr Sinn macht in dieser Reihenfolge zu antworten. Bitte entschuldige das. Ebenso werde ich Zitate auch ein Stück einkürzen. Die Kürzungen werden - wissenschaftlich korrekt mit folgendem gekennzeichnet: [...]
BxBender schrieb:
Natürlich hat ein monolitisches Design in zahlreichen Ausführungen [...] immer noch seine eigenen Vorteile, ...
So pauschal ist das falsch aus verschiedenen Gründen. Natürlich haben monolitische Design ihre Vorteile in bestimmten Bereichen, diese werden aber durch immer bessere Chip-to-Chip-Verbindungen in der Fertigung immer weiter verschoben oder gar vollständig aufgehoben.
So wird zum Beispiel die Latenz als Vorteil genannt, weil die Signalewege kürzer sind. Das ist im ersten Moment "schlüssig", aber hier kommt es darauf an, wie die Chips verbunden werden. Der Signalweg bei Navi31 zwischen den MCD und dem CCD sind nicht "wirklich" länger. als bei einem monolitischen Design, weil diese sehr dirch zusammen gefasst werden. Der Signalweg zwischen einem CCD und dem IOD bei Zen2 - Zen4 ist da länger. Anderes "Verfahren".
Bei den X3D-Cache-CPUs ist der Signalweg in den weiterten Cache sogar "kürzer", weil hier die Chips aufeinander gesetzt werden und entsprechende Leitungen eben Vertikal verlaufen. Hier würde der Weg zu bestimmten Cache-Slices in einem monolitischem Design sogar länger werden.
Und auch bei der Energieeffizienz ist das immer so ein Punkt. Klar kann ein monolitisches Design "effizienter" sein, aber auch bei der Effizienz gibt es entsprechende Stelleschrauben die man nutzen kann. Die Frage ist, ob diese gezogen werden.
Der primäre Vorteil von monolitschen Designs liegen aktuell noch beim Wärmetransport - könnte sich aber mit den Planungen die Datenwege von der Stromversorgung zu trennen, etwas äöndern.
BxBender schrieb:
verschlingt aber unter anderem halt Unsummen an Entwicklung und ist halt auch nicht unendlich skalierbar.
Die Entwicklung für ein Multi-Chip-Design dürfte da nicht unbedingt weniger kosten in der Entwicklung. Das Problem liegt aktuell eher daran, dass Chips nicht beliebig groß werden können ohne entsprechende Renundanzen zu schaffen und eben, dass ab einem gewissen Zeitpunkt man doch wieder ein Multi-Chip-Design benötigt.
BxBender schrieb:
Das System ist vor allen Dingen kostenoptimiert.
Glaube ich bei den Server-CPU und bei der Server-GPU nur zum "Teil". Wenn man sich die Größe des Packages ansieht, was hier alles auch an Chips zusammen kommt, dann wird hier eher die Skalierbarkeit der ausschlaggebende Punkt gewesen sein.
Glyphus schrieb:
Wie sieht das eigentlich unter Linux aus für AMD?
ROCm, wie du es selbst erwähnst.
Glyphus schrieb:
DirectML ist da sicher aussen vor und ROCm wird wohl nie produktive Level erreichen.
DirectML ist auch unter Windows nur bedingt ein guter Ersatz. Die DirectML-Treiber für die meisten Frameworks sind okay, aber die Cuda-Treiber sind oft deutlich besser. Man merkt an dieser Stelle, wie viel Geld NVIDIA hier in die Entwicklung der Treiber steckt, während AMD sich aktuell auf ROCm in Linux stürzt.
Glyphus schrieb:
Wie perfomant ist man da mit OpenCL unterwegs?
OpenCL kannst du - selbst freundlich ausgedrückt - vergessen. Man merkt, dass Apple OpenCL hat fallen lassen und dann alles weitere quasi eingeschlafen ist. Apple war hier der primäre Treiber - eben weil sie weder von AMD, Intel noch NVIDIA abhängig sein wollten. Als Apple sich Metal "verschrieben" hat, gab es nur noch ein paar Kämpfer dafür.
Die "Hoffnung" liegt ein Stückweit bei Vulkan Compute, aber hier ist CUDA allgemein zu mächtig, weswegen ja AMD mit "HIP" hier agiert-
Slowz schrieb:
Das Problem ist aber, dass es Bereiche gibt, in denen AMD leider keiner Alternative zu Nvidia darstellt.
Erneut ist es ein: Ja und Nein zur gleichen Zeit. Es bleibt weiterhin so, dass alle aktuellen beteiligten großen Firmen weitgehend ihre Frameworks in zwei Schichten teilen und Herstellerspezifischen-Code im "Anwenderteil" sehr schnell beseitigen und aufräumen. Keine dieser Firmen will sich alleine abhängig von NVIDIA machen und das aus gutem Grund.
Du musst hier - das machst du auch, ich erwähne es nur - eben wirklich trennen:
Slowz schrieb:
Ich arbeite bspw. in der (KI-)Forschung und mir ist bisher nicht ein einziges Paper untergekommen, in dem nicht PyTorch oder Tensorflow mit einer Nvidia Grafikkarte genutzt wird.
Viele der Papers kenne ich in diesem Bereich auch - es mutiert vom Hobby zur Leidenschaft. Hier ist der wichtige Punkt, dass man aber zwischen den "Inhalten" der Papers trennen muss. Es gibt Papers, die sind "allgemeiner", die sich mit bestimmten "Softwareproblemen" befassen, die man theoretisch auf jeder x-beliebigen Hardware durchführen könnte. Ebenso gibt es aber auch Papers, die sich speziell mit der Hardware-Implementation und Co befassen und da ist NVIDIA wirklich stark vertreten, nur findet man da auch sehr viel von Xilinx und dank deren Kauf kommt auch von AMD da "endlich" etwas.
Das primäre Problem liegt hier an einer anderen Stelle und du hast schon das passende Stichwort genutzt: Grafikkarte.
In deinem Bereich - Forschung - hat NVIDIA gegenüber AMD einen glasklaren Vorteil und auch hier hat NVIDIA wieder den Zeichen der Zeit "erkannt". In der Forschung kenne ich viele, die ihre Arbeiten zu KI nicht auf entsprechenden Serverfarmen mit den GV100, GA100 oder GH100 machen oder die für ihre Workstations entsprchende GPUs bekommen - die sind massiv teuer. Da kommen dann gerne die Quadros oder sogar "GeForce" zum Einsatz, die dann wesentlich günstiger sind und da sie eh die "vollen" Tensor-Kerne haben und NVIDIA hier sogar extra "darauf" achtet, dass die Karten voll genutzt werden können fürs Training, hat man hier für die Foschung einen kostengünstigen Einstieg.
AMD hat hier quasi nur CDNA2 aktuell und bald CDNA3, die entsprechende Kerne mitbringt. RDNA1 und RDNA2 kannst du hier vergessen und auch RDNA3 ist der "KI-Kern" auch eher eine Verlegenheitslösung. Die AMD-Karten werden hier selbst von kleineren Ampere und nun auch Ada-Karten verhauen. Und damit:
Slowz schrieb:
Das betrifft auch Paper von Google, Microsoft und Co. Evtl. sieht das im Produktiveinsatz anders aus, dennoch würde ich Nvidia definitiv als Platzhirsch sehen.
Natürlich betrifft das dann genau so Google, Microsoft und Co. Solange AMD sich der KI in ihren normalen GPUs verschließt, wird NVDIA auch hier den Platzhirsch stellen in der Forschung. Das ist in dem Fall aber eine Kostenfrage.
Der Einsteig in KI ist bei AMD aktuell sehr teuer mit CDNA3. Wenn ich bedenke, dass die 4090 aktuell im Testsystem mit der 7900 XTX bei KI-Anwendungen sowohl unter Linux als auch unter Windows den Boden aufwischt, wird sich das auch erst mal nicht ändern in der Forschung. Hier muss AMD auf jeden Fall bei RDNA4 und in Zukunft ihren Weg überdenken, wenn sie wollen das Universitäten, Firmen und Co in den Forschungsarbeiten mal AMD-Hardware verwenden.