News KI-Beschleuniger: MI300-Nachfolger sollen AMD zur 100-fachen Effizienz bringen

Nixdorf schrieb:
Insofern ist der Idle-Verbrauch sehr wohl relevant, aber nicht, weil die Maschine oft nichts tut, sondern weil sie die zusätzlichen Watt für höhere Takte nutzen kann.
Die Korrelation zwischen niedrigerem Idle Verbrauch und mehr Raum für hohen Takt ist aber ja nicht automatisch gegeben.
Das wäre nur der Fall wenn Verbrauch und Takt immer linear verlaufen.

Es kann genausogut sein, dass eine neue Generation einfach ineffizienter im Idle ist.
Gleichzeitig kann sie aber bei höheren Taktraten effizienter als die alte Generation sein.

Also angenommen die Performance pro MHz ist bei beiden Generationen gleich, kann CPU A bei 1GHz 10W und bei 4GHz 100W brauchen, während die neue CPU B zwar bei 1GHz 15W braucht aber mit 100W auf 4,2GHz kommt.

Somit ist der idle Verbrauch tatsächlich so gut wie egal.


Ein praktisches Beispiel wäre die APU des Steam Deck verglichen mit dem Ryzen Z1 Extreme.
Der Idle Verbrauch des Z1 ist deutlich höher, unter Vollast bei 15W ist der Z1 aber dann deutlich effizienter.
 
@Taxxor Es ging mir um die allgemeine Aussage, dass man mehr Power-Budget sowohl am oberen als auch am unteren Ende finden kann, und daher ein Minimieren des Basisverbrauchs auch bei Servern im Fokus der Hersteller steht.

Ich nenne das auch absichtlich nicht Idle, weil das System so gut wie nie im Idle ist. Aber das, was man im Idle misst, bildet auch in allen Lastsituationen den Grundwert, auf den der Rest des Verbrauchs aufgeschlagen wird.

Das Power-Budget kann nicht beliebig nach oben ausgedehnt werden, weil irgendwann die Kühlung oder auch die Stromversorgung Grenzen setzen. Außerdem ist bei TCO-Betrachtungen die Performance/Watt-Metrik inzwischen immer stärker im Fokus der Käufer, und diese kann man mit einer Senkung des Basisverbrauchs ebenso optimieren wie mit IPC-Zuwächsen oder neuen Fertigungsprozessen.

Den nächsten Schub wird es vermutlich mit Zen 6 geben, wenn mit der Umstellung auf moderne Interconnects die Latenzen gesenkt werden und... die Leistungsaufnahme im Idle gesenkt wird mehr Power-Budget vom Interconnect hin zu den Kernen verschoben werden kann.
 
Nixdorf schrieb:
Es ging mir um die allgemeine Aussage, dass man mehr Power-Budget sowohl am oberen als auch am unteren Ende finden kann, und daher ein Minimieren des Basisverbrauchs auch bei Servern im Fokus der Hersteller steht.
Ich weiß, und darauf entgegnete ich, dass geringerer Verbrauch im unteren Bereich nicht automatisch bedeutet, dass man mehr Reserven für Vollast hat.

Speziell um den Verbrauch im unteren Bereich zu reduzieren sind idR Änderungen nötig, die sich auf der anderen Seite negativ auf den Verbrauch im oberen Bereich auswirken können.

Für die Betrachtung ist daher so oder so einzig relevant, wie die Effizienz unter Last aussieht.
 
Blutschlumpf schrieb:
Interessiert halt schlichtweg keinen, wäre technisch sicher möglich.
Woher weißt Du das?

IMO ist das bestenfalls mit einem so hohen Aufwand möglich den niemand bezahlen will. Auch Du nicht.

Und grundsätzlich gilt, wenn ich auf hohe Leisung optimiere, kann ich nicht gleichzeitig optimal bei extrem niedriger Leistung sein. Wenn ich auf niedrigen Verbrauch in Schwachlast optimiere, kann ich bei der Spitzen-Performance nicht mithalten.

Was ich mit Aufwand meine ist, es gibt eine Option das Optimierungsdilemma zu umgehen, d. h., je nach Last Funktionseinheiten zuzuschalten oder zwischen Funktionseinheiten umzuschalten. Und hier meine ich nicht nur den Prozessor, sondern auch alle Komponenten im System. Aber auch dieses Umschalten und das ermöglichen dieser Option benötigt Energie und erhöht die Systemkosten.

Natürlich kann man den Energieverbrauch senken wenn man Komponten abschaltet. Aber das dauerhafte Abschalten hat auch seine Tücken vor allem bei IO-Komponenten. Zum Beispiel wenn ich nachträglich eine Maus einstecken will.

Bei den Prozessoren gibt es das Hybriddesign, um bei Schachlast Energie zu sparen. Ein Hybriddesign spart Energie wenn gilt:
  • Die E-Kerne sind auf niedrige Last optimiert
  • Die P-Kerne sind auf hohe Last optimiert
  • Bei niedriger Last sind nur die E-Kerne aktiv
  • Bei hoher Last werden die P-Kerne aktiviert. Die E-Kerne verrichten weiterhin die Arbeit an Threads mit niedriger Last.
  • Wenn sich die Last eines Threads ändert, muss er ab einer Schwelle auf den anderen Typ von Kern verschoben werden.
So wie es Intel macht, spart es natürlich keine Energie.

Blutschlumpf schrieb:
wenn sie korrekt funktionieren 5-10 Watt idle brauchen, aber in diversen Situationen mit mehreren Monitoren schlichweg eben nicht klarkommen und dann nicht richtig runtertakten und teilweise absurd hohe Verbräuche haben.
Mit einem Monitor ist es auch erheblich einfacher zu lösen als mit mehreren Monitoren. Sowohl das Programmieren als auch das Testen. Das ist offensichtlich da im Multi-Monitor-Set-up unzählige Monitorkombinationen berücksichtigt werden müssen.

Außerdem gilt: ich kann nur runterfahren, wenn ich auch anschließend garantiert wieder hochfahren kann.

Blutschlumpf schrieb:
Du meinst ausbauen oder gibt es Tools, die die Karte wirklich komplett abschalten können?
Hab ich jedenfalls noch nicht von gehört.
Ich bin da kein Experte und bin nur drauf gestoßen als AMD hat bei der Einführung von Ryzen 7000 von der Option geredet hat, das Grafiksignal über das Mainboard laufen zu lassen und dann im Desktopbetrieb die Grafikkarte abzuschalten und die iGPU zu verwenden. Es ist aber kein neues Feature, das gab es schon vorher.

Kurz drauf bin ich auf einen Artikel gestoßen der erwähnt hat, dass diese Konfiguration generell ein paar Frames kostet. Auch deshalb ist sie wohl nicht so beliebt.

Wenn's Dich interessiert, frag doch im Grafikkartenforum nach, wie gut das tatsächlich funktioniert.

Blutschlumpf schrieb:
Oder die Blase platzt wie viele andere zuvor auch.
Die Blase ist ChatGPT und die Copiloten.

AI oder genauer ML ist keine Blase, sondern wird schon längst in vielen Anwendungsgebieten produktiv eingesetzt.

Ich habe noch nichts davon gehört dass Amazon Alexa wieder abschalten will. Also wird es offensichtlich genutzt. Automatische Übersetzung erleichert mir den Zugang zu Webinhalten in Sprachen die ich nicht verstehe. Und so weiter ...

In der 4. Episode von Advanced Insights erklärt Amin Vahdat wieso Google mit der Entwicklung von Tensor Processing Units angefangen hat.

Ab Minute 10 kommen die beiden zum Thema AI ab Minute 14 erklärt Amin Vahdat wieso Google TPUs entwickelt.

Blutschlumpf schrieb:
Es wurden schon so viele Dinge gehyped, die sich nicht durchsetzen konnten.
AI hat sich in vielen Bereichen schon durchgesetzt.

Und in vielen steht der Durchbruch bevor. Schlicht und einfach weil es notwendig ist und die Probleme mit konventionellen Algorithmen nicht gelöst werden können.

Beispiel:
https://semiwiki.com/eda/334732-ai-for-the-design-of-custom-analog-mixed-signal-ics/

Blutschlumpf schrieb:
Aktuell ist KI primär ne Spielwiese auf die gerade sehr viele Bock haben und wo unheimlich Kohle reingepumpt wird.
Ob sich da langfristig wirklich ein realer Nutzen draus ergibt steht aber in den Sternen.
Das siehst Du falsch. AI in der Form von Machine Learning wird wie wiederholt gesagt, schon lange eingesetzt. Nur wissen es die meisten nicht, dass sie AI Algorithmen verwenden.

Was gab es z. B. einen begeisterten Aufschrei in den Gaming Medien, als Mark Papermaster die Bemerkung fallen lies, dass die nächste Version von FSR so wie DLSS auch AI Algorithmen verwenden wird.

Was sich mit ChatGPT geändert hat, dass nun sehr viele Projekte gestartet wurden, aus der Angst einen Trend zu verpassen.

Natürlich werden viele dieser Projekte scheitern. Aber viele werden erfolgreich sein und ganz wenige werden ihr Umfeld revolutionieren. In der Dot.Com Blase wurde sehr viel Geld verbrannt. Aber noch viel mehr Geld haben Unternehmen verbrannt die sich nicht an der Veränderungen angepasst haben.

Es haben einige bis heute nicht verstanden, dass die Revolution nicht die Website war auf der man einkaufen kann, sondern die Logistik dahinter, die diesen Einkauf erst möglich macht.
 
Nixdorf schrieb:
Den nächsten Schub wird es vermutlich mit Zen 6 geben, wenn mit der Umstellung auf moderne Interconnects die Latenzen gesenkt werden und... die Leistungsaufnahme im Idle gesenkt wird mehr Power-Budget vom Interconnect hin zu den Kernen verschoben werden kann.
Latenzen von Interconnects sind ziemlich stabil und tendenziell eher am steigen denn am fallen. Wenn kann man bei Leitungsvermittlung statt paketvermittlung noch was rausholen und eben bei fibre on Chip plus optimal switching. Aber das sind alles Einmaleffekte.

Und die Effizienz der Interconnects wird zwar noch besser, aber nicht so schnell wie die verfügbare Bandbreit steigt. Sprich die Interconnects verfallen immer mehr Energie.

Also nichts mit mehr PowerBudget.
 
Skysnake schrieb:
Und die Effizienz der Interconnects wird zwar noch besser, aber nicht so schnell wie die verfügbare Bandbreit steigt. Sprich die Interconnects verfallen immer mehr Energie.

aus der Key Note von Matthew Foley Director, EMEA Field Application Engineering at AMD auf der
REAL TIME CONTROL FOR ADAPTIVE OPTICS (RTC4AO) CONFERENCE / WORKSHOP im November 2023
1716744323807.png




1716744374882.png


Ich denke das illustriert was Du sagen willst.

Gerade die Verbindung zum Speicher, immer mehr immer höhere Bandbreite frißt einen immer höheren Anteil an Energie.

Auf was Nixdorf will ist dass die Gerüchte besagen, dass AMD bei Zen 6 eine größere Änderung beim Packaging machen soll und auf Advanced Packaging wechselt. Genauer Fanout. Ich denke es wird aber nicht InFO sein sondern eher CoWoS-R wie TSMC seinen Chip Last Fanout Process nennt.

Und hier gibt es in der Tat einen gewaltigen Hebel:
1716746608790.png

Die Ausgangsbasis 1 ist Offpackage Copper, also wenn die Signale über das Motherboard laufen.

Die interne Kommunikation der Dies von Zen 2 ... 4 ist On-Package (organisches Substrat). In Absoluten Zahlen wird dies üblicherweise mit 2 pJ/bit angegeben. Advanced Packaging wie es Zen 6 verwenden soll bringt eine deutliche Verbesserung um ca. Faktor 4 Der Verbrauch wird üblicherweise mit 0,5 pJ/bit angegeben.

Aus dem Faktor 20 für die Übertragungkosten ziegt HBM seine bessere Effizienz. LPDDR hat, wenn man es wie z. B. Apple On-Üackage plaziert einen ähnlich geringen Energieverbrauch wie HBM.

Es ist übrigens klar dass bei HPC und AI die Recheneinheiten und Hauptspeicher noch näher zueinander rücken müssen. Mit Hybrid Bonding und 3D-Stacking ist ein weiterer Fakator 2,5 drin.

Aber bitte beachten, die Verbindung zum Hauptspeicher auf dem Mainboard benötigt auch mit Advanced Packaging nicht weniger Energie.

In seinem Vortrag zur Chipletlösung von Zen 2 hat Sam Naffziger dargelegt, dass die geringe Bandbreite von CPUs mit organischen Substrat ohne zu großen Energieverbrauch bewältigt werden kann. Seit dem haben sich zwar die Anzahl und Geschgwindigkeit der Speicherkanäle und damit der Energieverbrauch erhöht aber die Werte on-Package sind angesichts von 400 bis 500 W TDP noch nicht dramatisch.

Deshalb gehe ich davon aus, dass es andere Gründe gibt, dass AMD das Packaging wechselt.
BTW würde es mich nicht wundern wenn einige Server SKUs schon bei Zen 5 auf Advaced Packaging wechseln.



In der Keynote wurde das 30 X Versprechen AMD nochmal dargelegt:

1716746373665.png


Es bezieht sich auf HPC, IIRC ist die Ausgangsbasis ein HPC Knoten mit Zen 2 und MI100 und bezog sich auf Linpack.

Bei AI ist das ganze etwas einfacher, da man auch durch angepasste Datentypen die Effizienz steigern kann.
 
Naja, schau dir mal an was Intels Saphire Rapids für den On Package Interconnect zwischen den dies schlucken kann. Das ist massiv.

Das die Effizienz weiter steigt liegt halt auch daran das man immer kürzere Wege überbrückt.

Daher packt man halt alles dichter und steigert die TDP immer weiter. Am Ende hat man zwar TDP Monster aber eben auch Monster Performance und damit etwas mehr Effizienz.

Das skaliert halt nur nicht nach unten. Sprich die Effizienz für kleine Dinger steigt nicht mehr so stark.

Aber egal was wir da machen. Angenehm ist etwas anderes.
 
Skysnake schrieb:
Naja, schau dir mal an was Intels Saphire Rapids für den On Package Interconnect zwischen den dies schlucken kann. Das ist massiv.
Es hat schon seine Gründe warum sich AMD im Jahr 2019 von einem solchen Design verabschiedet hat.

bei einem veralteten Design hilft auch keine moderne Verbindungstechnik. Wobei ich davon auch nicht sonderlich beeindruckt bin.

Skysnake schrieb:
Aber egal was wir da machen. Angenehm ist etwas anderes.
Die einfachen Zeiten als man alle Probleme mit dem Skaling lösen konnte sind lange vorbei.

Die neuen Nodes bringen zwar Fortschritte, aber auch nicht mehr so wie früher.

Und in solchen Situationen muss man halt auch alt hergebrachtes überdenken.

Es gab da bei der ISSCC 2024 eine richtig tolle Keynote:
Racing Down the Slopes of Moore’s Law von Bram Nauta.

Er plädiert dafür die Technik der Receiver grundlegend zu ändern. Genauer gesagt die analoge Signalaufbereitung rauszuschmeißen und alles über den AD-Wandler zu machen.

Ich kann nicht beurteilen, wie praktikabel das tatsächlich ist und die ganzen Berechnungen hab ich Mal geglaubt. Aber so wie er es darstellt, ist die analoge Signalaufbereitung das was beim Receiver bei weitem die meiste Energie verschlingt. Und außerdem skalieren die analogen Schaltkreise schon länger nicht mehr.
 
ETI1120 schrieb:
Deshalb gehe ich davon aus, dass es andere Gründe gibt, dass AMD das Packaging wechselt.
BTW würde es mich nicht wundern wenn einige Server SKUs schon bei Zen 5 auf Advaced Packaging wechseln.
Zen4 wird bereits bei den HPC-Teilen von AMD auf andere Dies geklatscht.
Interessant ist dabei das ein stromsaufendes Die oben drauf geklatscht wurde.
 
Also bei Network Transcievern ist Mixed Sognal schon länger da. Habe ich vor rund 10 Jahren schon dran gearbeitet. Genau wie closed eye Transmission. Irgendwo ist dann aber auch Schluss und Mixed Signal ist bezüglich Simulation nicht trivial.

Ich hatte mich mit OnChip Measurement von GHz Signalen beschäftigt. Also den Kanal on Chip ohne externes Equipment mittwls shmoo Plit zu charakterisieren. Da ging es dann darum das Clocksignal mit 1.5ps zu verschieben um das Auge möglichst optimal zu treffen und gleichzeitig den Anfang und das Ende auch ausmessen zu können während ner Charakterisierung. Wäre dann mit 3 Sampling latches gelaufen die man durchtauschen kann.

Das allein zu simulieren ist die Hölle. Da hat man Dinge mir fs Auslösung und gleichzeitig Effekte die sich in us oder ms abspielen. Nicht lustig und braucht ne echt gute Modellbildung. Aber ich schweige ab.

Danke für das Video. Muss ich mir mal anschauen
Ergänzung ()

ETI1120 schrieb:
Es gab da bei der ISSCC 2024 eine richtig tolle Keynote:
Racing Down the Slopes of Moore’s Law von Bram Nauta
Haha, sehr coole Keynote. Herzlichen Dank dafür. War nach rund 8 Jahren raus aus dem Thema zwar nicht ganz einfach zu folgen, aber 80-90% habe ich nachfolziehen können.

Ganz interessant was er da erzählt und galt wirklich fundiert. Ich hatte das bei 65 und 28nm schon ähnlich gesehen und in die Richtung gehend entwickelt. Jetzt nur für nen Clock Shifter. Aber der hatte sich eben I. Ein Gesamtkonzept eingebettet das in die Richtung geht. Leider viel zu wenig Zeit und keine Perspektive gehabt in dem Themenbereich weiter zu arbeiten. Schade eigentlich.

Was ich aus meiner Arbeit aber sagen kann ist, das man das Supersampling auch noch super mit einem Subsampling kombinieren kann um das Supersampling effektiver zu machen. Es ist ja praktisch wenn man weiß wo die Mitte des Auges ist. Und ja, man kann da an einzelnen Punkten echt massiv Power verfallen um an einer anderen Stelle dann massiv zu sparen. Die Optimierung von einzelnen Bestandteilen ist da nicht mehr sinnvoll.

BTW ich hatte mit Swings von so 100mV gearbeitet wenn ich mich recht erinnere die dann auf eine digitale Clock wieder aufgeblasen wurden. Der 1Bit ADC aka Latch hat echt massiv Power verballert im Gegensatz zu meinem Teil. Vor allem hatte dieses die digitale Clock erst verschleifen müssen. Wenn das direkt so aus ner PDL gekommen wäre hätte man auch massiv Power sparen können. Aber ich glaub ich gehe gerade zu sehr ins Detail. 😀

Wie auch immer. Man kann in dem Bereich sicherlich noch einiges reißen, aber das ist halt echt black magic. Da etwas zu designen was auch wirklich zuverlässig funktioniert ist ein Albtraum.

Optics on Chip ist da ein ähnliches Problem. Wenn man Teile betrachtet ist das super geil, wenn man aber will dass das in Massenproduktion innerhalb von digitalen Chips tut, dann geht die Power hoch und vor allem sie Kosten... Daher sehen wit das halt bis heute noch fast überhaupt nicht. Und wenn dann halt in Switch ASICs bei denen man dann mit dutzenden TBit/s ballert. Aber je mehr man durchjagt desto mehr lohnt es sich. Sprich lieber 1PBit/s durchballern als durch mehrere Chips.

Passt ja aber zu immer weiteren Integration und höheren Power. Deswegen wird die Power noch massiv steigen.

Das Ende vom Tunnel sehe ich aber trotzdem. So ein wirklich kompletter GameChanger wäre dann erst der Umstieg auf Superconduktive Computing. Gerne zusammen mit Quantencomputing.

Ich denke das werde ich noch erleben oder aber den vollständigen Stillstand.
 
Zuletzt bearbeitet:
foofoobar schrieb:
Zen4 wird bereits bei den HPC-Teilen von AMD auf andere Dies geklatscht.
Es sind CCDs mit einer anderen Metallisierung. Die unterste Ebene hat eben keine Mircobumps sondern BVPs die auf die TSVs aufgesetzt werden.

AMD hat dazu einen Stapel netter Folien gemacht.
Ergänzung ()

Skysnake schrieb:
Optics on Chip ist da ein ähnliches Problem. Wenn man Teile betrachtet ist das super geil, wenn man aber will dass das in Massenproduktion innerhalb von digitalen Chips tut, dann geht die Power hoch und vor allem sie Kosten...
Die Lösung für die Inkompatibiliät der Logik und der Bauelementre für die optische Kopplung wird sein, dass man die Optischen Komponenten auf ein eigenes Chiplet packt und das Chiplet per Advanced Packaging mit der Logik verknüpft.

Das läuft unter dem Schlagwort co-packaged optics und ist gerade eines der heißen Themen.

Ein Foliensatz als Beispiel:
https://www.oiforum.com/wp-content/uploads/OFC2023_OIF_Co-Packaging_Interop_Demo.pdf
 
Zuletzt bearbeitet:
foofoobar schrieb:
Zen4 wird bereits bei den HPC-Teilen von AMD auf andere Dies geklatscht.
Interessant ist dabei das ein stromsaufendes Die oben drauf geklatscht wurde.
Das ist eigentlich logisch, weil man so den Die, der die meiste Wärme produziert, am besten kühlen kann - der ist dann ja direkt am Kühler montiert, während die eher unkritischen Teile dann darunter sind.

So gesehen ist eher interessant, dass AMD bei den X3D-CPUs den sparsamen Cache oben auf die CCDs packt. Thermisch ist das die schlechteste Option, aber um den extra Cache optional zu halten eben auch die einzige Möglichkeit.
Ergänzung ()

ETI1120 schrieb:
Es sind CCDs mit einer anderen Metallisierung. Die unterste Ebene hat eben keine Mircobumps sondern BVPs die auf die TSVs aufgesetzt werden.
Trotzdem kann man MI300A ja schon als Zen 4-SKU sehen, die mit Advanced Packaging gefertigt wird, da hat er schon recht. Die Details, wie der Chip aufgebaut ist, sind für diese Feststellung ja gar nicht so wichtig.

Spannend wäre dabei aber, ob AMD vielleicht doch noch eine reine CPU-Version bringt. Eine 96-Kern CPU mit integriertem HBM wäre da schließlich relativ simpel möglich.
 
Den aktuellen Hype um AI kann man meiner Meinung nach gut mit der dotcom-Blase vergleichen. Die Sinnhaftigkeit und Durchsetzungsfähigkeit der Technologie steht außer Frage, bloß scheint man für den ganzen Hype noch etwas zu früh dran zu sein.

Aber ich kann auch verstehen, warum man als Unternehmen mit viel Kleingeld ins Rennen mit einsteigen will. Am Ende des Tages brauchts für die Menschheit nur eine einzige AGI, und wer die zuerst schaffen kann, hat halt gewonnen.

Diese AGI wird dann entweder eine Technologieexplosion verursachen oder der Menschheit aufzeigen, dass wir schon ziemlich am Limit sind, was das technisch machbare angeht :D
 
stefan92x schrieb:
Das ist eigentlich logisch, weil man so den Die, der die meiste Wärme produziert, am besten kühlen kann - der ist dann ja direkt am Kühler montiert, während die eher unkritischen Teile dann darunter sind.
Die Wärmeentwicklung ist nicht das einzige Kriterium.

Es kommt auch darauf an wie die Signale geroutet werden.
stefan92x schrieb:
So gesehen ist eher interessant, dass AMD bei den X3D-CPUs den sparsamen Cache oben auf die CCDs packt. Thermisch ist das die schlechteste Option, aber um den extra Cache optional zu halten eben auch die einzige Möglichkeit.
Das ist ein Aspekt. Der andere ist dass alle Signale zum CCD per TSV durch das Cache Die und Dummy Silizium geführt werden müssen.

Bei der MI300 sitzt der Memory Controller im unteren IOD.
stefan92x schrieb:
Trotzdem kann man MI300A ja schon als Zen 4-SKU sehen, die mit Advanced Packaging gefertigt wird, da hat er schon recht. Die Details, wie der Chip aufgebaut ist, sind für diese Feststellung ja gar nicht so wichtig.
Das würde ich jetzt so nicht formulieren. Du hast aber recht, dass es der erste Schritt war einen Die mit unterschiedlichen Metallsierungen zu fertigen.
stefan92x schrieb:
Spannend wäre dabei aber, ob AMD vielleicht doch noch eine reine CPU-Version bringt. Eine 96-Kern CPU mit integriertem HBM wäre da schließlich relativ simpel möglich.
Wer braucht das? Welche Last profitiert davon?
 
ETI1120 schrieb:
Bei der MI300 sitzt der Memory Controller im unteren IOD.
Ja meine Darstellung war etwas verkürzt. Ist definitiv richtig, dass das ganze Chipdesign vernünftig darauf ausgelegt sein muss, damit es sinnvoll ist, leistungshungrige Chiplets nach oben zu packen. Signale per TSV vom Substrat nach oben durchleiten zu müssen, ist da sicherlich die schlechteste Option. Was AMD beim Stacking jetzt ja immer hat, ist dass der obere Die Datenleitungen zum Die darunter braucht (3D Cache zum Cache auf dem CCD bei Epyc/Ryzen, CCD zum Memory/Cache-Die bei MI300A).

ETI1120 schrieb:
Wer braucht das? Welche Last profitiert davon?
So ein Chip wäre ja ein Gegenstück zu Intels Xeon Max, den man ja auch als CPU exklusiv mit HBM betreiben kann (auch wenn der noch zusätzlichen DDR5 anbinden kann). Man kann die aber ja auch exklusiv mit dem on-package HBM betreiben, und dafür hat STH mal ein paar Benchmarks gemacht:
https://www.servethehome.com/intel-...hbm2e-onboard-like-a-gpu-or-ai-accelerator/4/
 
PrefoX schrieb:
Naja die effizientesten Rechenzentren laufen ja mit Nvidia GPUs, also hat Team Green auch diesen Vorteil. und die laufen nicht mal mit Blackwell...

Aber genau das ist ja der Punkt. Wenn AMD hier eine Alternative bietet, kann sich das positiv auf die Preise auswirken.
Sicherlich ist Nvidia enorm weit voraus, aber nicht jede Anwendung benötigt immer das Beste vom Besten.

Siehe AMD vs. Intel, als die Ryzen Prozessoren rauskamen. Bis dahin "benötigte niemand mehr als 4 Kerne", lt. Intel...

Wie gesagt, Wettbewerb tut immer gut!
 
stefan92x schrieb:
Das ist eigentlich logisch, weil man so den Die, der die meiste Wärme produziert, am besten kühlen kann - der ist dann ja direkt am Kühler montiert, während die eher unkritischen Teile dann darunter sind.
Allerdings muss man auch den Strom (zweistellige Ampere) mit wenig Spannungsabfall in das obere Die bekommen.
Das dürfte alles andere als trivial sein.
Ergänzung ()

cRoss. schrieb:
Diese AGI wird dann entweder eine Technologieexplosion verursachen oder der Menschheit aufzeigen, dass wir schon ziemlich am Limit sind, was das technisch machbare angeht :D
Erstmal bläst dieser Kram weitere Treibhausgase in die Atmosphäre:

https://www.heise.de/news/Microsoft-KI-laesst-Emissionen-um-bis-zu-40-Prozent-steigen-9722941.html
 
stefan92x schrieb:
So ein Chip wäre ja ein Gegenstück zu Intels Xeon Max, den man ja auch als CPU exklusiv mit HBM betreiben kann (auch wenn der noch zusätzlichen DDR5 anbinden kann).
Bleibt die Frage wer braucht das?
 
Dafür habe ich doch die Benchmarks von STH verlinkt? Einige Anwendungen haben da nunmal massiv von HBM statt DDR profitiert. Als HPC-CPU wäre sowas also zumindest denkbar. Ob genug Nachfrage existieren würde, dass sich das als Produkt wirklich lohnt, weiß ich aber auch nicht. Bis jetzt sieht man es ja nicht, das spricht erstmal dagegen, also lautet die Antwort vermutlich: Nicht genug Kunden.

Bleibt erstmal also ein reines Gedankenspiel.
 
Einige Benchmarks gibt es immer. Die Frage ist welche Anwendungsfälle davon profitieren. Und ob die Zusätzlichen Kosten das überhaupt wert sind.

AMD hat die CPU only Variante nicht offiziell vorgestellt. D. h., AMD findet diesen Markt zumindest momentan uninteressant.

Natürlich wird AMD SemiCustom sehr gerne ein Projekt auflegen. Aber da wird es auch eine Mindestabnahme Menge geben.
 
Zurück
Oben