News RTX 5000 & RX 8000: Ein Die für Blackwell, Chiplet-GPU für RDNA 4 im Gespräch

syfsyn schrieb:
Wenn man davon ausgeht das nvidia wieder so ne sprung macht wie rtx4090 den sehe ich nicht

Da geht hoffentlich keiner von aus, es sei denn man WILL unbedingt mit aller Gewalt enttäuscht werden ;) .

Von RTX 3090 auf RTX 4090 war logischerweise ein ordentlicher Sprung, alleine schon von der Fertigung her. Samsung 8nm (~Äquivalent zu TSMC10nm) auf TSMC 5nm (4N) war ein relativ bedeutsamer Satz.
So ein signifikanter Fortschritt von einer Gen zur nächsten, alleine beim Herstellungsprozess, passiert nur alle paar Jahre mal.

Bei RTX 4090 zu RTX 5090 wird es höchstens kleinere Optimierungen beim Prozess geben, da beide auf einem 5nm Prozess basieren werden. Da wird sich nicht viel tun.

Es wird alles darauf ankommen, was die neue Blackwell Architektur hergibt und wie nVidia die Cores verteilen werden plus was der GDDR7 on top bringen wird (mit ggf. 512-Bit breitem Bus).

Die Mehrleistung rein aus der neueren Fertigung wird minimal sein. Vielleicht wird es in RT ein Plus von +50% geben, wenn nVidia der RTX 5090 deutlich mehr RT Cores spendiert. Entsprechend könnte aber die Raster-Leistung dann stagnieren oder nur ein minimales Plus aufweisen oder gar rückläufig sein.

In jedem Fall bin ich persönlich darauf eingestellt, dass RTX 5090 nur ein lauwarmer Aufguss wird, weil nVidia alle Ressourcen im Bereich AI/Datacenter gebunden haben. AMD wird auch keine Bäume ausreißen.
nVidia werden nur so hoch springen wie sie müssen, um das Preisschild zu rechtfertigen und fertig ist der Lack für diese Generation.
Gaming hat bei beiden Herstellern diese Gen Sendepause, solange es andernorts die Milliarden im Dutzend billiger zu verdienen gibt.
 
  • Gefällt mir
Reaktionen: Jan, incurable, schneeland und eine weitere Person
Das würde jedenfalls für mich Sinn ergeben. Zur Zeit gibt es keine freien Resourcen für`s perfekte "Zusammenkleben", doch wenn sie technisch schon soweit sind, dies ohne größere Verluste/Probleme teilen zu können, dann wäre das ein sehr guter Testlauf, der nur mehr die Interkonnektprobleme ausklammert.
Wäre wirklich sehr sehr spannend!
 
  • Gefällt mir
Reaktionen: xexex
Novasun schrieb:
Das ist nicht richtig. Schon die CPU beweist dir ja das Gegenteil...
Erklär mal.

Novasun schrieb:
Und das ganze ist nicht mit Sli oder Crossfire vergleichbar.
Wenn zwei vollständige Grafikprozessoren sich eine Arbeitslast teilen unterscheidet sich das von SLI und Crossfire wodurch?

Novasun schrieb:
Aber ich bin sicher da gibt es Lösungen für...
Ach, da hat sicher fast keiner in den letzten handvoll Jahrzehnten dran geforscht. Sicher.
 
incurable schrieb:
Wenn zwei vollständige Grafikprozessoren sich eine Arbeitslast teilen unterscheidet sich das von SLI und Crossfire wodurch?
Ganz einfach sie sind nicht über dass Mobo angebunden was CPU auch belastet haben einen Interconect wo die daten aufgeteilt werden im ideal Fall einen I/O Die mit SOC der eine NPU hat der dass erledigt würde die Geschwindigkeit noch erhöhen massive. ;)
Ergänzung ()

OH habe was neues also die neuen Modele unterhalb der RTX5090 bekommen nicht mal mehr VRAM sondern der einstieg begingt bei 6GB RTX5050 dann 8GB 12GB 16GB 32GB.

Glaube auf jeden fall alles unter der RTX5090 wird sehr mau werden naja außer der Preis geht nartürlich hoch ;)
 
syfsyn schrieb:
Die tmu sind an die rop gekoppelt amd wie nvidia ist das identisch zu den gigapixel mit gigatexel linear verbunden . Darum hebt sich das limit auf.
Ja und Nein: Die TMUs sind heute nicht mehr an die ROPs gekoppelt, sondern Bestandteil der CU/SM und skalieren auch mit diesen. Die TMUs werden auch ihre Wichtigkeit behalten, weil sie den Texel für den "Pixel" liefern.

Die ROPs werden bei dem Wandel zu vollständigen RayTracern als Engins jedoch an Bedeutung verlieren und es ist durchaus möglich, dass in Zukunft das Verhältnis von ROP zu TMU sich verändert.
 
  • Gefällt mir
Reaktionen: Flaschensammler und Mcr-King
Mcr-King schrieb:
Ganz einfach sie sind nicht über dass Mobo angebunden was CPU auch belastet haben einen Interconect wo die daten aufgeteilt werden im ideal Fall einen I/O Die mit SOC der eine NPU hat der dass erledigt würde die Geschwindigkeit noch erhöhen massive. ;)
Ey-Ei. Ey-Ei. Ey-Ei. Ey-Ei! 😉
 
incurable schrieb:
Wenn zwei vollständige Grafikprozessoren sich eine Arbeitslast teilen unterscheidet sich das von SLI und Crossfire wodurch?
Bei SLI und Crossfire haben zwei völlig autarke GPUs mit völlig voneinander getrenntem VRAM, jeweils ein Bild gerendert und abwechselnd ausgegeben. Das ist aber nicht das, was mit modernen Lösungen möglich ist, wie zum Beispiel Intel bei den Xeon CPUs zeigt.
1716928596422.png


Das große Problem ist es hierbei, genug Interconnects zwischen den zwei Dies zu schaffen, damit die Daten schnell genug zwischen den zwei Kernen ausgetauscht werden können und sich die ganze GPU oder CPU wie eine einzige verhält. AMD hat dafür "damals" die "Infinity Fabric" eingesetzt, was aber nur aus wenigen Links bestand, heutige Lösungen sind da viel weiter, siehe zum Beispiel Intels EMIB.

Das Problem was Nvidia jetzt hätte, das Packaging ist bei TSMC ein Sorgenkind und würde zu hohen Lieferschwierigkeiten führen, wenn man auf getrennte Dies setzen würde. Mit der Idee die Dies gleich als "Siamesische Zwillinge" herzustellen, könnte das Problem umgangen werden. Da wo man jetzt eigentlich EMIB bräuchte oder eine ähnliche Technologie von TSMC, hat man schlichtweg eine trennbare Verbindung direkt auf dem Wafer vorgesehen.

Alles nur Gerüchte, denkbar ist es aber allemal, Intel zeigt mit den Xeons wunderbar wie es funktioniert und hat auch nicht die gleichen "Probleme" wie AMD sie zumindest mal hatte, wenn Daten zwischen zwei Kernen ausgetauscht werden müssen.
1716929648790.png

https://jprahman.substack.com/p/sapphire-rapids-core-to-core-latency

Schaut man sich das gezeigte Foto an oder auch frühere Chip Fotos von Nvidia, sieht man ja meist einen zweiteiligen Aufbau. Mit Blackwell hat man die Technik bereits im Einsatz, also wieso sollte es nicht bei den GPUs genauso umsetzbar sein?
1716930132484.png

Blackwell als neue GPU-Architektur für AI-Beschleuniger nutzt deshalb ein Design mit zwei identischen Dies, die wiederum über einen Die-to-Die-Link mit 10 TB/s kommunizieren und gegenüber Anwendungen als eine einzelne GPU agieren sollen, sodass laut Nvidia keine Nachteile eines klassischen Chiplet-Designs bestehen würden.
https://www.computerbase.de/2024-03...als-dual-die-mit-208-milliarden-transistoren/

Letztendlich ist doch alles bereits da und offen kommuniziert, der einzige Trick ist, falls die Gerüchte stimmen, die Chips so zu gestalten, dass sie durchgesägt werden können. Im Gegensatz zu AMD, hat man bei Nvidia schon lange Chips die danach eigentlich schreien.
1716931248337.png

https://locuza.substack.com/p/nvidias-ad102-officially-revealed
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Maxminator, peru3232, ThirdLife und eine weitere Person
Es hat sich was am am AMD Teil der News getan, sie geht auf einen fake zurück:
1716934473525.png


Es macht ökonomisch keinen Sinn eine Mittelklasse-GPU aus winzigen Chiplets zusammenzubauen.
gerade die Verbindungstechnik, die bei GPUs erforderlich ist, ist zu teuer.

Breaktivity schrieb:
Wenn man nach dem Stand der Gerüchteküche geht, muss AMD ja schon einen Plan und entsprechende Implementierungen haben, wie sie Arbeit einer GPU auf mehrere Dies aufteilen
AMD hat dazu mehrere Patentanträge eingereicht die zum Teil auch schon zugesprochen wurden.
Es gab mehrere Artikel auf ComputerBase dazu.

Breaktivity schrieb:
- die verworfenen Navi 41/42 sollen dahingehend ja ziemlich wild gewesen sein.
Das was MLID als verworfene N41 dargestellt hat, war im Grunde eine MI300.

Viel zu teuer als Gaming Grafikkarte.
 
  • Gefällt mir
Reaktionen: Jan, incurable, CDLABSRadonP... und 2 andere
xexex schrieb:
Das große Problem ist es hierbei, genug Interconnects zwischen den zwei Dies zu schaffen, damit die Daten schnell genug zwischen den zwei Kernen ausgetauscht werden können und sich die ganze GPU oder CPU wie eine einzige verhält. AMD hat dafür "damals" die "Infinity Fabric" eingesetzt, was aber nur aus wenigen Links bestand, heutige Lösungen sind da viel weiter, siehe zum Beispiel Intels EMIB.
Dürfte das aber nicht nur bei teurer oder Highend-Hardware eine Rolle spielen oder wenn man Leistung nach oben skalieren will ?

Versteh ichs falsch ? Interconnects sind ja analoger connect und der lässt sich ja gar nicht mehr shrinken aktuell. Wenn man also viele Interconnects und viel analoges IO verbaut ist das ja ein enormer Kostentreiber auf der Chipfläche und somit nur relevant für Produkte wo man dann auch entsprechend teuer vermarkten kann.

Low-End und Midrange Produkte dürften sich mit dem Überschuss an IO ja gar nicht gut skalieren lassen und preislich eher teurer werden als ein Monolith oder ?

Ich steck in der Materie nicht drin aber das wäre jetzt so mein Verständnis. :D
 
HardRockDude schrieb:
Vielleicht kann das mal jemand genauer erklären 🙏
Das macht man bei CPUs mittlerweile auch (Chiplet/Tile design bei Ryzen und Meteorlake).

Hintergrund sind hohe Waferpreise und zum Teil auch Flexibilität (man muss nicht für alles ein neues Layout machen, wenn man eine Sache anpassen möchte). Waferpreise sind in den letzten 10 Jahren um etwa Faktor 8 gestiegen und der Preisverfall von Nodes nachdem sie neu auf den Markt kommen ist gerade in den letzten 4-5 Jahren stark zurück gegangen.

Kleinere Chips haben deutlich weniger Ausschuss als große und man hat weniger ungenutzte Waferfläche. Damit lässt sich aus den teuren Wafern dann das meiste rausholen. Gleichzeitig ist die Technologie Chips miteinander zu verbinden deutlich besser geworden, womit die Nachteile deutlich geringer ausfallen.

@ThirdLife
Jaein. Analog ist ein weites Feld. Was du meinst ist die Crosstalk Termination im Bus System. Die Verbindungsleiterbahnen selbst shrinken weiter. Kondensatoren auf dem Chip auch. Die größten Probleme bekommst du über die diskrete Weite der Finnen und Kurzkanaleffekte. Da kann man sich die Kanalweite nicht beliebig als Stellgröße auswählen, was teils zu skurrilen Längen führt. Einige Sachen lassen sich gut verkleinern (Kapazitäten, getaktete pseudo Widerstände) andere wiederum nicht.
 
Zuletzt bearbeitet von einem Moderator:
  • Gefällt mir
Reaktionen: ThirdLife
Nvidia schwimmt ja nur im Geld und die Leute zahlen jeden Preis, somit bleibt es dort Monolitisch.
Der große AMD Chip soll ja irgendwie unter 300 mm2 bleiben, somit denke ich nicht das die dort Chiplets machen. Wäre natürlich für einen Preis/Technologiekampf von Vorteil. Denke das ein Chiplet-Design bei RDNA5 kommen könnte.
 
incurable schrieb:
Und das ändert was daran, dass die CPUs gut sind?
Du hängst dich hier an einem Detail auf, das kaum etwas aussagt wenn man das Gesamtprodukt betrachtet... Und schlimmer noch, bei Render-Pipelines so auch gar nicht so direkt zutrifft da GPU != CPU.

Plus, wenn das "Problem" so massiv sein sollte wie du implizierst, wie kommt es dann, dass jeder andere Hersteller, inklusive ARM und RISC-V Chips, ebenfalls auf Chiplets setzt oder setzen will?

Jede Lösung für ein Problem hat Vor- und Nachteile absolut. Nur bringt es nichts, wenn man sich auf ein kleines Nachteil fokussiert, wenn es für das Gesamtprodukt kaum Relevanz hat.
 
  • Gefällt mir
Reaktionen: Mcr-King
incurable schrieb:
Erklär mal.

CPUs skalieren fast bis zu 100% bei parallelisierbaren Problemen.

Wenn zwei vollständige Grafikprozessoren sich eine Arbeitslast teilen unterscheidet sich das von SLI und Crossfire wodurch?

Vorallem auf die Problematiken die Sli und Co hatten. Treiber je Spiel von nöten und Microruckler

Ach, da hat sicher fast keiner in den letzten handvoll Jahrzehnten dran geforscht. Sicher.

Der Punkt ist folgender. Beim klassischen Sli Crossfire ist das größte Problem die unterschiedliche Zeit die das Gespann brauchte um Bilder zu rendern => Microruckler

Möglich Lösungsansätze:
Renderpipeline (gibt es heute schon) die GPU gibt das Bild nicht sofort aus.
Bei NV gab es eine Pipeline die bis zu 6 Bilder vorhielt. Du kannst dann die Ausgabe aus der Pipeline harmonisieren was die Zeitabstände der Ausgabe betrifft...

Anderer Ansatz
Die Arbeitslast muss harmonisiert werden.
Beispiel im Sli Crossfire. Bild A enthielt wenig Grafikinformationen das Bild konnte sehr schnell gerendert werden und ausgegeben werden. Während Bild B viel Grafikinfrmationen enthielt und das Rendern viel Zeit braucht.
Bild A wurde auf GPU A berechnet und B auf GPU B. Folge Ruckler.

Das kann man umgehen wenn beide GPUs Arbeitspakete haben die etwa gleich lang dauern werden.

Die Überlegungen gehen ja auch in diese Richtung. Wir müssen weiter denken. Heute reden wir noch von nur 2 GPU Tiles - soll das aber funktionieren und seine Stärken ausspielen reden wir in x Jahren von 16, 32 oder gar 256

Bei so vielen Fonktionseinheiten wird dann nicht jede für sich einen Frame rendern sondern ein Verbund von X ein Frame...
 
ETI1120 schrieb:
Es hat sich was am am AMD Teil der News getan, sie geht auf einen fake zurück:
Anhang anzeigen 1488682

Es macht ökonomisch keinen Sinn eine Mittelklasse-GPU aus winzigen Chiplets zusammenzubauen.
gerade die Verbindungstechnik, die bei GPUs erforderlich ist, ist zu teuer.


AMD hat dazu mehrere Patentanträge eingereicht die zum Teil auch schon zugesprochen wurden.
Es gab mehrere Artikel auf ComputerBase dazu.


Das was MLID als verworfene N41 dargestellt hat, war im Grunde eine MI300.

Viel zu teuer als Gaming Grafikkarte.
Bei solch wichtigen Neuigkeiten tagge ich stets den Ersteller der News, also in diesem Fall @Jan, damit auch eine Chance für ein offizielles Update besteht.
 
  • Gefällt mir
Reaktionen: Mcr-King und Jan
Artikel-Update: Nachdem der in der Regel gut informierte X-Nutzer kepler_l2 die Gerüchte um einen MCM-Ansatz bei RDNA 4 als „falsch“ bezeichnet hatte, hat sich Nutzer 0x22h als Quelle dieses Gerüchtes ebenfalls zu Wort gemeldet und es als eine Ente, die er sich selbst ausgedacht habe, bezeichnet.

[Embed: Zum Betrachten bitte den Artikel aufrufen.]
 
  • Gefällt mir
Reaktionen: Mcr-King
Die gute alte Twitterscheiße und Geltungsblase wie bei Instagram, unglaublich....
 
  • Gefällt mir
Reaktionen: Hate01, Mcr-King, Flaschensammler und 4 andere
RogueSix schrieb:
Da geht hoffentlich keiner von aus, es sei denn man WILL unbedingt mit aller Gewalt enttäuscht werden ;) .

Von RTX 3090 auf RTX 4090 war logischerweise ein ordentlicher Sprung, alleine schon von der Fertigung her. Samsung 8nm (~Äquivalent zu TSMC10nm) auf TSMC 5nm (4N) war ein relativ bedeutsamer Satz.
So ein signifikanter Fortschritt von einer Gen zur nächsten, alleine beim Herstellungsprozess, passiert nur alle paar Jahre mal.

Bei RTX 4090 zu RTX 5090 wird es höchstens kleinere Optimierungen beim Prozess geben, da beide auf einem 5nm Prozess basieren werden. Da wird sich nicht viel tun.

Es wird alles darauf ankommen, was die neue Blackwell Architektur hergibt und wie nVidia die Cores verteilen werden plus was der GDDR7 on top bringen wird (mit ggf. 512-Bit breitem Bus).

Die Mehrleistung rein aus der neueren Fertigung wird minimal sein. Vielleicht wird es in RT ein Plus von +50% geben, wenn nVidia der RTX 5090 deutlich mehr RT Cores spendiert. Entsprechend könnte aber die Raster-Leistung dann stagnieren oder nur ein minimales Plus aufweisen oder gar rückläufig sein.

In jedem Fall bin ich persönlich darauf eingestellt, dass RTX 5090 nur ein lauwarmer Aufguss wird, weil nVidia alle Ressourcen im Bereich AI/Datacenter gebunden haben. AMD wird auch keine Bäume ausreißen.
nVidia werden nur so hoch springen wie sie müssen, um das Preisschild zu rechtfertigen und fertig ist der Lack für diese Generation.
Gaming hat bei beiden Herstellern diese Gen Sendepause, solange es andernorts die Milliarden im Dutzend billiger zu verdienen gibt.
Als ob die RTX 5090 langsamer wird 😂
 
  • Gefällt mir
Reaktionen: Laphonso und Jedi123
RogueSix schrieb:
Entsprechend könnte aber die Raster-Leistung dann stagnieren oder nur ein minimales Plus aufweisen oder gar rückläufig sein.
Klar die RTX 5090 wird langsamer.. also die Kommentare hier sind ja wirklich nur noch Science-Fiction.
 
  • Gefällt mir
Reaktionen: Laphonso, Mcr-King, DrFreaK666 und eine weitere Person
Jedi123 schrieb:
Klar die RTX 5090 wird langsamer.. also die Kommentare hier sind ja wirklich nur noch Science-Fiction.
Du hast schon auch gelesen was er sagte ? RASTER-Leistung könnte rückläufig sein wenn man deutlich Chipfläche opfern würde für RT-Cores.

Weiss nicht was daran jetzt unklar ist ? :rolleyes:
 
  • Gefällt mir
Reaktionen: Mcr-King und fox40phil
klingt trotzdem unglaubwürdig
 
  • Gefällt mir
Reaktionen: Mcr-King
Zurück
Oben