Selber schrieb:
Denke die Richtung um die es geht steht schon fest, aber die Umsetzung wird länger als normal dauern. Chiplets und eine generelle Umstrukturierung der Architektur hört sich nach viel Arbeit an.
Frage ist eher, was sie genau umstrukturieren. Die CU gibt es eigentlich seit RDNA nicht mehr, man nannte sie nur so, weil man einen Vergleich zum alten Schema haben wollte. Ein Großteil der Aufgaben, die die CU vorher selbst hatte, hat bereits die WGP übernommen, während die CU nur die Vektor-Registerfile, sowie die Vec32-ALU sowie die die Skalar-ALUs nd die TMU. Ansonten war alles in die WGP gewandert.
Es ist am Ende quasi nur konsequent, wenn AMD nicht mehr von CU redet oder DualCU aka WGP sondern nur noch von der WGP.
Und dann ist da die Frage, was sie genau machen: Verbreitern sie die Vec32 zu Vec64 oder kommen noch mal 4 Vec32. Das wird am Ende die Frage sein. Beides aber nicht unmöglich.
ruthi91 schrieb:
Sie scheinen sich bei ihrer infinity cache Sache ja sehr sicher zu sein, ich hätte sonst mindestens mal Gddr6X erwartet oder auch 384bit Interface.
Wenn ich mir RDNA2 ansehe und wie der Infintie-Cache platziert wurde, kann es sogar möglich sein, dass sie den Infintie-Cache auch für diese "Tile"-Lösung brauchen. Wenn sie das alles geschickt platzieren, können sie die Kommunikation innerhalb der GPU so aufrecht erhalten mit kurzen Latenzen und denoch eben mehrere Tiles verwenden, ohne dass man sich große Gedanken machen muss.
Das große Problem bisher war immer, dass man für bestimmte Schritte auch die Schritte der anderen brauchte und so gewisse Daten für alle Verfügbar sein sollten.
morb schrieb:
Wird interessant wie dieses Konzept die Daten verteilen wird.
Kann ich mir gerade nicht so richtig vorstellen. In Kombi mit nem OS-Grafikscheduler? Wird vermutlich zu langsam sein.
Wenn man es richtig anstellt - das ist jetzt nur die grobe graue Theorie und die ist einfach - dann zerlegt man ein Bild in Kacheln und schiebt die zu berechenden Kacheln in eine Warteliste. Die WGP holen sich aus dieser Warteliste die Kacheln, berechnen diese und schieben sie zurück, so dass die Kacheln verbunden werden und dann ausgeben werden.
Es gibt dabei Daten, die sind pro Kachel exklusiv und eben Daten, die braucht man bei jeder Kachel. Hier könnte der große IC dann helfen. Dann braucht man quasi nur noch einen "Controller" der das ganze Chip-Intern steuert - also der Sheduler auf dem Chip.
Nach Außen - also für das OS - ändert sich da in der Regel nichts, weil die sehen nur die eine GPU und schiebt darauf.
PS828 schrieb:
3x80CUs maximal (auch wenn sie nicht mehr so heißen) und ein viertes Chiplet für IO und Infinity Cache. Durchaus spannend und machbar.
Es geht doch aktuell um 2 * 30 WGP ah 256 Shader, was in der Form 2 * 60 WGP wäre, oder eben 2 * 120 CUs.
PS828 schrieb:
Evtl ist auch nur alles oberhalb von 80 CUs als Chiplet Design. Der Rest unterhalb kommt weiterhin als Monolith. Wird man sehen müssen.
Kann gut möglich sein, dass man unterhalb der 30 WGP pro Tile dann einen monolitischen Chip nimmt. Bis 40 WGP kann man ja relativ gut abbilden, auch wenn man am Ende ca. 1/3 der Tile deaktiviert.