News AMD zeigt lauffähige „Kaveri“-APU

Die GFLOPS Angaben sind laut Appendix alle rechnerisch ermittelt: (Cores * Freq * 8) für CPU + (Shader * Freq * 2) für GPU.

Bei der GPU Shader * Frequenz * X.
Ist X (IPC) = 2 gleich für VLIW5 oder VLIW4, oder GCN ?

Bsp:
GPU-Rechenl. (Progn.) - ca. 707 GFlops

Trinity
707 * 10^6 = (384 * 800 *10^3 * X)
X = also 2,3 für VLIW4 (oder ?)

Llano (Radeon HD 6550D )
480 * 10^6 = (400 * 600* 10^3 * X)
X = 2 für VLIW5

Somit wenn wir Richland ausrechnen wollen:
Y = (384 * 844 *10^3 * 2,3)
Y = 745 Gflops für die GPU.

Kaveri
921 * 10^6 = (512 *900 *10^3 * X)
X = 1,99 für GCN (?)

CPU Kaveri ?
(4 * 4 * 10^6 * X) = 128 * 10^6
X = 8

Somit falls die gflops Werte, die Formel, Shaderanzahl ect stimmen, dann ist ja GCN und VLIW5 mehr oder weniger, wenn alles glatt läuft kaum unterschiedlich und haben ca den Faktor 2.

Die theoretische Spitzenleistung (Theoretical Peak Performance) eines einzelnen Rechenknotens eines CPU-basierten Hochleistungsrechners lässt sich wie folgt berechnen:
GFLOPS = (CPU-Takt in GHz) × (Anzahl der CPU-Kerne) × (CPU-Instruktionen pro Takt) × (Anzahl der CPU im Rechenknoten).


Offtopic
Nur mal so ne kleine Frage am Rande. Wenn man VLIW5 und GCN nimmt und Games optimiert, müssten sie im besten falls beide den Faktor 2 haben.
Somit stellt sich mir die Frage, kann VLIW5 bei guter Optimierung eine ebenso gute Effizienz erreichen wie GCN. VLIW 4 wurde ja im Desktop eingeführt, da man ja VLIW5 meist nur 3,5 Alus ordentlich nutzen konnte.

Wenn man nämlich den Verbauch einer 5670 mit 400 Shader anschaut (50 watt Last) und dann bedenkt dass diese 40 nm ist und einen Takt von 775 Mhz, würde eine WiiU GPU mit einem Firme Update (OC von 550 Mhz auf 750 Mhz) ca 496 Gflops haben ^^
(Kühlung und Netzteil würde so ein OC stemmen können).
 
Zuletzt bearbeitet:
pipip schrieb:
Bei der GPU Shader * Frequenz * X.
Ist X (IPC) = 2 gleich für VLIW5 oder VLIW4, oder GCN ?

Pro ALU sind es 2 FLOPS, egal ob AMDs VLIW4/5 GCN, Nvidias Kepler oder Intels Gen7 Graphics
 
Matzegr schrieb:
Prinzipell wäre halt für die großen APUs FD-SOI interessant um effizienztechnisch aufzuholen. Laut Roadmap soll ja bei GF 2014 14nm FD-SOI zur Verfügung stehen. Laut Aussage von Subi Kengeri (Vice President of Advanced Technology Architecture, GlobalFoundries) könnte AMD 14nm FD-SOI durchaus nutzen, wenn sie wollen:
Wenn sie wollen, dann ja, aber 28nm-FD-SOI wurde erst 2012 liziensiert und Mitte 2013 für Startklar erklärt und so um dem Jahreswechsel für Volume-Produktion vorhanden sein soll. Lizensiert wurde das von einer Firma, die üblich ARM nutzt. Das wäre alles ziemlich kurzfristig und eigentlich auch riskant, weil FD-SOI nicht für solche Big-Dies wie 250mm²-APUs erprobt ist.

Zur CPU Steamoller in Kaverie:Es sind 15% Performance/Watt gegenüber Piledriver kommuniziert wurden (auf Design-Ebene). Ist halt die Frage wieviel man noch durch den Prozess rausholen kann. Bei 28nm bulk wäre nicht soviel drinn wie bei 28 PD-SOI, am optimalsten wäre halt 28 FD-SOI, der laut Roadmap zur Verfügung stehen könnte.
Weil ständig eine kontenuierliche Weiterentwicklung stattfindent, bräuchte man nicht mal was gravierendes um nur 15% zu erreichen.
Ma hat ja jetzt bei Piledriver & Richland gesehen, dass selbst bei selber Fertigungs-Technologie jeweils fast +15% drinnen waren.
Weiterentwicklungen erkennt man auch, dass von SiGe 4. Gen & Co gesprochen wird. Also, es ist nicht unbedingt nötig bei 28SHP eine neu Technologie (FD-SOI) einzuführen. Da könnte verbesserte vorhandene Technologien wie SiGe 5. Gen & Co genauso reichen.

Neue Technologien wie z.B. ULK damals brauchten gleich einen Sprung von 30% bei gleicher Architektur. Deshalb würden selbst +15% @ CPU sogar IMO gegen FD-SOI sprechen, weil Kaveri eben eine neue CPU-Architektur bringt.
Aus meiner Sicht ist eine CPU-Performance-Steigerung von >15% und GPU-Performance-Steigerung von >30% bei gleichen Stromverbrauch/TDP schon als großen Erfolg anzusehen.

Natürlich ist mehr Möglich.
Nicht nur weil AMD mit jetztig deutlich höheren Spannungen noch sehr viel Pontial zur Energie-Effizienz-Steigerung hat, sondern weil sich 15% und 30%-GPU zusammen mit Feritgung & Architektur eigentlich garnicht so viel sind. Denn GPU-Computing-Performance konnte man immer schon recht hoch steigern, während die +15% CPU-Performance-Steigerung schon alleine aus der IPC-Steigerung herausbekommen kann. Daher sind Fertigungs-Verbesserungen bei Kaveri nicht zwingend, aber weil sie fast schon 2 Jahre nach 32nm-SOI kommt, sind natürlich gewisse Sprünge möglich.

Ach verdammt, man sollte auch mal die Anhänge lesen ;)
Stand Feb. 2012: Kaveri hat 4GHz (CPU) und 900 MHz (GPU) -> 128 + 921 = 1050 GFLOPS
Was für ein Anhang?

held2000 schrieb:
Vlt nicht uninteressant mfg:)


Auszug 3D Center

Unter diesem 28nm SHP-Prozess könnte dann der Trinity/Richland-Nachfolger "Kaveri" gefertigt sein, auch zukünftige (im Jahr 2014 zu erwartende) FX-Prozessoren mit Steamroller-Unterbau könnten jenen 28nm SHP-Prozess nutzen.

Neue Fertigungs-Roadmap von GlobalFoundries zeigt 28nm SHP-Prozess
http://www.3dcenter.org/news/neue-fertigungs-roadmap-von-globalfoundries-zeigt-28nm-shp-prozess
Ist nichts neues.
Diese Roadmap mit den Fertigungsbezeichnungen sind nur Namen.

Es kann eben sein, dass 28HP quasi kleine (<150mm²) Dies mit guter Yield bedeuten, während 28SHP große Dies (150-350mm²) mit guter Yield bedeutet und die Yields der Big-Dies (150-350) eben über dieses Jahr verbessert wurde. Da müssten nichteinmal großartige Verbesserungen zu sehen sein. TSMC braucht ja auch ein Jahr um die Yield von großen Dies deutlich zu verbessern.
Es ist ja kein zufall, dass a) 28HP 1 Jahr davor (Produktion-Volume-Ramp-Beginn März 2012) fertig wurde und X-Box & PS4 (und Kaveri) ebenfalls so ab März 2013 mit den Produktion-Volume-Ramp beginnen.

pipip schrieb:
Offtopic
Nur mal so ne kleine Frage am Rande. Wenn man VLIW5 und GCN nimmt und Games optimiert, müssten sie im besten falls beide den Faktor 2 haben.
Somit stellt sich mir die Frage, kann VLIW5 bei guter Optimierung eine ebenso gute Effizienz erreichen wie GCN. VLIW 4 wurde ja im Desktop eingeführt, da man ja VLIW5 meist nur 3,5 Alus ordentlich nutzen konnte.
Ich kann dir nicht folgen.

Im Ideal-Fall wäre VLIW-5 sicher effizienter als VLIW-4 und GCN. Aber die Realität ist nicht Ideal und deshalb war der schnitt bei VLIW-5 bei so 3,5 (70%) und bei VLIW-4 bei so 3,2 (80%).

Momentan in dieser Generation wird VLIW-4/5 wahrscheinlich noch gleich gut sein, aber das Problem sehe ich in der Einheitenskalierung.

Mit GCN kannst du die CU noch auf 128 oder 256 Shader erhöhen, bei SIMD geht das nicht (bzw. nicht so einfach) und da hätte man die Einheiten über das Frontend = Grafik-Engines erhöhen müssen. Mit 16SIMD pro Grafikengine ist man eben jetzt schon an den Grenzen und auf 4 Grafik-Engines zu erhöhen ist vielleicht auch nicht unproblematisch bzw. hoch effizient.

Kurz gesagt, GCN ist wahrscheinlich momentan nicht mal effizienter, aber abgesehen von HSA hätte man zukünftige Skalierungsprobleme, wo VILW-4/5 in Zukunft nicht ganz so gut mit Einheiten Skaliert wie GCN.
 
Zuletzt bearbeitet:
Da Intel derzeit ja mal wieder steht (Haswell) hätte AMD die Change Intel auch bei der CPU Leistung wieder einzuholen.
Geplant ist ine ca 15 % ige Steigerung der IPC durch die Aufweichung des Modulkonzepts, Tuning und einen Loopcache, der seinerzeit schon bei Sandybridge den Turbo gezündet hatte.
http://www.geekwave.de/roadmap/


Das die Grafik eh um längen besser als die von Intel wird ist sowieso klar.
Die Speicheranbindung dürfte aber für die Grafik zum Bremsklotz werden. ( wie bei der HD 7750 mit DDR3) Es ist zu hoffen das auch noch ein Sockel FM3 mit DDR4 oder GDDR5 kommt.
 
Bei Jaguar wurden ja auch +15% angesagt und sie schafften in Chinebench 11.5 dann sogar über +30%.
Und das ohne "Aufweichung des Modul-Konzept"!.

15 bis 30% IPC-Steigerung sind im Bereich des Möglichen, vorallem wenn AMD in den letzten Jahren bei kleinen Architektur-verbesserungen (siehe Pildreiver, K10.5, K10.7) schon 5-8% IPC-Steigerungen schaffte. Genauso entscheidend neben der IPC-Steigerung ist, wie hoch der relative Strommehrverbrauch sein wird. Also, ob AMD Richland-Takte & Spannungen & TDP trotz +XX%-IPC-Steigerung erreicht, ober mit mehr IPC etwas Takt & Spannung senken muss/kann, um Schlussendlich mehr CPU-Performance zu erreichen.

Trotz allem darf man nicht vergessen, dass wir die 28HP oder 28SHP-Fertigung nicht kennen und eventuell schlechter (oder eventuell sogar besser) ist als 32nm-SOI. Denn Globalfoundries hat bis Mitte letztes Jahres vieles Erledigt (Beginn der Foundry-Ära und viele neue Fertigungs-Typen entwickelt), aber das heißt noch nicht, dass 28HP bis aufs letzte ausgereift ist.

Das spannende bei AMDs aus Big-Die-CPU-Sicht ist, dass nach Steamroller schon recht bald (Ende 2014?) Excavator & HSA 2.0 kommen wird, während Intels nächste Architektur so in erst 2 Jahren kommen wird.

Aus diesem Grund muss jetzt Steamroller jetzt nicht auch aller Dampfkraft über Haswell drüberrollen. Deshalb würden z.b. auch 10-15% IPC & Performance & Effizienz-Steigerung der CPU schon als zufriedenstellend ausreichen und >15% als erfolgreich sehen.
Ein Anderer Grund ist natürlich HSA, wo sich AMD neben der CPU-Only-Richtung noch eine andere Richtung (Computing-Power) mitentwickelt und somit nicht auf die CPU-Only-Richtung eben angewiesen ist.

Was mich bei Haswell überrascht hatte ist, dass sie über die Fertigung nicht mehr zulegen konnten, wie sie es bei der 45nm-Fertigung @ Montvina (Einführung der 25W-TDP-Plattform) & Nehalem (1,15Volt statt 1,25Volt @ Desktop) und 32nm-Fertigung (Einführung der 17W-TDP-Plattform als Massenplattform) machten.

Die Speicheranbindung dürfte aber für die Grafik zum Bremsklotz werden. ( wie bei der HD 7750 mit DDR3) Es ist zu hoffen das auch noch ein Sockel FM3 mit DDR4 oder GDDR5 kommt.
Es gäbe da auch TSV, was AFAIK schon 2014 für Volume-Produktion bereit sein soll. Damit könnte der Kaveri-Nachfolger noch ganz gut mit DDR3 auskommen.
 
aylano schrieb:
Was für ein Anhang?

Die Grafik, die den Vergleich zwischen Llano, Trinity und Kaveri bei den GFLOPS zeigt, stammt aus einer Präsentation vom Financial Analyst Day 2012 (2. Feb.). Am Ende der Folien folgt bei AMD immer noch 1-2 Seiten Anhang (Appendix), wo dann beschrieben ist wie man auf die Werte kommt, die in den Folien genannt werden. Und da stand bei Kaveri (4C/8CU) und 1050 GFLOPS. Zusammen mit der Formel kommt man dann auf Basistakt 4GHz und GPU-Takt von 900 MHz.

Ist halt nur die Frage wie aktuell die Angaben noch sind, ist ja schließlich schon fast 1 1/2 Jahre her.
 
zakuma schrieb:
Jetzt muss Steamroller im nächsten halben Jahr nur noch für den Desktop Bereich vorgestellt werden und ich bin glücklich :)

Flatan schrieb:
Oh ja, in die setze ich auch meine Hoffnungen! :) Weiter so AMD!

Killer1980 schrieb:
nachdem kleinen desaster mit haswell, bin ich auch mit der großen hoffnung auf steamroller am warten.

Genau darum geht es doch in diesem Artikel, dass Steamroller (in Form von Kaveri) noch heuer vorgestellt werden soll - und das auch für den Desktop.
Es sei zum zigten mal erwähnt, dass Steamroller kein Prozessor- sondern ein Architekturcodename ist. Und Kaveri basiert nun mal auf dieser Architektur...
 
Zurück
Oben