News AMD „Kaveri“: Architektur-Änderungen im Überblick

@Matzegr

naja es gibt eine gewisse Effizienz-Kurve beim Takt. Intel kann recht gut bis 3 Ghz takten bei sehr hoher Effizienz und kleiner Vid. genauso AMD. Ab 4 Ghz wirds verdammt ineffizient, dieser hohe takt ist aber aus Performancegründen bei den Modulen heute nötig.

Bei selbem Takt agiert ein Modul sicher effizienter als 2 Kerne auf Llano basis, der höhere Takt macht diese Effizienz zunichte. Schaut man sich das UV Potential an so ist ein Llano Quad bei 3 Ghz mit 4 echten Kernen super untervoltbar und dabei sehr effizient. Trinity bietet bei gleicher Performance wesentlich weniger UV Headroom - wenn man also Maximal Effizienz bei kleinstmöglicher Vid vergleicht ist da llano auf alter Architektur ohne Module oft noch besser dran als heutige Module.
Per default hat Llano natürlich ne satte Spannung bei kleinem Takt was der frühen 32nm Fertigung geschuldet ist. Heut wär da weit mehr drin.

Es stimmt natürlich wie sehr die neuen Befehlsätze die Kerne aufblasen würde, absolut. Aber die Frage ist auch ob man die Chips damit vollpumpt und welchen Benefit man davon hat. Ist jetzt ja nicht so dass "Llano Kerne" langsam sind bei heutigen Programmen.
 
Krautmaster schrieb:
gut L3 wird überbewertet, find ich. Wenn AMD so auf Desktop Jagt geht dann kann man doch den verschwenderischen L3 (siehe Piledrive DIE) weglassen. Ähnlich den Athlons.

Den großen L3 verdanken die FX-CPUs ihrer Verwandschaft zu den Opteron. Bzw. sind es ja genau die selben Dies. Bei vielen Server-Anwendungen spielt die I/O-Performance sehr viel stärker mit rein, als bei typischen Consumer-Anwendungen und Spielen und deshalb braucht man dafür auch viel L3-Cache. (Aus dem selben Grund sehen auch Intels S2011 so aus.)
Die APUs für Desktops- und Notebooks sind hingegen auf die Consumer-Anwendungen ausgelegt und da bringt der L3 nicht so fruchtbar viel.

Aus diesem Grund würde es mich auch nicht wundern, wenn AMD in absehbarer Zeit die FX-Reihe ganz einstellt und alle Consumer mit APUs bedient, die statt L3 eine integrierte GPU haben und auch HSA-fähig sind. (Dafür spricht auch, dass AM3+ seit Ewigkeiten nicht mehr weiterentwickelt wurde.)

Tatsächlich könnte ich mir sogar vorstellen, dass AMD dabei auch gleich die klassischen Opterons aufgibt. Den Server-Markt haben sie inzwischen sowieso fast komplett an Intel verloren. Statt sich da noch weiter für einstellige Marktanteile abzustrampeln, sollte ein Unternehmen mit begrenzten Ressourcen wie AMD eher seine Kräfte bündeln wo es noch sinnvoll ist.

Das sind heutzutage vor allem Notebooks und (flexibel konfigurierbare) SoCs für Tablets und sonstige spezielle OEM-Anwendungen (inklusive Spielkonsolen).
Der konsequenteste Schritt wäre sogar, auch bei den APUs die (auch) für Server ausgelegte Bulldozer-Architektur aufzugeben und sich auf die Bobcat-/Jaguar-Familie zu konzentrieren.
 
Es stimmt natürlich wie sehr die neuen Befehlsätze die Kerne aufblasen würde, absolut. Aber die Frage ist auch ob man die Chips damit vollpumpt und welchen Benefit man davon hat. Ist jetzt ja nicht so dass "Llano Kerne" langsam sind bei heutigen Programmen.
Wenn es demnach ginge, dass man das verbessern was bereits existiert, gäbe es kaum noch neue Produkte.
Es klingt so als ob du sagen würdest, lasst uns beim Bezin Auto bleiben.
Auch das immer weiter in kleinere Strukturbreite gehen wird irwann nicht mehr gehen.
Somit muss sich auch Intel irwann vom Tick Tock verabschieden und neue Wege bestreiten.

AMD macht das einzig richtige. So früh wie möglich die neue Technik auf den Markt bringen wie es geht, damit die Software Schrittweise angepasst wird.
Man bedenke, AMD hätte tatsächlich 32 nm K10.5 auf den Markt gebracht, davon dann nur ein 28 nm shrinke mit etwas aufgebohrten IPC falls das überhaupt geht.
Dann hätte man blöd geschaut wenn Kaveri auf den Markt kommt, der bereits eine Weiterentwicklung ist, aber Großteil seiner Instruction und Co nicht verwenden kann.
Somit hätte es eben nur eine Verschiebung des Umstieges gegeben, mehr aber auch nicht. Im Server-Markt hätte man wohl noch mehr an Aufträge verloren, weil die Performance/Core ja bei FX alles andere als schlecht ist. Und auch von den neuen Instruction kann man gut profitieren.
AMD hat da schon richtig entschieden auf den Server-Markt zu optimieren. Das Niveau können sie jetzt für Micro Server nützen.

Was AMD FX und Intel Core Architektur angeht, ist das doch wie ein Apfel Birnen vergleich.
Erstens verfolgen beide ganz andere Strategien (SMT vs CMT sagt schon den Kern aus) weiteres kann Intel die Taktraten in erster Line sehr gut durch die Fertigung verwirklichen.
Mittlerweile ist es aber so, dass 32nm immer besser werden.
Vergleich doch mal ein i3 2100 SB mit einem Richland A10 6700. Da sieht man dass Fertigung eine sehr wichtige Rolle spielt.
Man sieht aber auch wie weit die Fertigungstechnik die AMD nutzt weg von Intel ist.

https://www.computerbase.de/2012-10/test-trinity-vs-ivy-bridge-im-cpu-test/8/
i3 2120 3,3 Ghz
i3 3220 3,3 Ghz
Pervormance Unterschied sind laut CB ca 4 %

AMD A10-6700 3,7 Ghz
ist ca 9 % langsamer als der 3220

https://www.computerbase.de/2013-06/amd-richland-cpu-test/6/
der i3 3220 verbraucht unter Prime ca 41 watt weniger als der A10 6700.
Man bedenke dass der A10 aber bei (multithread) Anwendungen schneller ist.
Der i3 2120 verbraucht ca 8 watt mehr als der IB

Somit kommt man zum Schluss, dass ein A10 6700 unter Prime ca 33 watt mehr verbaucht, ist bei Anwendungen aber schneller.
Bei Single Thread Anwendungen ist der i3 klar im Vorteil, doch da wird der Verbrauch sogar kleiner.

Somit wenn man also den Architektur Vergleich machen möchte, sollte man auch Richland mit SB vergleichen, da beide auf mittlerweile ausgereiften Prozess basieren.
Die Effizienz wäre somit auf 22nm Fin-Fet zwar durch den hohen Takt bei AMD gegenüber i7 4770 zwar immer noch schlechter, nur die frage wäre, ist es dann noch stark bemerktbar.
Denn wenn ein 5 Ghz FX eine TDP von 125-140 watt tdp (geraten und nur ein Bsp) hätte durch 22nm FinFet, würde man den Bulldozer nicht mehr so als "ineffizient" bezeichnen.

Herdware
Jop der geplante Kaveri mit 3 Modulen zeigt einen Weg tiefer in den Desktop Sektor.
Anderseits muss ich eine Aussage von Krautmaster unterstützen. Klar es ist reine Spekulation aber, Kaveri war mit 3 Modulen geplant. Die APUs hatten bis jetzt meist die halbe Anzahl von Modulen von den FX, die andere Hälfte wurde durch die IGP eingenommen.
Interessant wäre aber die Überlegung, wenn ein Kaveri mit 3 Modulen geplant war, war/ist ein FX Steamroller eventuell mit der doppelten Anzahl der Module, also 6 geplant :eek: ?
Immerhin hätte Komodo damals mit 5 Modulen kommen sollen.
 
Zuletzt bearbeitet:
Casi030
Mir gehts darum, AMD hätte rein aufgrund der Fertigungstechnik sowieso nicht gegen Intel anstinken können. Früher oder später wäre wohl Steamroller im Desktop angekommen.
Somit ist es gut dass AMD durch Bulldozer einfach schon mehr Unterstützung durch die Software erfährt weil CMT bekannter wird.

AMD meint, sie könnten mit Intel 2015 wieder in Augenhöhe sein. Das klingt im dem Sinn logisch, weil man 2014-2015 vllt 22nm fd SoI haben könnte. Hier wäre Intel eventuell sogar noch mit dem Haswell Refresh 22nm FinFet vertreten, falls nicht 14 nm.
Fd-SoI bringt dann aber erheblich mehr Vorteile mit sich als SoI heute, der im 32 nm Prozess scheinbar schon Probleme gemacht hat.
 
Intel sehe ich da garnicht,zuviel Marketing/Monopolstellung,siehe wo die die HD 4600 wirklich steht,siehe Kabini. Wenn Intel sein neues Zeug unter die Leut gebracht hat, dann werden auch Mobos mit Kabini frei gegeben......
Ich müsst nochmal nachsehen,aber im kleinen Test Llano vs PhenomII haben die Llnokerne schon recht gut abgeschnitten ohne L3.
Der gesamte Aufbau von Llano ist Effizienter.
Für mich ist Llano mehr so was wie, lass uns mal was Testen,ok,das schaut schon mal recht gut aus. Lass uns Bulldozer rausbringen......
Bulldozer musst sein,ne schlechte CPU ist es nicht,wurd nur leider zu früh auf den Markt geworfen weil es durch Probleme ein unfertiges Produkt war.
Da sie mit Steamroller ein schritt zurück gehen,hoffe ich mal das sie dort die Vorteile von Llano mit verwenden und nicht auf Phenom II Basis zurückgehen.
 
Krautmaster schrieb:
naja es gibt eine gewisse Effizienz-Kurve beim Takt. Intel kann recht gut bis 3 Ghz takten bei sehr hoher Effizienz und kleiner Vid. genauso AMD. Ab 4 Ghz wirds verdammt ineffizient, dieser hohe takt ist aber aus Performancegründen bei den Modulen heute nötig.

Schaut man sich das UV Potential an so ist ein Llano Quad bei 3 Ghz mit 4 echten Kernen super untervoltbar und dabei sehr effizient. Trinity bietet bei gleicher Performance wesentlich weniger UV Headroom

Nehmen wir mal die CB Test UV:

Llano 3850: 2,9GHz bei 1,2V
Richland 6800K: 4,4GHz bei 1,22V
Vom Verbrauch her sind da beide relativ identisch (Das im Test genutzte FM1 Board ist bei Last-Idle günstig durch hohen Idle-Verbrauch, bzw. das genutzte FM2 Board ungünstig durch hohen Last-Verbrauch im Vergleich zu anderen Boards.

Und zum Thema Effizenz/Takt. Das ist für jede Architektur anders. Zum Beispiel zeigt nen Sandy Bridge i7 2600K bei 4,5GHz eine bessere Effizienz als bei 3,5GHz:
efficiency_chart_0_scale.png


Ein Clarkdale mit gleicher Fertigung bricht ab 3,9GHz in Sachen Effizienz ein:
,J-2-236558-3.png
 
Herdware schrieb:
Den großen L3 verdanken die FX-CPUs ihrer Verwandschaft zu den Opteron. Bzw. sind es ja genau die selben Dies. Bei vielen Server-Anwendungen spielt die I/O-Performance sehr viel stärker mit rein, als bei typischen Consumer-Anwendungen und Spielen und deshalb braucht man dafür auch viel L3-Cache. (Aus dem selben Grund sehen auch Intels S2011 so aus.)
Die APUs für Desktops- und Notebooks sind hingegen auf die Consumer-Anwendungen ausgelegt und da bringt der L3 nicht so fruchtbar viel.

absolut, im Server Umfeld bringen die L3 durchaus was, sicher auch im Desktopumfeld aber schaut man sich Richland an, so können sich dessen kleine Module wirklich gut behaupten. 4 Davon wären immer noch deutlich flächeneffizienter als Vishera.

@Matzegr

Was die Effizienz selbst angeht so braucht der Llano 3870K gute 53W Last im Untervolting

http://ht4u.net/reviews/2011/amd_a8_3870k_llano_apu/index13.php

Leider testet HT4U keine Trinitys oder Richlands.

Klar, der Trinitx A10-5800K ist ~11% schneller, kommt aber untervoltet immernoch auf ein Delta von ~ 74W

Wie siehts bei Richland aus? Nochmal 10% schneller aber auch die Differenz idle-Last nimmt zu
https://www.computerbase.de/2013-06/amd-richland-cpu-test/8/
Denn mit 125 Watt liegen immer noch 84 Watt zwischen Idle und voller Last und der Anwender spart gegenüber der Referenzeinstellung nur wenige Watt.

Die neuen Modelle sind natürlich fixer, bis zu 30% im Vergleich zum 3 Ghz Llano A8-3870K, aber auch die Differenz idle-load nimmt zu. Der Turbo wird schärfer, der CPU Part kann sich "einfach" nahezu die vollen 100W krallen und der Untervolting Headroom wird kleiner.

Gut, man muss etwas relativieren, das waren ja eben auch Werte vom Gesamtsystem.

Nimmt man idle - last Delta siehts so aus:

A8-3870K ~ 64W delta
A10-5800K ~ 74W delta
A10-6800K ~ 84W delta

Es ist also nicht so dass mit Trinity und Richland ne massive Effizienzsteigerung einherging, man hat nur die TDP besser ausgenutzt und die Fertigung wurde stabiler, man brauchte weniger Spannungsbuffer, UV Potential wurde geringer.

Zudem ist der Takt des Richland auch einfach mal über 25% höher. Abgesehen davon ist die Fertigung bei Richland ja auch 2 Jahre alt, und wesentlich ausgereifter als bei Llano.
 
Matzegr schrieb:
Nehmen wir mal die CB Test UV:

Llano 3850: 2,9GHz bei 1,2V

Ohne Diesen Test selber gemacht zu haben,würd ich mal behaupten ist es nur die halbe Warheit.
Mein 3850 auf nem GB ging auch nur genau bis 1,2V runter MIT STROMSPARFUNKTIONEN,wurden diese Ausgeschaltet,konnt ich die Spannung nochmal auf rund 1,16X V senken.
 
Krautmaster schrieb:
Gut, man muss etwas relativieren, das waren ja eben auch Werte vom Gesamtsystem.

Nimmt man idle - last Delta siehts so aus:

A8-3870K ~ 64W delta
A10-5800K ~ 74W delta
A10-6800K ~ 84W delta

Der Trinity Wert ist ein wenig ungünstig, da nicht bei Prime wie Richland.

Leider testet HT4U keine Trinitys oder Richlands.

Das ist wirklich schade, weil nur so könnte man sehen, welche CPU wie effizient ist. Es ist auch Schade das Techpowerup nicht die Leistungsaufnahme bei UV getestet hat. @Stock kommt man für die CPUs (am 8 Pin EPS gemessen)auf:
Llano A8-3850: 77W
Trinity A10-5800K: 81W
Richland A10-6800K: 73W

Wenn man alle CPUs bei 1,4(1)V betreibt sieht es recht ausgeglichen aus. Wobei man hier sagen muß, das 1,4V für keine CPU optimal ist. Der 32nm Prozeß war ursprünglich bis 1,3V vorgesehen. Bei Llano hat man den größten UV Spielraum, gar keine Frage. Man hat aber auch teilweise deutlich weniger Leistung. Es ist verdammt schwer da ne Aussage zu machen. Es gibt sicherlich Anwendungsfälle da ist ein UV Llano effizienter und es wird auch Fälle geben da ist ein UV Llano ineffizienter als ein UV Richland.

aber auch die Differenz idle-load nimmt zu
Die Werte kann man nur nutzen wenn man verschiedene CPUs auf demselben Mainboard vergleicht.

Schau dir mal den Test von 33 Haswell-MBs an. Da variiert beim i7-4770K die Differenz idle-load(Cinebench) von 64,1W bis hin zu 92,8W. Wie soll bei so einem riesen Bereich ein Vergleich mit z.B. SB möglich sein?

Das sehen wir ja auch hier bei den Trinity und Richland Tests. Wenn man statt dem Asus ein ASRock MB nutzen würde, hätte man auch plötzlich 10W weniger Idle-Load-Differenz bzw. beim Llano Test ein Gigabyte statt Asus und schon wären es 10W mehr Idle-Last Differenz.
 
ja ich geb dir schon Recht keine Sorge =)

Ich kenn das selber nur zu gut mit den Differenzen der einzelnen Boards, eigentlich erstaunlich wie weit diese auseinander liegen können. Ich denke aber dass die Werte bei UV stabiler sind - könnte mir vorstellen dass die Unterschiede @ Last teils von abweichenden VIDS @ last kommen oder die Boards einfach etwas unterschiedlich regulieren.

Delta Idle Load ist immer so ne Sache, leider misst HT4U aktuelle CPU nicht mehr aus.

Es ist auch im Grunde etwas davon abhängig wie die Fertigung optimiert ist, auf Takt oder Effizienz bei wenig Takt etc. AMD strebt - wie man sieht, oft Taktraten über 4 Ghz an. Gut, wenn Kaveri massives + an IPC bringt, dann wird man denk ich, auf CPU Seite, die Takte reduzieren. Auch aus dem 28nm GF Fertigung Gesichtspunkt ist Kaveri interessant - wobei ich da kaum News zu gefunden habe.
 
wenn Kaveri massives + an IPC bringt, dann wird man denk ich, auf CPU Seite, die Takte reduzieren.
Wobei AMD da in der Zwickmühle ist. Es wird ein deutlicher Leistungszuwachs erwartet und ob der aus IPC oder Takt resultiert ist dem Kunden erst einmal egal. Hauptsache das Teil ist 20% schneller. Reduziert man aber den Takt zugunsten vom Stromverbrauch, was ja sinnvoll und der richtige Weg wäre, dann bleiben 10% schneller übrig und alle fangen das jammern an. Schnellere CPU's lassen sich halt besser verkaufen als sparsamere CPU's.
 
MikelMolto
Reduziert man aber den Takt zugunsten vom Stromverbrauch, was ja sinnvoll und der richtige Weg wäre, dann bleiben 10% schneller übrig und alle fangen das jammern a
Klingt zwar blöd, aber das hängt vom Benchmark ab.

Es kann zum bsp sein, dass ein fiktiver "steamroller" der mehr IPC hat aber den Takt reduziert, in multicore anwendungen deshalb kaum an Performance dazu gewinnt, sagen wir deine 10%.
Doch bei Games kann es gut sein, dass dieser Steamroller besser abschneidet als sein Vorgänger, nur weil er schneller in Games wie Starcraft ist.

Somit Benchmarks sind schön und gut, es kommt aber eben auf die eigenen Anwendungen an.

Ich behaupte mal, 15% Performance Anstieg ist schon ein guter Wert. Piledriver hat hier auch multithreading kaum eine Mehrperformance gemacht, aber er kommt wesentlich besser an, weil dieser in Game besser abschneidet.

Somit 15 % mehr Performance könnte auch nur für multithreading gelten und hier ist AMD bekanntlich gar nicht mal so schwach unterwegs.
BTW :
Zusätzlich wurde die Dispatch-Bandbreite pro Thread noch um 25% erweitert und die Anzahl der falsch vorhergesagten Sprünge um 20% reduziert. Unter dem Strich soll somit eine Steigerung von +30% Ops pro Cycle herauskommen. Geht man großzügigerweise von einem x86 zu µOp-Verhältnis von 1:1 aus, könnte man im (aller-)besten Fall dann auch von einer IPC Steigerung um diesen Betrag ausgehen. AMD gibt an, diese Steigerung bei einem Applikationsmix aus "digital media", "productivity" und Spielen berechnet zu haben.
http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1346191456
 
Zurück
Oben