News Wilde Gerüchte zur Performance von AMDs „Bulldozer“

FoxMcCloud schrieb:
Dadurch ist es kalr, dass nicht die gleiche Leistung eines richtigen 8Krners erzielt werden kann

Nun, man erhält vielleicht nicht die Leistung eines hypothetischen "echten" BD Dual Cores, aber da AMD bereits bestätigt hat, dass BD pro Kern und Takt schneller als K10.5 ist, wäre man damit auf jeden Fall schneller als mit einem K10.5 8 Kerners.

FoxMcCloud schrieb:
Zur Effizienz: Bei der Modultechnologie erzielt ein Modul mit 2 Kernen etwa 70-80% mehr Leistun als ein tatsächlicher zusätzlicher Kern, da die Kerne eines Moduls sich einige Sachen teilen müssen (z.B. den L2-Cache), wobei gleichzeitig der Energieverbrauch nur um etwa 10-15% gesteigert wird. Dadurch dürfte die Effizienz gegenüber der bisherigen Architektur so um etwa 60-70% verbessert werden.

Du hast dir da von allen Teilen dasjenige (L2 Cache) herausgesucht, das wohl am ehesten einen Performance-Vorteil bringen wird und weniger einen Nachteil. Zwei Threads können dadurch schneller auf gemeinsame Daten zureifen und falls nur ein Thread läuft, hat er einen viel größere L2 Cache zur Verfügung und selbst bei 2 Threads, die beide viel Cache brauchen und nichts miteinander zu tun haben, haben noch den Vorteil, dass der L2 Cache pro Kern verdoppelt wurde (K10.5 512KB/Kern, BD 2MB/Modul -> 1MB/Kern). Alle Performance-relevanten Elemente wurden entweder explizit (L1 Caches, Int Pipelines, ...) oder implizit (Front-End, L2 Cache, FPU) verdoppelt/vergrößert.


DAASSI schrieb:
Bulldozer ist kein echter 8-Kerner. Bulldozer verwendet CMT, ähnlich Intels Hyperthreading/SMT ! demnach hätte Intel 12-Kerner.

Nunja, darüber, dass BD kein reinrassiger 8-Kerner ist, kann man diskutieren, aber das Intel einen 12-Kerner hat, darüber ist jede Diskussion zwecklos, denn das einzige, was dieser 12-Kerner einem 6-Kerner voraus hat sind zusätzliche Registersätze.

DAASSI schrieb:
Bulldozer ist so konstruiert, dass bei maximaler Befehlssatzausnutzung 8 Kerne nich komplett gleichzeitig arbeiten können.

Jeder der 8 BD Kerne kann alles, was ein K10.5 oder Nehalem Kern auch kann und zwar in jedem Takt.

DAASSI schrieb:
übrigens wär ich dafür, dass AMD gleich mal ein 8 Modul Modell rausbringt :)

Für den Server-Markt wird's den geben, für den Desktop-Markt wäre er zu teuer.

john carmack schrieb:
Stimmt es das der Bulldozer eigentlich der Phenom 1 sein sollte?

Phenom 1 sollte ursprünglich eine neue Architektur werden, die allerdings wieder eingestampft wurde. Der jetzige Bulldozer hat mit dieser damaligen Architektur wohl nicht mehr so viel gemein.
 
DAASSI schrieb:
Bulldozer ist kein echter 8-Kerner. Bulldozer verwendet CMT, ähnlich Intels Hyperthreading/SMT !
Das ist so nicht korrekt. SMT und CMT haben eigentlich überhaupt nichts gemeinsam und ähneln sich auch nicht. Im Prinzip sind es sogar gegensätzliche Techniken.

SMT (Simultaneous Multithreading) verwendet Leerlauf-Zyklen um Befehle eines weiteren Threads auf den selben Kernen berechnen zu lassen, Der Input ist verdoppelt und resultiert in doppelt so vielen Threads die auf den Scheduler treffen um auf immer noch 4 Kernen abgearbeitet zu werden.

CMT (Cluster(-based) Multithreading) hat tatsächlich doppelt so viele Kerne auf denen die Threads abgearbeitet werden und verwendet nur einige weniger ausgelastete Komponenten gemeinsam.

Besonders deutlich wird das hier beschrieben von Dresdenboy: http://citavia.blog.de/2009/09/06/architecture-cpu-cluster-microarchitecture-multithreading-6910375/
Vor allem sollte man ein Augenmerk auf die möglichen Weiterentwicklungen von CMT legen wie sie hier beschrieben werden:
Please note one of the mentioned companies: DEC. While none of the mentioned authors went to AMD later, some of their ideas could have come with those DEC people who did. Some early designs described in some of AMD's older patents already resemble such a structure (as discovered by Hans de Vries):

http://www.chip-architect.org/news/2000_09_27_double_pumped_core.html
http://www.chip-architect.org/news/2001_10_02_Hammer_microarchitecture.html

The architecture described in the two papers seems to be an evolutionary extension of the clustered integer units of the Alpha 21264 CPU. These publications cover methods to execute a single thread on two closely coupled clusters and might help us understand, how AMD could improve single thread performance without the need of speculative execution (which still could be an option to improve single thread performance even further).
SMT könnte niemals in der Lage sein einen einzelnen Thread auf 2 Kerne zu splitten und zu parallelisieren - in Hardware anstatt auf die Anpassung der Programmierer zu warten.
http://www.chip-architect.org/news/2000_09_27_double_pumped_core.html
The Instructions enter into Instruction Queues where the data dependencies are checked first the local dependencies and then against the other Queue. Instructions are scheduled. The renamed register files are accessed and data and instructions are dispatched to the two execution units. Both pipelines communicate whit each other. The clocks of the two pipelines are skewed by an 1/2 cycle. This means that data can be transferred from one pipeline to the other in 1/2 cycle instead of a full cycle. The results written into one instantiation of the register file are forwarded to the other one in the next 1/2 cycle. The number of 128 entries is mentioned as a typical size of a Renamed Register file. The Execution Units can likewise forward their results to each other within the 1/2 cycle. It is said that the Execution Units may typically contain a floating point adder plus multimedia unit, a floating point multiplier plus multimedia unit, two integer units, a branch unit, a load address generator, a store address generator and a store data unit. Other configurations are possible (edit: likely). Both Pipelines communicate with the Load/Store unit and the data cache.
Es scheint dass AMD diese Patente aus 2000/2001 nun für Bulldozer und dessen Architektur wieder verwenden könnte. Nun denke man noch daran dass die FPU mit FMAC kombiniert wird und mit Fusion die GPU langsam zu einer Special Function Unit mutiert die in der nächsten Bulldozer Generation wohl mit der FPU verschmelzen könnte.

Je stärker eine Software auf Multicore optimiert wird, desto weniger Sinn macht SMT, da die Kerne ausgelastet sind - CMT jedoch kann immer noch selbst bei Multithread Optimierter Software alle Kerne voll auslasten mit 8 Threads ohne dass diese sich gegenseitig behindern.
 
CHAOSMAYHEMSOAP schrieb:
Sind das Peakwerte bzw. mit allen Optimierungen?
Und so toll sind die Werte auch nicht: Ein BlueGene/Q Modul kommt bei nur 1.6GHz Takt auf rund 205GFLOPS.
Gibt es eigentlich noch etwas takteffizienteres als BlueGene/Q ??
 
Complication schrieb:
Es scheint dass AMD diese Patente aus 2000/2001 nun für Bulldozer und dessen Architektur wieder verwenden könnte.

Prinzipiell denkbar, aber die Umsetzung wird sicherlich nicht einfach. Das ist auch wahrscheinlich der Grund, warum so etwas bisher niemand umgesetzt hat.

Complication schrieb:
Nun denke man noch daran dass die FPU mit FMAC kombiniert wird und mit Fusion die GPU langsam zu einer Special Function Unit mutiert die in der nächsten Bulldozer Generation wohl mit der FPU verschmelzen könnte.

Langfristig vielleicht, kurzfristig eher nicht. Die Einheiten erfüllen zwar ähnliche Anforderungen, aber es gibt immer noch deutliche Unterschiede, z.B. unterstützten GPUs keine 128/256 Bit Operationen und selbst 64Bit Operationen kostet sie im Vergleich zu 32Bit Ops schon jede Menge Leistung. Außerdem ist die FPU auf Latenzen und hohe Taktraten optimiert. Die GPU-Einheiten hingegen eher auf niedrigen Stromverbrauch und Größe, damit man möglichst viele unterbringen kann.

Complication schrieb:
Je stärker eine Software auf Multicore optimiert wird, desto weniger Sinn macht SMT, da die Kerne ausgelastet sind - CMT jedoch kann immer noch selbst bei Multithread Optimierter Software alle Kerne voll auslasten mit 8 Threads ohne dass diese sich gegenseitig behindern.

Das liegst du falsch, mit Multicore Optimierung hat die Leistungsfähigkeit von SMT nichts am Hut. Es geht dabei nicht um TLP (Thread Level Parallelism), sondern um ILP (Instruction Level Parallelism). SMT nutzt aus, dass nicht jeder Thread in jedem Takt alle Funktionseinheiten auslasten kann. Das passiert, wenn der Grad an ILP zu niedrig ist. Je besser die sonstigen Optimierungen der CPU, der Software und der Compiler ist, desto weniger bringt SMT. Wenn die Software so gut optimiert ist, dass jeder Thread in jedem Takt genug Instruktionen bereithält, wäre SMT vollkommen nutzlos.


Yttrium90 schrieb:
Gibt es eigentlich noch etwas takteffizienteres als BlueGene/Q ??

Vektorrechner wie Earth Simulator?
 
Limit schrieb:
Das liegst du falsch, mit Multicore Optimierung hat die Leistungsfähigkeit von SMT nichts am Hut. Es geht dabei nicht um TLP (Thread Level Parallelism), sondern um ILP (Instruction Level Parallelism). SMT nutzt aus, dass nicht jeder Thread in jedem Takt alle Funktionseinheiten auslasten kann. Das passiert, wenn der Grad an ILP zu niedrig ist. Je besser die sonstigen Optimierungen der CPU, der Software und der Compiler ist, desto weniger bringt SMT. Wenn die Software so gut optimiert ist, dass jeder Thread in jedem Takt genug Instruktionen bereithält, wäre SMT vollkommen nutzlos.
Mit dieser Ausführung hast du natürlich Recht - nur bin ich einfach davon ausgegangen dass je höher die Parallelisierung einer Anwendung optimiert wird, die Instructions "Dichte" ebenfalls davon profitiert. Natürlich kann man auch einfach mehr Threads auf die CPU werfen und noch schlampiger programmieren und somit alles wieder vergeuden was an Möglichkeiten zur Verfügung gestellt wird :)
 
Complication schrieb:
Mit dieser Ausführung hast du natürlich Recht - nur bin ich einfach davon ausgegangen dass je höher die Parallelisierung einer Anwendung optimiert wird, die Instructions "Dichte" ebenfalls davon profitiert.

Eigentlich nicht. Der maximale Parallelisierungsgrad ist eigentlich konstant. Mehrere Threads zu erzeugen ist ja nur eine Art dieses explizit kenntlich zu machen, d.h. je mehr man die parallel ausführbaren Instruktionen auf Threads verteilt, desto geringer wird der Parallelisierungsgrad pro Thread.

Complication schrieb:
Natürlich kann man auch einfach mehr Threads auf die CPU werfen und noch schlampiger programmieren und somit alles wieder vergeuden was an Möglichkeiten zur Verfügung gestellt wird :)

Das ist gar nicht mal so abwegig. Nicht, dass man versucht schlechteren Code zu schreiben, aber dass man Optimierungen in der Hardware weglässt um die Kerne kleiner und stromsparender zu machen. Beispiele dafür sind Transmeta's Crusoe, Intel's Atom und Itanium, Sun's Niagara und auch einige Vertreter von IBM's Power Serie. Man versucht effizienter zu sein, indem man möglichst viele Optimierungen vom Compiler durchführen lässt statt durch die Hardware zur Laufzeit.
 
Zuletzt bearbeitet:
Ich hoffe nur AMD stampft da ein richtiges Monster aus der versenkung, das lntel mal wieder das fürchten lehrt :evillol::evillol:
 
Zitat: Zitat von DAASSI: Ich bin nach meiner eigenen Rechnung auf die Rechenleistung eines X8 Bulldozers von 120GFLOP/s gekommen
Sind das Peakwerte bzw. mit allen Optimierungen?
Und so toll sind die Werte auch nicht: Ein BlueGene/Q Modul kommt bei nur 1.6GHz Takt auf rund 205GFLOPS.
Das sind keinerlei Peak Werte. Es sind eher theoretische Mindestwerte, errechnet auf Basis eines Phenom II 955 BE. Dabei können natürlich keine Befehlssatzerweiterungen berücksichtigt werden die ein Deneb nicht hat.
Hat Bluegene nicht deutlich mehr Kerne?!


Zitat: Zitat von DAASSI: Bulldozer ist kein echter 8-Kerner. Bulldozer verwendet CMT, ähnlich Intels Hyperthreading/SMT !
Das ist so nicht korrekt. SMT und CMT haben eigentlich überhaupt nichts gemeinsam und ähneln sich auch nicht. Im Prinzip sind es sogar gegensätzliche Techniken.

SMT (Simultaneous Multithreading) verwendet Leerlauf-Zyklen um Befehle eines weiteren Threads auf den selben Kernen berechnen zu lassen, Der Input ist verdoppelt und resultiert in doppelt so vielen Threads die auf den Scheduler treffen um auf immer noch 4 Kernen abgearbeitet zu werden.

CMT (Cluster(-based) Multithreading) hat tatsächlich doppelt so viele Kerne auf denen die Threads abgearbeitet werden und verwendet nur einige weniger ausgelastete Komponenten gemeinsam.
Da hast du Recht, aber eine Gemeinsamkeit von beiden ist, dass keine 2 kompletten CPU-Kerne vorhanden sind. Das meinte ich mit "ähnlich". Man kann nicht sagen der Bulldozer wäre ein 8-Kerner, genausowenig wie der i7 ein 12-Kerner ist. Bei beiden fehlen Teile, die für eine heutige Single-CPU wichtig wären, beim einen die Integer Cores, beim anderen die extra FPU. Ich hoffe das war soweit verständlich ;)
Meine Definition von Core ist im Grunde genommen folgende: Ein Core ist eigentlich ein eigenständiger Prozessor, der ohne andere arbeiten kann, als Single-Core.

Zitat: Zitat von DAASSI: Bulldozer ist so konstruiert, dass bei maximaler Befehlssatzausnutzung 8 Kerne nich komplett gleichzeitig arbeiten können.
Jeder der 8 BD Kerne kann alles, was ein K10.5 oder Nehalem Kern auch kann und zwar in jedem Takt.
Er kann zwar dasselbe wie ein K10.5 aber was ist wenn du mit 8 256bit-AVX-Threads anmaschierst? Das verstehe ich unter voller Befehlssatzausnutzung.
 
Zuletzt bearbeitet:
PsYq0 schrieb:
lustig lustig tralalalala

ich schrieb annähernd und nicht exakt ... viel Leistung will viel Strom. Ich sag auch nicht, dass AMD Karten schlecht sind nur, dass NV stärkere hat. Das eine Frame mehr oder weniger der 6950/6970 gegenüber der >GTX 570< bei den "wenigen" Anwendugen die getestet wurden, oder das bissl watt hier und dort sind zum einen Messungenauigkeiten und zum andern zeigt dass auch wieder, dass ein "Highendprodukt" von AMD nicht mit dem (vorerst) Topmodel von NV mithalten kann.

Nein ich habe bei meiner Signatur nichts getrunken, da diese entstand, zu einem Zeitpunkt als alle noch 100% wussten, dass Intel i7 besser als AMD Phenom ist und 2x GTX 470 einfach nur starke Leistung bei super Kompatibilität, keine Treiberprobleme, keine SLI Probleme und zuverlässig ist. So meine Erfahrung. Mit AMD/ATI Produkten hatte ich nicht solche Erfahrungen.

Edit: für Beweise brauche ich denke nicht bei Euch zu sorgen. Es gibt genug Tests und Threads in denen ausführlich darüber berichtet wurde. Lest Euch das in Ruhe durch und stellt fest, dass es so ist.


Morgähn!

Gibt genügend Tests... wenn sich andere Teilnehmer engangieren nach Tests zu suchen wird der Thread vielleicht mit Informationen anstatt subjektiven Aussagen angereichert :rolleyes:

https://www.computerbase.de/2010-12/test-amd-radeon-hd-6970-und-hd-6950/35/#abschnitt_fazit
In Sachen Performance hat die Radeon HD 6950 erstaunlicherweise direkt mit der Radeon HD 5870 zu kämpfen. Beide Grafikkarten schenken sich fast durchgängig absolut nichts und liegen auf ein und demselben Niveau. Einzig bei vierfacher Kantenglättung kann das neue Produkt minimal davon ziehen und unter 2560x1600 wird der Unterschied aufgrund des Speichers dann größer. Bei der Radeon HD 6970 sieht es vergleichbar unspektakulär aus, denn nicht das Nvidia-Flaggschiff sondern die 2. Garde in Form der GeForce GTX 570 steht der Karte gegenüber. [......]

1920*1080*/1920*1200/ ist Standard... vereinzelt 1680*1050 selten 2560*1600

1920*1080/1920*1200 ist Mainstream, Discounter, Rudis Resterampe, Low Budget Gaming...Perlen vor die Säue bei einer GPU >200€...
Geizhals.at meint: http://geizhals.at/deutschland/?cat...ch=&v=e&plz=&dist=&bl1_id=100&xf=98_1920x1080

Billigster Preis 1920*1080 Monitor aktuell (14.1.2011) ab 105,41€

3D Gaming mit Grafikkarten für 250€ - 1500€ sieht so aus:
AMD_ATI_Eyefinity_3LCD_675.jpg

Quelle: http://www.brightsideofnews.com

AMD 6970/6950 CFX and NVIDIA 580/570 SLI Review[....]When we look at how memory capacity affects performance, or the ability to use higher resolutions and AA settings the general rule still stands. You will want a video card with the most amount of memory on board to fully utilize a multi-GPU configuration at high resolutions with Antialiasing. [......]The more memory you have, the better scaling you will see ..[........] The Radeon HD 6970 and Radeon HD 6950 have 2GB of RAM per GPU, and on the whole, this provided benefit and resulted in no situation in which memory capacity was the bottleneck...[........]Performance of the GPUs though is a different factor altogether, and our results indicate that it is mostly dependent on the game.[..............]
It all comes down to pricing, and a pair of GeForce GTX 580 cards is going to cost you over $1000 right now. That is a lot of money. [..........]....... the fact is they do have less memory capacity. For a higher price, you are getting less of a chance to actually use those higher settings. [......]....... it could be held back in a multi-GPU configuration because of its memory capacity. [......]....... all us multi-display gamers know is that AA becomes a lot more valuable as you scale resolutions to larger amounts of pixel real estate. [........] The GeForce GTX 570 SLI is in an even worse position, [...........]Since a pair of GeForce GTX 570 video cards will run you $698, the same price as two Radeon HD 6970 video cards, it just isn’t worth it. [......]You just can’t beat the low prices AMD has set on the Radeon HD 6950 and Radeon HD 6970.

GF 110 (GTX 570/580) > Low Budget/Midrange Spiele PCs OK..... Für High-End Spiele PCs 2.Wahl. Teurer und weniger leistungsfähig.

Complication schrieb:
[.......]
Das ist so nicht korrekt. SMT und CMT haben eigentlich überhaupt nichts gemeinsam und ähneln sich auch nicht. Im Prinzip sind es sogar gegensätzliche Techniken.

SMT (Simultaneous Multithreading) verwendet Leerlauf-Zyklen um Befehle eines weiteren Threads auf den selben Kernen berechnen zu lassen, Der Input ist verdoppelt und resultiert in doppelt so vielen Threads die auf den Scheduler treffen um auf immer noch 4 Kernen abgearbeitet zu werden.

CMT (Cluster(-based) Multithreading) hat tatsächlich doppelt so viele Kerne auf denen die Threads abgearbeitet werden und verwendet nur einige weniger ausgelastete Komponenten gemeinsam.

Besonders deutlich wird das hier beschrieben von Dresdenboy: http://citavia.blog.de/2009/09/06/ar...ading-6910375/ n

Dito

......In manchen Punkten sind SMT/CMT ähnlich, im Großen und Ganzen nicht............also unterschiedlich.
´...nicht ausgeschlossen ist eine Kombination CMT/SMT in Zukunft.. für noch höhere Auslastung in Spezialfällen.
SMT ist tlw. kontraproduktiv. Je besser die Software - je höher die IPC - je weniger Vorteile hat SMT - selten ist SMT aktiviert langsamer als ohne SMT.
SMT ohne Effekt bei:
TrueCrypt 7.0aTrueCrypt ist ein Open-Source-Verschlüsselungstool, welches seit der Version 6.0 auch Multi-Core-Unterstützung und seit der Version 7.0 auch AES-Support bietet, welche dem Programm je nach Hardware-Unterstützung zu einer deutlich verbesserten Performance bei der Ver- und Entschlüsselung der Daten verhilft. Wie verwenden den integrierten AES-Benchmark-Test der Version 7.0a mit einem 100-MB-File und geben den Durchschnittswert an.

SMT mit negativem Effekt bei:
x264 HD Benchmark 3.19Der „x264 HD Benchmark“ wurde von den Kollegen von Tech ARP entwickelt und wird dort auch zum Download bereitgestellt. In mehreren wiederholten Tests wird die Performance beim Umwandeln eines qualitativ hochwertigen Videos unter Berücksichtigung des x264-Codes aufgezeigt. Der Tests spaltet sich dabei in zwei Teile auf, von denen wir mit der Version 3.19 sowohl den ersten und den zweiten Teil publizieren.

CMT räumt mit den Nachteilen von SMT auf. Versuch die X86 CPU Packdichte/Leistungsdichte zu steigern. GPGPU >Grafikkarten sind auch leistungsschwach mit einem Core. Die Leistung wird mit der Anzahl der Recheneinheiten erzielt. Die Leistungsfähigsten High-Performance Cluster verwenden heute Grafikkarten. Möglicherweise auch ein Trend für flexiblere X86 Prozessoren.
 
Zuletzt bearbeitet:
Alles super, alles Toll.
Aber was bringts wenn die Software dafür nicht optimiert wird.
Dazu zählen auch Compiler, AMD braucht endlich einen eigenen Compiler für C/++ etc.

Damit lässt sich schon einiges reißen. Nur müssten die ganzen Softwarefirmen dann für Intel und AMD übersetzen und wenns ganz böse kommt auch noch für dieVerschiedenen Architekturen. Tja gelobt sei OSS, die kann ich selber übersetzen lassen.
 
CMT und SMT& haben den selben Nachteil, und zwar wenn ein Programm 4 kerne nutzt aber die 4 Threads dann genau in 2 Module oder 2 kerne +2 HT Threads reinpackt dann wirds teils deutlich langsamer da ist aber Microsoft drann schuld bzw die programmierer
 
Die Architektur des K8 Phenom II ist grundlegend mittlerweile 8 Jahre alt. Bulldozer ist eine neue Architektur und Basis für Produkte in den folgenden Jahren. Die Software wird sich entwickeln. Vom Erststepping erwarte ich nicht so viel. Die Leistung der aktuellen Sandy Bridge Prozessoren wird man wohl in etwa erreichen können. Sind auch in 32nm HKMG hergestellt.
Für AMD ist das der "erste Wurf" einer neuen Architektur.
Intel hat schon mehrere Steppings des Nehalem in 45nm........... C1, DO > weniger Stromverbrauch, besserere Unterstützung für hohe DDR3 RAMFrequenzen, höheres Taktpotenzial bei NB, Caches und Cores, und Sandy Bridge ist das zweite Stepping nach Core i7 Hexacore in 32nm - auch mit Detailverbesserungen.

Wenn Bulldozer in Single Thread Anwendungen im Vergleich zu Phenom II etwas zulegt und das Taktpotenzial bei weniger Stromverbrauch noch ansteigt, dann ist das ausreichend konkurrenzfähig in rechenintensiven Anwendungen.
Sandy Bridges eigentliche Vorteile liegen da eher im geringen Stromverbrauch und mobilen Bereich mit IGP. IM Desktopsegment sehe ich gute Chancen für BD, aber das kommt dann auch drauf an, dass sich AMD keine groben Schnitzer mehr leistet. (Phenom I Bug, etc.)
 
Zuletzt bearbeitet:
haben die Diskussion auch gerade im einem anderen Forum IPC soll steigen zusätzlich soll Bulldozer deutlich höhere Taktraten Architektur bedingt erreichen + nochmal höhere Taktraten durch 32nm
 
Suizid schrieb:
Dazu zählen auch Compiler, AMD braucht endlich einen eigenen Compiler für C/++ etc.

Du kannst dich freuen, AMD hat schon einen eigenen Compiler, bzw. einen Open Source Compiler, an dem AMD mitarbeitet, nennt sich Open64.

Knuddelbearli schrieb:
CMT und SMT& haben den selben Nachteil, und zwar wenn ein Programm 4 kerne nutzt aber die 4 Threads dann genau in 2 Module oder 2 kerne +2 HT Threads reinpackt dann wirds teils deutlich langsamer da ist aber Microsoft drann schuld bzw die programmierer

Bei HT kann das durchaus ein Problem sein, aber der Linux Scheduler berücksichtigt das und der Windows 7 Scheduler auch, soweit ich das gelesen habe. Bei CMT ist das im Normalfall aber sowieso kein Problem. Der einzige Fall, bei dem das für CMT ein Problem wäre, wäre massenweise 256Bit AVX Operationen, aber ich denke, das wird höchstens bei HPC Anwendungen vorkommen und selbst da nicht so häufig.

Knuddelbearli schrieb:
haben die Diskussion auch gerade im einem anderen Forum IPC soll steigen zusätzlich soll Bulldozer deutlich höhere Taktraten Architektur bedingt erreichen + nochmal höhere Taktraten durch 32nm

Ich glaube, ich weiß welches Forum gemeint ist ;) Man sollte bei der Taktfrequenzabschätzung aber nicht vergessen, dass auch die Zahl der Kerne steigt und damit ein Teil der Vorteile durch 32nm wieder auffrisst, zumindest was den Stromverbrauch angeht.
 
kommt drauf an wenn die 2 kerne dank abspeckung jetzt auch nur soviel brauchen wie ein k10.5 kern in 32nm.

und auch bei CMT ist das ein Problem AMD sagt doch selbst das 1 Thread im Modul 100% Leistung ist wenn beide Threads benutzt werden hat man 160% jeder Thread hat dann nur mehr 80%
 
das haut dann der 500MHz Turbo wieder raus ;) angeblich soll der auch möglich sein wenn alle Kerne ausgelastet sind, solange nicht die TDP überschritten wird.
 
was haut er dann raus wenn er auch aktiv ist wenn alle Kerne aktiv sind? und 500 würden auch keine 20% aufholen. Bleibt nur zu hoffen das es MS mal richtig in den griff bekommt
 
Limit schrieb:
Du kannst dich freuen, AMD hat schon einen eigenen Compiler, bzw. einen Open Source Compiler, an dem AMD mitarbeitet, nennt sich Open64.

Na hoppla, da hab ich ja was verpasst.
Danke für die Info. :)

Edith:

Sieht gut aus. Auf meine ToDo pack. :)
 
Zuletzt bearbeitet:
Wenn zwei Threads auf unterschiedliche Module verteilt werden, anstatt von beiden Kernen eines Moduls abgearbeitet zu werden, kann das sogar kontraproduktiv sein:

1. Ein Thread ist möglicherweise auf die Daten des anderen Threads angewiesen und kann schneller auf diese zugreifen wenn sich diese im gemeinsam genutzen L2 befinden.

2. Während 2 Kerne eines einzigen Moduls aktiv sind können die anderen Module mittels Powergating schlafen gelegt werden, was ordentlich Energie einspart. Die daraus resultierende TDP-Reserve kann genutzt werden um das aktive Modul höher zu takten, wodurch die Abarbeitung letztlich sogar schneller erfolgen könnte.

Letztendlich hängt dies aber von der Art des Workloads ab. Wenn viele AVX-Befehle genutzt werden und/oder die Daten der Threads nicht zusammenhängend sind und/oder der einem einzelnen Thread zu Verfügung stehende, volle L2 Cache einen massiven Leistungsvorteil bringt, dann kann es durchaus auch andersrum sein.

Gerade der Turbo wird neben der Effizienz des Frontends einer der entscheidenden Punkte sein. 500 MHz Taktsteigerung bei allen aktiven Kernen ist für mich ein Indiz dafür, dass diese noch ein gutes Stück höher ausfallen wird, sobald nur ein bis zwei Kerne aktiv sind. Eine Zahl zu nennen wäre natürlich reine Spekulation. Angeblich soll jedoch u.a. eine der Powertune-Funktion der HD6950/6970 Grafikkarten ähnliche Messung der Auslastung zum Einsatz kommen. Mal sehen welche handfesteren Infos in nächster Zeit noch auftauchen.
 
Zuletzt bearbeitet:
DAASSI schrieb:
Da hast du Recht, aber eine Gemeinsamkeit von beiden ist, dass keine 2 kompletten CPU-Kerne vorhanden sind. Das meinte ich mit "ähnlich". Man kann nicht sagen der Bulldozer wäre ein 8-Kerner, genausowenig wie der i7 ein 12-Kerner ist. Bei beiden fehlen Teile, die für eine heutige Single-CPU wichtig wären, beim einen die Integer Cores, beim anderen die extra FPU. Ich hoffe das war soweit verständlich ;)

Naja, wenn du die FPU von BD als 2x 128Bit siehst, die für eine kleine Gruppe von Befehlen zusammengeschaltet wird. Es stimmt, dass nicht alles bei BD verdoppelt wurde, aber das meiste, was nicht verdoppelt wurde, wurde einfach deutlich größer/leistungsfähiger. Frontend wurde deutlich aufgemöbelt, L2-Cache wurde pro Modul vervierfacht, pro Kern verdoppelt, die FPU ist doppelt so breit und bei herkömmlichen Workloads auch min. doppelt so schnell usw. Dem "12-Kerner" fehlen nicht nur Integer Einheiten, sondern alles bis auf zusätzliche Register. Ansonsten wurde gar nichts im Vergleich zum 6er verändert, keine zusätzlichen Pipelines, Caches, FUs, Decoder, ...


DAASSI schrieb:
Meine Definition von Core ist im Grunde genommen folgende: Ein Core ist eigentlich ein eigenständiger Prozessor,

Hmm, dann sind Bulldozer und Gulftown beides Single Cores, denn sie haben jeweils nur einen gemeinsamen Uncore Bereich, also L3-Cache und Speichercontroller.

DAASSI schrieb:
der ohne andere arbeiten kann, als Single-Core.

Hmm, nach dem Teil der Def hat BD 8 und Gulftown 12 Kerne, denn du kannst jeden der 8/12 Kerne einzeln benutzen ?!?

DAASSI schrieb:
Er kann zwar dasselbe wie ein K10.5 aber was ist wenn du mit 8 256bit-AVX-Threads anmaschierst? Das verstehe ich unter voller Befehlssatzausnutzung.

Hmm, die früheren Athlons hatten doch nur eine 64Bit SSE Einheiten, konnten also auch nur jeden 2. Takt einen 128Bit SSE Befehl ausführen. Mit BD kannst du im worst-case nur jeden 2. Takt einen 256Bit SSE Befehl ausführen. In dieser Hinsicht ist ein BD Core mehr ein Kern als ein Athlon Kern, denn der konnte unter keinen Umständen einen 128Bit SSE Befehl / Takt raushauen.
 
Zuletzt bearbeitet:

Ähnliche Themen

Zurück
Oben