News Gefälschte Benchmarks eines „Bulldozer“-Prototypen

Status
Für weitere Antworten geschlossen.
Popey900 schrieb:
Ja klar, dan bezahlst du für die Top CPU von Intel 790€, Mittel 460€, Low 310€.
Fortschritt wird es fast gar nicht mehr geben.

Aber hauptsache die Intel-Fanboys haben Jahrelang überteuerte Prozessoren gekauft, die paar nicht spürbare % mehrleistung hatte. Schlau.

wären das wirklich extreme unterschiede, aber so.......

Wenn AMD untergehen würde (was ich als absoluter AMD-Fanboy nicht hoffe) wären da immer noch ARM und PowerPC welche es wieder in den Mainstream schaffen könnten (was Computer betrifft), ARM hat gerade mit Windows 8 eine geniale Angriffsmöglichkeit auf x86 erhalten und ich hoffe deren Partner werden diese auch nutzen...ich hätte nichts gegen ein Quadcore ARM mit 2.5 Ghz der zwar kaum schneller als mein aktueller Phenom II 955 BE sein wird aber es reicht in den meisten Fällen um gepaart mit meiner GTX460 die meisten Spiele zu spielen...klar, diese Spiele müsste man erst auf ARM aufbauen aber das würde ganz sicher gemacht werden (im schlimmsten Fall mit finanzieller Hilfe von Microsoft)...
 
Floletni schrieb:
Ich komme bei den ganzen Rechnungen nicht ganz hinter her.

Laut AMD ist ein Bulldozermodul 20% langsamer als eine fiktive Variante eines Dualcorebulldozer. (100%+80% durch CMP vs. 2*100% echte Kerne) 200-180=20

Mit anderen Worten: x=y-20%

Was die Leistung angeht:
4*200%=800%
4*180%=720%
Es sind insgesamt 80% weniger Leistung als ein fiktiver Dualcore dieser Architektur.

Sie verbauen aber nur 12% mehr Transistoren als ein Kern brauchen würde: 200%-112%=88%
Es wird 88% weniger Fläche die belegt, bei 20% weniger Leistung. Oder 88%*4=352% weniger Fläche bei 80% weniger Leistung.


Geht mir ähnlich, wobei das Aussagen des Herstellers sind und die werden alles andere als akkurat sein, um der Konkurrenz nicht zuviele Informationen frei Haus liefern zu wollen.

Bei AMD ist der architektonische Schwerpunkt ganz klar auf der INTEGER-Seite, was die CPU-Architektur gut in den Konsummarkt passen läßt - oder eher kaufmännische Anwendungen, deren Anforderungen an doppelt genaue Fließkommaarithmetik eher tertiär ist. Das ist bedauerlich. Ich lese die Designangaben so, daß sich je zwei im eigentlichen Sinne vollwertigen Integerkerne (ALUs) eine Arbiterlogik teilen müssen - also Prefetch, fetch und Pipeline und das, was mir in puncto terminus technicus nicht ganz geläufig ist. Aus diesem Grunde verfügen die Kerne auch nicht über die volle Bandbreite. Noch kritischer scheint mir die Teilung der FPU zu sein, die allerdings einen Bypass besitzen soll, der sie autonom vom Datenholen über die ALU-Arbiterlogik macht - in der c't war darüber einmal etwas zu lesen.
Intel hat den Engpaß der Kerne zu den Caches ja bei Sandy Bridge via Ringbus etwas entschärft. Das macht den Prozessor bei rechenintensiven Anwendungen sehr schnell, wie wir hier vor Ort festgestellt haben. In einigen speziellen Anwendugen, die hochgradig parallelisiert sind und Filter auf große Bilddatenmengen applizieren (Satellitendaten), kann ein Notebook Core-i5 (2,26 GHz, 4 Kerne, 8 Threads, Sandy Bridge, genaue Typenbezeichnung kenne ich nicht, ist aber ein Dell Latitude E6520), 8 GB RAM, mit einem Core-i7 930 mit 9,80 GHz und 12 GB RAM in der gleichen Anwendung gleichziehen. Das Modell läuft über nacht mehrere Stunden (ca. 12), der Core i7-930 ist knappe 45 Minuten schneller. Das sind weniger als 10% Vorsprung bei knapp 20% Taktvorsprung. Dazu kommt, daß der Speicher massiv beansprucht wird, weil die Software große Bildkacheln ständig hin und her schieben muß.
Im Umkehrschluß befürchte ich, daß es bei hoher Last bei AMDs Bulldozer zu ähnlichen Phänomenen kommen wird. Aber genau das ist ja das, was derzeit im Reich der Spekulationen angesiedelt ist. Bis auf die Aussagen der Hersteller über Vorteile und Einsparungen haben wir nichts und die ersten Benchmarker haben eher Kindergartentest als echte Vermessungen durchgeführt.

Was für mich von großem Interesse ist: wie wird sich Bulldozer in reinen 64Bit Anwendungen schlagen? Bei Intels Core-Architektur der neuesten Generation ziehen sich ja die winzigen L1 und L2 Caches wie ein roter Faden hindurch, was erst mit Haswell eine Revision erfahren dürfte. Bekanntermaßen sind die Intelschen Prefetch Buffer mit, ich glaube 16 Bytes auch nicht gerade 64Bit-freundlich, vor allem, wenn der selbe Prefetcher quasi zwei Threads bedienen muß. AMD scheint das Nadelöhr aufgeweitet zu haben. Deshalb sind die bisherigen Benchmarks möglicherweise auch schlecht für das AMDsche Image, da die CPU vielleicht noch mehr 'kann' als gezeigt. Ich bin deshalb sehr auf einen ausführlichen SPEC-test gespannt, den man wohl von c't erwarten können wird.
Auch wenn einige hier der Ansicht sind, daß theoretische Benchmarks unsinnig sind: sie sind die einzigen, die eine echte Tendenz zeigen. Denn Anwendungssoftware des Hier und Jetzt, die neue Eigenschaften der neuen Architektur gar nicht nutzt, wird mit Software von Morgen vielleicht schon mehr aus der CPU holen können - meist reicht ja schon ein Neuübersetzen mit entsprechenden Compilern. Das war ja sehr deutlich beim P4 zu sehen, der entgegen allen Unkenrufen dann doch sehr performant sein konnte - vorausgesetzt, man hat Software, die den prozessor nutzt. Im professionellen Umfeld ist das allerdings eher wahrscheinlich.
 
Manchmal verstehe ich nicht wie MANCHE leute sich auf der NASE Tanzen lassen.

Dieses ewige hin und her ob AMD ist besser INTEL ist besser.
Das sind nichts anderes als Werbung gebrandete Leute.

Wenn ein Prozessor mit 8 Threads arbeiten kann wird es auch einen Prozessor antretten der 8 Threads ab arbeiten kann.

1 Modul beherberg auch keine voll funktions fähigen 2 Kerne, das wurde schon so oft in in vielen Foren und Plattformen komuniziert.

Ich kann mich noch an die Pentium 4 zeiten erinnern.
Intel Kam an mit Hyperthreading " Wir haben Prozessoren die 2 Threads bearbeiten können was hat AMD ? "
Antwort von AMD wahr "Wir haben 2 Kern Prozessoren und 64bit unterstüzung"
Und schwups ist die AMD gemeinde gewachsen.

Sagen wir mal der AMD hatt echte 8 Kerne wie ja viele hier im Forum behaupten.
Es gibt fast keine Programme und oder Spiele die die vollen 4 kerne von INTEL oder AMD IM ALTAG voll ausnutzen können.

Und wenn AMD einen Prozessor rausbringt was für die Zukunft und für jetzt dicke ausreischt für unter dem PREIS wo INTEL seine HIGH END Produkte vermarktet.
DANN KAUFE ICH EINEN AMD.
Darüber gibt es in meinen Augen nichts zu diskutieren.
 
Schade, daß AMD zuerst den Spielzeugmarkt bedient. Offenbar hat das Unternehmen seinen ursprünglichen Pfad verlassen und versorgt den Profisektor nicht mehr zuerst. Aber wenn man sich den Anteil am Markt dort anschaut, wird einem auch klar warum.
Von wegen schade, eine CPU nur für Gamer. Wie lange mussten wir warten als wir das letze mal oberste Priorität hatten -> Core 2?!?
Alles andere waren Server CPUs, währe genial wenn jetzt wieder ein Gaming Brecher kommen würde wie der Core 2 Quad. Genau auf sowas warte ich seit Jahren.
Wenn du Server CPUs willst geh zu Intel und kauf dir den überteuerten sinnlosen Server Sockel. Der Ruck zuck wieder altes Eisen ist, weil der nächste Server Sockel auftaucht.

sowie momentan von der HKMG-Fertigung nutzen kann.
Bei der Fertigung sieht es extrem duster aus, wenn man Llano heranzieht ist die Fertigung total verhunzt. Könnte sich aber anders zeigen bei Bulldozer, da er ja komplett neu ist, vielleicht harmoniert der besser mit 32nm und HKMG. Aber eher unwahrscheinlich.
 
Floletni schrieb:
Ich komme bei den ganzen Rechnungen nicht ganz hinter her.

Laut AMD ist ein Bulldozermodul 20% langsamer als eine fiktive Variante eines Dualcorebulldozer. (100%+80% durch CMP vs. 2*100% echte Kerne) 200-180=20

Mit anderen Worten: x=y-20%

Was die Leistung angeht:
4*200%=800%
4*180%=720%
Es sind insgesamt 80% weniger Leistung als ein fiktiver Dualcore dieser Architektur.

amd hätte nie mit prozentrechnung anfangen sollen ;)

du kannst das bis ins unendliche verkernen, es ist und bleiben aber die 180/200=90% leistung im vergleich zum echten zweiten kern.

n*100/(n*90)=90%
 
@Krautmaster

Dass das Ding schneller ist, wenn man 4 Threads auf 4 Module verteilt und jeder Kern die

vollen Ressourcen nutzt, ist grundlegend falsch und wurde von AMD offiziell auch dementiert.

Am besten verteilt man 4 Threads auf 2(!) Module. Dadurch, dass 2 Module dann pennen,

kann man den Turbo hochjagen!!

Man kann nicht nur ein halbes Modul schlafen legen, sondern immer nur komplette!!

Wenn also 4 Threads die 4 Module ausnutzen is nix mit himmelweitem Turbo :D
 
Krautmaster schrieb:
jep, deswegen ist für mich die große Unbekannte wie sich die CPU bei zB 4 Threads verhält.
Der Turbo dürfte nur modulbezogen greifen.
Was das betrifft bin ich voll auf deiner Seite. Ein unterschiedlich schnelles Takten der ALUs wäre kontraproduktiv, da das Frondend entsprechend mit hochtakten müsste und speziell bei der FlexFPU dürfte es dann richtig problematisch mit der Synchronisation werden.

Krautmaster schrieb:
Trotzdem wäre die Leistung besser 4 Threads auch auf 4 Module zu verteilen da jedem Thread dann die die vollen Einheiten einem Modul zur Verfügung stehen. Der zweite Integer Core könnte dann schlafen. Wenn dieses Schlafen genug einspart kann die CPU auch dann deutlich hochtakten.
Das habe ich ja vorgerechnet, es sollte auf 2 Modulen schneller laufen (durch Turbo) als auf allen 4 Modulen.
Stromspartechnisch ist das Abschalten von 2 kompletten Modulen effektiver als das Abschalten von 4 ALUs. Dort wird ja dann auch das Frontend mit abgeschaltet (schnelle Caches brauchen viel Saft).
Deshalb ja auch 4,2 GHz Turbo bei 2 Modulen gegenüber 3,6 GHz Turbo bei 4 Modulen.

Krautmaster schrieb:
Ich denke bei 4Threads arbeiten bei AMD auch alle 4 Module.
Einfacher zu realisieren wäre es allemal, ich hoffe aber das AMD hier den von mir favorisierten Weg wählt.

@CB
Wenn AMD 4 Threads auf 4 Module aufteilt und man einzelne Module deaktivieren kann, würde ich gerne einen Test 2 Module + 4 Threads gegen 4 Module + 4 Threads sehen. Das wird bestimmt interessant.
 
AMD meint es sind 20% weniger. Da kannst du nicht einfach rechnen 180/200=90%. Ich bin genauso verwirrt wie vorher.
 
Nein, du liegst falsch Peter:


Diese verschwurbelten Rechnungen die hier gemacht werden,basieren auf Aussagen die John Fruehe getroffen hat... u.a. hier.

Und da wird ausgesagt, hat man einen Dual Core, so hat der 1. Kern 100% Durchsatz (throughput, hat per se nichts mit Leistung oder IPC oder sonstawas) Der zweite (und jeder folgende) Kern hat immer nur bis zu 95% Durchsatz (das ist einfach so): Ein nativer Dual Core hat also einen Durchsatz von 195%.

Der erste Kern eines Moduls hat auch 100% Durchsatz, da ihm die vollen Ressourcen zur Verfügung stehen. Kommt der zweite Kern hinzu (also bei Bearbeitung von zwei Threads im Modul) teile sich die beiden Kerne nun gewisse Ressourcen und der Durchsatz "sinkt" auf 180%.

Werden aber nur max 4 Threads in einem 4 Modul BD verarbeitet werden, dann würde der Durchsatz 100%+95%+95%+95%= 385% betragen

Also stimmt deine Rechnung nicht: 1 Kern hat nicht 90% "Durchsatz" sondern volle 100%. Bei zwei Kernen/Threads sind es 180% und das bei nur 12% (also 112% Die-Fläche für ein Modul) mehr die-Fläche im Gegensatz zu 195% Durchsatz bei 2 vollen Kernen und 200% die-Fläche.
 
amd meint dass der neu gewonne "kern" nur 80% leistung eines vollen kerns bringt. auftreten werden sie jedoch immer gepaart. also ein voller kern + ein "ht"-kern. macht dann in der rechnung (80+100)/(100+100)=90%.
der volle kern gleicht das wieder ein wenig aus.

und zu deiner rechnung. wenn du ein benchmark startest der bei 8 vollen kernen 800Punkte bringt, dann werden 4 module 720Punkte erreichen. 80Punkte weniger. im verhältnis aber wieder 90%

@dead

ja das mit den 95% hab ich mal weggelassen, würde die rechnung nur komplizierter machen. ich will hier nur die verhältnisrechnungen anpassen. scheint mir so als rechnet hier jeder hohe prozentzahlen aus und fängt dann plötzlich das subtrahieren an.
natürlich hat ein kern nicht 90% aber wenn man ein modul mit den zwei echten kernen vergleicht (und nicht einen echten kern mit dem "ht"-kern) kommt man auf die (ohne die 95% von JF) 90%
 
Zuletzt bearbeitet:
HongKong Fui schrieb:
also doch 8 Kerne? :stacheln: :lol:
Wenn du meinen Beitrag komplett gelesen hättest, dann wäre dir das "UM MAL BEI DEINER LOGIK ZU BLEIBEN" aufgefallen ;)

Erst lesen, dann schreiben!
 
AMD wird meiner Meinung nach nicht untergehen. Irgendwann wird AMD auch andere Sektoren erschließen, dann, wenn Intel von von vornherein nicht immer erste Wahl bei Verträgen i.v.m.
Bedingungen ist.

Auch kann das nicht sein, da etliche Mainboardhersteller auch abrauchen würden. Gigabyte , ASUS, etc. Da steckt auch in der Technikentwicklung, Know -How, Zeit und Geld drinnen, was nunmal verkauft werden muss.

Ohne Board nutzt die ganze CPU nichts...zumindest könnten die Boardhersteller Intel in die Schranken weisen.
 
Zuletzt bearbeitet:
Nein Peter, du verstehst es nicht.


Du rechnest genauso verschwurbelt wie alle anderen auch.


Die von John Fruehe aufgestellten Rechnungen sagen rein gar nichts, nicht mal einen Hauch, über die Leistungsfähigkeit von BD aus. Es wird lediglich die Architektur eines Moduls erklärt, daher zitiere ich den Schlusssatz:

Nothing I have provided above would allow anyone to make a performance estimate of BD vs. either our current architecture or our compeition, so, everyone please use this as a learning experience and do not try to make a performance estimate, OK?

Wie das BS, das Programm, die Applikation, der Compiler oder sonstwas die Kerne/Module aulastet ist überhaupt nicht gesichert.

Wie HfWU.Kenny schon erwähnte, werden wohl je nach Situation 4 Threads auf 2 Modulen ausgeführt, der Rest schlafend gelegt und der Turbo angeschmissen. Es kann aber auch besser sein, 4 Threads auf allen 4 Modulen laufen zu lassen. Das hängt immer vom Anwendugsfall ab.


Und dass du jetzt aus irgendwelchen Durchsatzprotzentzahlen einen fiktiven Benchmarkwert machst ist, mit Verlaub, eine Rechnung aus der Milchmädchenschule.
 
es geht mir hier wirklich nur um mathematik.. die leistung ist mir egal ;)

und der vergleich ist nur zwischen vollen kernen und den modulen, über die leistung hab ich doch garnichts gesagt. amd gab an dass die leistung eines "ht"-kerns bei 80% der eines vollen liegt. nur damit rechne ich. ich vergleiche nur den vollen kern von bd (dessen leistung keiner kennt) mit dem modul. also den nachteil den das modul gegenüber 8vollen kernen hat.

und die benchmarkwerte sind aus dem post von Floletni erfunden. aussage war da
4*200=800%
4*180=720%
->80% weniger leistung

was wie gesagt nicht stimmt. es sind nur 10% weniger leistung und fiktive 80Punkte weniger.
 
Peter... bitte hör jetzt auf. Das was du machst ist keine Mathematik, das ist eine Milchmädchenrechnung.

Du kannst nicht einfach Prozentwerte addieren und subtrahieren und dann sagen es wäre 80% weniger Leistung, wo hast du das denn gelernt?

800*0,9=720, das wäre dann schonmal 10% weniger DURCHSATZ!!! nicht 80% weniger LEISTUNG.

Bei diesen Rechnungen geht es allein darum, die Kerne/Module und deren Durchsatz zusammenzufassen.

Du machst daraus eine Leistungseinschätzung.


Und nein... ein Kern bietet 100% Durchsatz... ein zweiter Kern im Modul bringt 80% mehr Durchsatz. Du kannst das nicht einfach durch zwei teilen und dann sagen, zwei Kerne im Modul bringen nur 90% Leistung.... erstens ist es nicht Leistung sondern immer noch der Durchsatz und zweitens.... hat der erste Kern immer einen Durchsatz von 100%!!!
 
deadohiosky schrieb:
Es kann aber auch besser sein, 4 Threads auf allen 4 Modulen laufen zu lassen.

In den meisten Fällen ist es besser, aber bei 4 Threads werden die anderen Module abgeschaltet und der Turbo für 2 Module (1GHz laut News) setzt ein.

4T/4M
3,6(1+3*0,95) = 13,86
4T/2M
4,2(1+0,95+2*0,8) = 14,91
Das wären also durchschnittlich 7,6% mehr Leistung bei vermutlich weniger Stromverbrauch, Szenarien, bei denen Threads auf die gleichen Daten im L2-Cache zugreifen ausgenommen.
 
derNetZwerg schrieb:
Das habe ich ja vorgerechnet, es sollte auf 2 Modulen schneller laufen (durch Turbo) als auf allen 4 Modulen.
Stromspartechnisch ist das Abschalten von 2 kompletten Modulen effektiver als das Abschalten von 4 ALUs. Dort wird ja dann auch das Frontend mit abgeschaltet (schnelle Caches brauchen viel Saft).
Deshalb ja auch 4,2 GHz Turbo bei 2 Modulen gegenüber 3,6 GHz Turbo bei 4 Modulen.


Einfacher zu realisieren wäre es allemal, ich hoffe aber das AMD hier den von mir favorisierten Weg wählt.

@CB
Wenn AMD 4 Threads auf 4 Module aufteilt und man einzelne Module deaktivieren kann, würde ich gerne einen Test 2 Module + 4 Threads gegen 4 Module + 4 Threads sehen. Das wird bestimmt interessant.

Jep das ist die Frage. Wenn natürlich die Abschaltung von Modulen hier weit mehr bringt und mehr Raum für Takt der anderen Module bietet dann ja.

In jedem Fall wird es auch interessant zu sehen wie die CPU skaliert, wobei man fairerweise sagen muss, dass heute meist entweder nur dezent parallelisiert wird, oder eben komplett wie zB bei x264 und Renderaufgaben. Für die gering parallelisierten Anwendungen wird es nur geringerer Bedeutung sein ob Bulldozer nun 10% langsamer oder schneller ist.
 
Zuletzt bearbeitet:
@ y33H@


Ich hoffe du warst dabei als diese slides passend zur Präsentation gezeigt wurden. Denn so eine simple Aussage wie du sie getroffen hast, wurde da sicherlich nicht getätigt. Leistung=/= Durchsatz.

@Axzy

Das habe ich doch im vorherigen Satz schon gesagt, warum hast du den nicht mitzitiert? Es geht mir auch darum, dass die Gleitkommareinheit wenn nur ein Kern pro Modul belastet wird nicht geteilt werden muss. Aber dass sind alles Spekulationen.
 
@deadohiosky
Es geht in meinem Post mehr um die Rechnung, da war der Satz m.E. ein guter Anhaltspunkt
 
Status
Für weitere Antworten geschlossen.
Zurück
Oben