Eisenfaust
Banned
- Registriert
- Feb. 2007
- Beiträge
- 1.212
Krautmaster schrieb:[...]
meine Aussage gilt natürlich dann wenn auch alle 8 Kerne von BD genutzt werden, hier Muss er schneller sein. Schau dir die große DIE an...
... und genau dieses Szenario ist eben das, was den BD NICHT zwangsläufig schneller machen wird! Logik! Ich habe es zu erklären versucht. Und was hat das Siliziumplättchen mit der Arbeitsgeschwindigkeit zu tun? Ich verstehe das nicht, würdest Du mir das bitte erklären?
Nochmals: Intels Kerne bringen pro Kern eine eigene Arbiterlogik mit! Das heißt eine eigene Pipeline, einen eigenen Prefetcher etc. Dazu kommt, daß die Datenpfade dieser Intelschen Einheiten sogar breiter ausgelegt sind als die der AMD Module. Wie will ein solches Design schneller sein, wenn durch einen etwa gleich breiten Flaschenhals pro Takt bei dem einen zwei Ausführungseinheiten und bei dem anderen nur eine bedient werden müssen? Das geht nicht! Dazu kommt noch, daß die FPU direkt am L2 vorbei auf den L3 zugreift - soweit ich weiß. Das führte im (T)Itanium-Design schon zu ungünstigen Fehltrefferzuständen, die sich leider enorm auf die Gesamtleistung eines Moduls auwirken könnten. Wie gesagt, könnten. Wenn man mehr über das exakte Design wüßte, wären auch Spekulationen einfacher.
Das einzig für mich Interessante an AMDs Architektur sind die FMA4-Befehle. Die bringen nämlich wirklich ein Plus. Wenn man in Assembler eine solche Operation implementiert, hat man bei Intel leider nur die Möglichkeit, einen der Quelloperanden mit dem Ergebnis zu überschreiben. Braucht man die Quelle noch, muß sie entweder "gerettet" oder erneut aus dem Speicher geholt werden. Beides bedeutet Speicherzugriffe, die um ein Vielfaches mehr Taktzyklen benötigen als Registeroperationen. Auf allen mir bekannten RISC Architekturen der Prä-Intel-Pest-Ilenzium Ära waren diese Operationen mindestens tertiär. Nur Intel hat sich die Zusatzlogik gespart - damals wie heute mit der Begründung, es sei zu aufwendig. Aber Intel hat es seinerzeit auch zu aufwendig gesehen, vernünftige numerische Algorithmen in der FPU zu implementieren.Wer sich noch an die Zeit der ITT-Ersatz-FPU erinnern kann, die fast dreimal so schnell war wie eine gleichgetaktete i387 und wer weiß, daß die Firma ITT damals lediglich einen Mathematiker eingestellt hat, der den Fricklern das numerische Wurzelziehen oder die Reihenentwicklung von trigonometrischen Funktionen und der e-Funktion zeigte, der wird an dieser Stelle sicher lachen können.
bei allem was ich bislang über den BD gelesen und erfahren habe, zeichnet sich kein großer Wurf ab und es ist etwas enttäuschend, was AMD da abzuliefern droht. Daß die FMA4-Befehle rattenschnell sind, ist sicher wahr, aber Intels Krönung mit Haswell sieht nur FMA3 vor. Also, was werden "kompatible" Programme/Compiler wohl dann eher nutzen? FMA4 wird dann Spezialisten vorbehalten bleiben und diese Spezialisten compilieren dann aber auch auf einem Intel Software so, daß sie dessen eh schon derzeit bessere Architektur optimal nutzen können!
Mir drängt sich langsam der Verdacht auf, daß AMD ein ganz anderes Konzept auf Basis der SSE5-FPU aufgrund des Intelschen Störmanövers um AVX kaputtdesignen mußte. Warten wir mal "Piledrivers" NAchfolger ab, vielleicht implementiert man dort all das, was eigentlich BD hätte sein sollen.