AMD SMT kein wirkliches HT (Intel)- nicht Konkurrenzfähig?

iamunknown schrieb:
Leitest du diese Vermutung von der schlechteren IPC-Leistung der Ryzens ab?

Nein, sondern daraus, wozu man SMT denn überhaupt erst eingeführt hat. Holt hat das doch ausführlich beschrieben. Es geht um die "lückenlose" Nutzung der vorhandenen Pipeline(s).
 
kisser schrieb:
Es geht um die "lückenlose" Nutzung der vorhandenen Pipeline(s).
Es ging damals bei Intel tatsächlich um die effizientere Ausnutzung der (ineffizienten) NetBurst-Architektur. Ein Stall dort tat wegen der sehr langen Pipline richtig weh.

Nichts desto trotz, können die Rechenwerke jedoch auch effizienter genutzt werden, wenn auf Thread A eine Integer- und auf Thread B eine Floating-Point-Operation durchgeführt werden soll...

Und genau deshalb auch meine Frage, ob er mehr Infos dazu hat, warum es bei AMD konkret effizienter läuft oder das nur eine Vermutung (ist ja auch berechtigt) darstellt.
 
"Effizienter" ist an der Stelle glaub die falsche Metrik.

Wieso AMDs SMT in einigen Benchmarks größere Gewinne erzielt kann viele Gründe haben. Ein Teil geht in die Richtung, dass AMDs Sprungvorhersagen, Prefetch, Latenzen schlechter sind bzw. es am L3 Cache liegt der nur als "victim cache" fungiert. Genauso wie AMD es evtl. auch geschafft hat SMT sehr gut zu implementieren.
Im Zweifelsfall ist es sowieso eine Mischung aus allem.

Im Zweifelsfall kann es einem als Anwender egal sein, das Einzige was zählt ist, dass die konkrete Anwendung gescheit läuft. Woran das liegt kann einem ja egal sein, vor allem da man als Anwender sowieso zig Abstraktionsschichten zwischen seiner Anwendung und der CPU Interna hat.
 
kisser schrieb:
Das hängt ja doch "nur" vom gerade ablaufenden Code ab.

Seinerzeit konnte CB die teils beim P4 ermittelten Ergebnisse gar nicht glauben:

https://www.computerbase.de/2002-11/test-intel-pentium-4-3066-mhz/7/
Hier kann man es doch wunderbar sehen:
  • Dhrystone (Nur Ganzzahl-Operationen): 15% mehr Leistung
  • Whetstone (Mischung aus Fließkomma- und Ganzzahl-Operationen sowie Speicherzugriffen): 56% mehr Leistung
Beim reinen Floating-Point-Benchmark hängt es teils auch davon ab wie die CPU intern das auf die SSE-Einheiten aufteilen kann. Scheint beim P4 nicht besser als mit den Integer-Operationen zu laufen, evtl. werden hier nur die "Stall-Zeiten" verwendet.
 
darkcrawler schrieb:
Falsch, AMD ist hier schneller und sicherer

Naja...ich mußte nun echt mal schmunzeln. Hört sich ein wenig nach FAN Boy an. Und ich nehme an, in den nachgehenden Threads ist mehr als gut erklärt was eigentlich dahinter steht und die Notwendigkeit.
 
fellkater schrieb:
Naja...ich mußte nun echt mal schmunzeln. Hört sich ein wenig nach FAN Boy an.
Warum? Gibt es zur AMD-SMT-Implementierung bereits konkrete Exploits? Bei Intel sollte es ja in einer Server-Umgebung mit vHosts deaktiviert werden da SW-Workarrounds zur Sicherheit nicht performanter sind als das Abschalten von HT...
 
kisser schrieb:
Das hängt ja doch "nur" vom gerade ablaufenden Code ab.
Nicht nur, sondern auch noch von den Daten, wenn die Daten die in einer Schleife bearbeitet werden noch in die Caches passen, dann werden weniger Unterbrechung fürs Nachladen nötig sein als wenn sie aus dem RAM geladen werden müssen. Leider finde ich es gerade nicht, aber irgendwo war mal in einem Review Blender mit unterschiedlichen Testdaten und da änderte sich die Reihenfolge der CPUs je nachdem welche Szene da gerendert wurde.
 
Soll ich euch ein paar Bechmarks durchlaufen lassen damit ihr nicht nur spekulieren müsst? Dauert aber etwas, bin noch nicht zuhause ;-)

Falls ja, einfach ein paar Dinge auflisten (idealerweise zugängliche Benchmarks, etwa die aus meiner Signatur, dann muss ich nur noch einmal jeweils mit SMT off durchlaufen lassen - Das sollte ja einen Eindruck geben.)

Dann können Holt oder Kisser ja ihre Intel Sys dagegen halten und schwupps ist es geklärt.
 
Zuletzt bearbeitet:
Ned Flanders schrieb:
schwupps ist es geklärt.
Was ist damit geklärt? Das die RYZEN mit SMT gegenüber ohne prozentual mehr Punkte in den meisten Benchmarks einfahren als bei Intel mit HT als ohne, ist doch unstrittig. Es geht doch alleine darum was dies über die Optimierungen der Architektur aussagt, denn da ist manche mit meiner Erklärung dazu offenbar nicht einverstanden. Die meisten von denen stehen aber sowieso auf meiner Igonreliste und damit verschwende ich keine Zeit denen irgendwas beibringen zu wollen.

Aber Du kannst den Test gerne machen und wenn Du Dir dann den RYZEN 3000 gekauft hat nochmal wiederholen und die Ergebnisse vergleichen. Es sollte mich nicht wundern, wenn der prozentuale Gewinn durch SMT dann geringer ausfällt, eben weil die Architektur dann schon mal richtig optimiert wurde.
 
  • Gefällt mir
Reaktionen: kisser
Holt schrieb:
ist doch unstrittig

Ich dachte das wäre strittig und ehrlich gesagt weiss ich auch garnicht ob es so ist. Außer Cinebench hab ich dazu noch kein Ergebnis gelesen. Aber grundsätzlich hast du natürlich recht. Je weniger die Rechenwerke ausgelastet sind, je mehr bringt SMT. Schlecht ausgelastet heißt schlicht, dass es ein Bottleneck gibt und sie mehr könnten als sie gefüttert bekommen. Ich weiss zwar was Du damit meinst, aber "weniger effizient" ist nicht wirklich der passende Ausdruck dafür. Nicht so ausgelastet trifft es wohl eher.
 
Holt schrieb:
...meisten Fällen deutlich verbessern, wie man sehr gut bei den alten Pentium 4 und Atoms sehen konnte, bei denen ja wie gesagt noch keine Out-of-Order Architektur vorhanden war und HT daher sehr viel Leistungszuwachs gebracht hat.

Der Pentium 4 hatte out of order execution. Die gibt es schon seit dem Pentium Pro.

Allerdings war die Pipline mit 20 später 31 Stufen sehr lang und die Sprungervorhersage, damals „noch nicht so toll“.

Es werden ja bei jeder neuen Architektur die so „gravierenden“ Fortschritte bei der Sprungvorhersage beworben.

Aber über die Jahr(zehnte) im Vergleich zum Pentium 4 hat sich halt doch merkbar was getan.

Gruss


Edit
Ned Flanders schrieb:
Ich dachte das wäre strittig und ehrlich gesagt weiss ich auch garnicht ob es so ist. Außer Cinebench hab ich dazu noch kein Ergebnis gelesen. Aber grundsätzlich hast du natürlich recht. Je weniger die Rechenwerke ausgelastet sind, je mehr bringt SMT. Schlecht ausgelastet heißt schlicht, dass es ein Bottleneck gibt und sie mehr könnten als sie gefüttert bekommen. Ich weiss zwar was Du damit meinst, aber "weniger effizient" ist nicht wirklich der passende Ausdruck dafür. Nicht so ausgelastet trifft es wohl eher.
Wiso nicht...
Das theoretisch vorhandene Potential der Rechenwerke wird ohne SMT nicht so effizient genutzt. Daher bei effizienterer Nutzung durch SMT fällt der Leistungssprung prozentual höher aus.
Was bei gut parrallelisierbaren Tasks wir Rendern, Encodieren, etc. ein angenehmer Effekt ist
 
Zuletzt bearbeitet:
Holt schrieb:
Es geht doch alleine darum was dies über die Optimierungen der Architektur aussagt, denn da ist manche mit meiner Erklärung dazu offenbar nicht einverstanden. Die meisten von denen stehen aber sowieso auf meiner Igonreliste und damit verschwende ich keine Zeit denen irgendwas beibringen zu wollen.
Soll man jetzt vor dir nieder Knien und dich um Verzeihung bitten wenn man etwas schreibt was nicht deiner Meinung entspricht?
 
Zurück
Oben