News Ryzen Threadripper 2000: AMD kontert Intels 28-Kerner mit 32 Kernen

computerbase107 schrieb:
InFini-Band hat nichts, aber auch gar nichts mit zusammentackern zu tun.

doch schon. Es is nich wirklich anders als das was Intel oder AMD bisher Sockelübergreifend gemacht hat. Deswegen kannste auch nicht so viele Epycs zusammenschalten wie Intel 28C. Deswegen muss AMD auch pro Die die Kernzahl hochschrauben in der nächsten Itteration.

Dieses recht einfache "zusammenkleben" ist aber hoch wirtschaftlich und funktioniert bei TR / Epyc ausgesprochen gut. AMD hat hier absolut richtig agiert, entgegen der früheren Philosophie nicht aus Perfektion heraus eine native Die mit 32C designed sondern sich gezielt für die wirtschaftliche Variante entschieden. Quasi ein Multi CPU System auf einer Die.

Solange das funktioniert ist das super, und es funktioniert. Könnte Intel mit Sicherheit auch schnell realisieren, nur heißt es da QPI meine ich statt IF.
Theoretisch könnte AMD auch irgendwann hingehen und die einzelnen Die in einer Art Mesh kommunizieren lassen um mehr davon in Summe verbauen zu können.
 
Weyoun schrieb:
Du meinst damit die unterschiedlich ausgeprägten Befehlssätze sowie Register der unterschiedlichen x86-CPU-Generationen (die sich auch noch von Intel und AMD unterscheiden)? OK, das sehe ich ein.

Aber der Vergleich 4-Kerner (aktuelle Mittelklasse CPU) versus 32-Kerner (absolute High End CPU) vom gleichen Baujahr mit gleichen Befehlssätzen und Registern sollte dann schon ein bitidentisches Ergebnis bescheren.

Irgendwer hatte noch geantwortet, dass bei 8 bis 10 Threads so langsam Schluss wäre bei der Konvertierung? Das würde ja völlig dagegen sprechen, die Konvertierung von einer Grafikkarte durchführen zu lassen. Prinzipiell müsste es bei Videobearbeitung doch möglich sein, alle 32 Kerne auszulasten, oder nicht?
Möglich ja, nur nimmt die Effizienz ab einem bestimmten Punkt CPU seitig ab, Grafikkarten nutzen gänzlich andere befehle.
Ein Vergleich der Bildqualität habe ich Mal gesehen, finde ihn aber auf die schnelle nicht, der Test ergab bei genauer Analyse dass ab dem genannten Kernzahl die Qualität abnimmt und ab einembesommten Punkt auf den der Grafikkarten abfällt.
 
Begu schrieb:
Das ist ja genau das verrückte an der ganzen Sache. Der High-End Threadripper2 ist das gleiche wie der Ryzen 7 2700X, nur eben 4x. AMD kann den Threadripper unter Intel-Preisen verkaufen und macht dabei trotzdem mehr Gewinn.
Natürlich sind die Threadripper nicht für Gaming gedacht, aber ich sehe keinen Grund warum die bei entsprechender Kühlung nicht die gleichen Taktraten wie Ryzen2 haben sollten, es sind die gleichen Chips.
....

Nein ist er nicht TR hat nen anderes stepping und 4x den 2700x passt auch nicht dann hätte der 32C ne TDP von 420Watt (4x105). Außerdem desto mehr Kerne im Package desto niedriger der Tackt. Temperaturen müssen ja auch stimmen, oder? Ist bei Intel auch nicht anders mehr Kerne weniger Tackt damit die dinger nicht in Flammen aufgehen
 
R1ng0 schrieb:
Ich würde auch sagen, dass ein Problem entweder parallelisierbar ist oder eben nicht.
Der Übergang ist gleitend.

Angenommen 5% der Aufgabe lassen sich nicht parallelisieren. Dann kann die Abarbeitung, egal wie viele Kerne parallel arbeiten, maximal um den Faktor 20 beschleunigt werden. Das bedeutet allerdings nicht, dass sich mehr als 20 Kerne nicht mehr lohnen würden.
 
Krautmaster schrieb:
Könnte Intel mit Sicherheit auch schnell realisieren, nur heißt es da QPI meine ich statt IF.
Theoretisch könnte AMD auch irgendwann hingehen und die einzelnen Die in einer Art Mesh kommunizieren lassen um mehr davon in Summe verbauen zu können.

schnell sicher nicht sonst hätten sie es schon längst gemacht
sie arbeiten zu 100% daran vorallem bei der beschissenen ausbeute ihres 10nm prozesses (welcher aktuell noch nicht mal nen i3 mit igpu abwirft) ist es absolut notwendig sonst sehen sie kein land mehr

0-8-15 User schrieb:
Der Übergang ist gleitend.

vorallem sind die allermeisten probleme parallelisierbar die für den normalen anwender wichtig sind
es kostet halt mehr aufwand aber selbst bei spielen sind wir noch lange an der grenze angekommen
auch wenn man es im cb forum pausenlos liest
 
  • Gefällt mir
Reaktionen: Colindo und max9123
@Thraker : Mit dem Stepping magst du recht haben, aber das ist genau das, was Ryzen so zum Erfolg geholfen hat. AMD verwendet durch das ganze Sortiment die gleichen Dies, nur unterschiedliche viele davon.
Um die TDP im Griff zu halten, haben die TR2000 allerdings reduzierten Takt, wenn auch mehr als Epyc, wo die bei 180W liegt (Epyc 7601, 3.2GHz Turbo)
 
Krautmaster schrieb:
doch schon. Es is nich wirklich anders als das was Intel oder AMD bisher Sockelübergreifend gemacht hat. Deswegen kannste auch nicht so viele Epycs zusammenschalten wie Intel 28C. Deswegen muss AMD auch pro Die die Kernzahl hochschrauben in der nächsten Itteration.

Dieses recht einfache "zusammenkleben" ist aber hoch wirtschaftlich und funktioniert bei TR / Epyc ausgesprochen gut. AMD hat hier absolut richtig agiert, entgegen der früheren Philosophie nicht aus Perfektion heraus eine native Die mit 32C designed sondern sich gezielt für die wirtschaftliche Variante entschieden. Quasi ein Multi CPU System auf einer Die.

Solange das funktioniert ist das super, und es funktioniert. Könnte Intel mit Sicherheit auch schnell realisieren, nur heißt es da QPI meine ich statt IF.
Theoretisch könnte AMD auch irgendwann hingehen und die einzelnen Die in einer Art Mesh kommunizieren lassen um mehr davon in Summe verbauen zu können.

Ich stimme Dir im Großen und Ganzen zu.
Mein Beitrag bezog sich in erster Linie auf die aus meiner Sicht etwas abwertende Wortwahl "zusammentackern" bzw. von Intel "zusammenkleben".

Um Deine Theorie von einem MESH-Verbund aufzugreifen, könnte man sogar in die 3. Dimension gehen und mehrere "CPU-Layer" thermisch entkoppelt, aber per InFini-Band verbunden aufbauen, falls die DIE-Fläche nicht mehr ausreicht.
 
computerbase107 schrieb:
Dies erinnert mich im Wortgebrauch fatal an die Pressekonferenz von Intel als Reaktion auf die Ryzen-Veröffentlichung vor einem Jahr übersetzt "sie haben da Etwas zusammengeklebt".

InFini-Band hat nichts, aber auch gar nichts mit zusammentackern zu tun.
Vor allem hat InfiniBand mal überhaupt nichts mit Infinity Fabric zu tun. :daumen:
 
  • Gefällt mir
Reaktionen: .dbs.n
motul300 schrieb:
schnell sicher nicht sonst hätten sie es schon längst gemacht

da gabs aber bisher auch 0 Gründe dazu. Wenn man sowas durchzieht dann nur mit nem kompletten Neuanfang wo die ganze Plattform ink. Multi CPU Systeme drauf abgestimmt ist. Intel hat sich für die teure Variante entschieden und wollte gleich eine generelle Lösung für das Problem "Viele Kerne ansprechen und an Ram anbinden".

Intel wählte Mesh zusammen mit größeren Die, das quasi "endlos" auf einer Die skaliert - über mehrere Die mit QPI. AMD wählte als kleiner Player den anderen, für das Unternehmen absolut richtigen Ansatz "ein standard CCX", mehrere davon auf einer Die, diese "Standard Die" als kleinste Einheit um daraus auf einem Sockel verschiedene Ausbau Stufen anbieten zu können. Aber anders als bei Intel dann max 8 Die, = max 2 Sockel Systeme bei Epyc. Bei Intel sind es auch max 8 Die. Dann aber eben 28x8 Kerne und nicht "nur" 32x2.

Es geht im Prinzip immer darum die Kerne so schnell wie möglich an den Speicher anzubinden. Ringbus war eine Methode davon, die aber ab einer gewissen Kern Zahl nicht mehr gut funktioniert.

Ich weiß nicht genau wie der IF umgesetzt ist bei Epyc bzw AMDs Inter Die Kommunikation. Aber der Verdrahtung nach kann jeder mit jeder Die auf einem Interposer.
AMD-EPYC-Infinity-Fabric-Topology-Mapping.jpg

Das scheint mir ein gutes Bild dazu sein. Scheinbar hat jede ZEN Die die Möglichkeit 4 IF Gegenstellen zu koppeln. Auf einer Epyc CPU sind also immer drei dieser Kopplungen belegt (also verbindet jede Die mit jeder Die).
Ich würde annehmen dass bei einem "Multi Sockel" System mit 2x Epyc dann diese nun noch 4 verbleibenden IF Interconnects für die 4 Die der anderen CPU genutzt werden.

Im Prinzip muss ja jeder einzelne Kern dieses Komplettsystems auf jeden Ram Riegel zugreifen können, auch wenn der auf einer ganz anderen Die sitzt.

Die Latenz ist dabei folgend gestaffelt:

- am schnellsten ist es wenn es innerhalb einer CCX auf Speicher zugegriffen werden muss
- dann von innerhalb einer die auf die andere CCX zugegriffen werden muss (über den L3 on Die)
- dann über den Interposer und IF auf eine andere Die auf selbem Interposer (und da auch L3)
- dann von Interposer zu Interposer und dann nochmal über IF auf eine andere Die deselben Interposer.

Das Bild zeigt aber ganz klar das 8 Die im System das Limit sind. Aktuell zumindest. Ähnlich dürfte es bei QPI auch aussehen.

Edit: Hier sieht mans noch besser
AMD-EPYC-Infinity-Fabric-NUMA-Communication-Package-Mapping-Legend.jpg
 
  • Gefällt mir
Reaktionen: JohnVescoya
.dbs.n schrieb:
@Thraker : Mit dem Stepping magst du recht haben, aber das ist genau das, was Ryzen so zum Erfolg geholfen hat. AMD verwendet durch das ganze Sortiment die gleichen Dies, nur unterschiedliche viele davon.
Um die TDP im Griff zu halten, haben die TR2000 allerdings reduzierten Takt, wenn auch mehr als Epyc, wo die bei 180W liegt (Epyc 7601, 3.2GHz Turbo)

Der Unterschied zwischen Epyc/Threadripper Die und Ryzen Die kann durchaus bedeutsam sein. Ein wesentlicher Vorteil bei Ryzen 2xxx zu Ryzen 1xxx ist beispielsweise die stark verbesserte L2-Cache Latenz. Diese Verbesserungen waren zu großen Teilen jedoch bereits in Threadripper 1 enthalten.
https://www.anandtech.com/show/12625/amd-second-generation-ryzen-7-2700x-2700-ryzen-5-2600x-2600/3
 
ich hoffe dieser trend mit den kernen geht weiter, möchte auch gerne mal 32 kerne und noch viel mehr, im privaten bereich benutzen.
bisher konnte ich das aber nie, weil mir das einfach viiiiiiiel zu teuer war! >.<
 
motul300 schrieb:
schnell sicher nicht sonst hätten sie es schon längst gemacht
sie arbeiten zu 100% daran vorallem bei der beschissenen ausbeute ihres 10nm prozesses (welcher aktuell noch nicht mal nen i3 mit igpu abwirft) ist es absolut notwendig sonst sehen sie kein land mehr

Da wäre ich mir nicht unbedingt so sicher, dann müssten sie ja alles aktuelle über den Haufen werfen. Könnte für die Next Gen zwar theoretisch sein, dass sie auch so ein Konzept verfolgen, aber dann müssten sie ja auch schon viel länger daran arbeiten?
Ich finds für AMD aufjedenfall klasse, so kommen sie endlich wieder in die schwarzen Zahlen und für uns gibt es ordentlich Leistung. Kein Grund mehr überhaupt intel zu kaufen und dieses Geschäftsgebaren zu unterstützen.
 
0-8-15 User schrieb:
Der Übergang ist gleitend.

Angenommen 5% der Aufgabe lassen sich nicht parallelisieren. Dann kann die Abarbeitung, egal wie viele Kerne parallel arbeiten, maximal um den Faktor 20 beschleunigt werden. Das bedeutet allerdings nicht, dass sich mehr als 20 Kerne nicht mehr lohnen würden.

Jetzt hast Du mich aber aus dem Zusammenhang zitiert, denn ich bezog mich auf Deinen Ausdruck "schwer bzw. schwierig parallelisierbar".
Ein Problem ist ein aller Regel nur teilweise parallelisierbar da Du immer Thread-Synchronisation, I/O, etc. hast, insofern stellt das den Normalfall dar und ist kein Beispiel für "schwierig parallelisierbar".

Aber bezogen auf Dein Beispiel gebe ich Dir völlig recht und das ist ja im wesentlichen, was Amdahls Gesetz besagt.
 
@Krautmaster
nett von dir dass du hier die infinty fabric erklärst

du sagst ja schon selbst "bisher"
spätesten seitdem ersten epyc bzw threadripper muss intel klar sein wo die reise hinführt
und es führt auch bei intel kein weg an einem mcp vorbei

https://www.hardwarezone.com.sg/tec...ld-mix-and-match-different-parts-same-package

Bärenmarke schrieb:
Da wäre ich mir nicht unbedingt so sicher, dann müssten sie ja alles aktuelle über den Haufen werfen. Könnte für die Next Gen zwar theoretisch sein, dass sie auch so ein Konzept verfolgen, aber dann müssten sie ja auch schon viel länger daran arbeiten?

eben auch ein grund warum es nicht schnell möglich ist für intel

https://www.hardwarezone.com.sg/tec...ld-mix-and-match-different-parts-same-package
 
@.dbs.n
Der TR Sockel hat ja eine fast gleiche Pinbelegung wie Epyc. Da muss man sicherlich nicht viel anpassen.
Wie es intern gelöst wurde steht auf einem anderen Blatt.
Die Leiterbahnen laufen ja anders als bei Epyc.
Und wenn der Sockel kompatibel bleiben soll, wird nicht mehr als quadchannel vorgesehen sein.
 
motul300 schrieb:
vorallem sind die allermeisten probleme parallelisierbar die für den normalen anwender wichtig sind
es kostet halt mehr aufwand aber selbst bei spielen sind wir noch lange an der grenze angekommen
auch wenn man es im cb forum pausenlos liest
Das lese ich schon seit den ersten Desktop Dual CPU Systemen vor den ersten Dualcores immer und immer wieder. Das wird schon ewig runtergebetet und dennoch werden immer mehr Kerne parallel nutzbar. Das ist mehr eine Ausrede als eine Tatsache.
 
@motul300

Ich denke man spielt sicher mit dem Gedanken an sowas, setzt heute ja schon mehrere Chips auf nen Interposer wie das mit der Vega + Intel.
 
Endlich wieder Konkurrenz auf Augenhöhe.
Endlich wieder CPU zu vernünftigen PRYZEN.:daumen:

Grüße
 
  • Gefällt mir
Reaktionen: Kaleo Meow
Baal Netbeck schrieb:
Der TR Sockel hat ja eine fast gleiche Pinbelegung wie Epyc. Da muss man sicherlich nicht viel anpassen.
Wie es intern gelöst wurde steht auf einem anderen Blatt.
Die Leiterbahnen laufen ja anders als bei Epyc.
Und wenn der Sockel kompatibel bleiben soll, wird nicht mehr als quadchannel vorgesehen sein.
Nun ja, was anzupassen ist dürfte in erster Linie vom Chipträger des CPU Gehäuses abhängen denn darüber kommunizieren die DIE und darüber läuft die Kommunikation zum Mainboard.
Sind bei TR4 wirklich nur 4 Speicherkanäle angeschlossen dann sind natürlich auch nur 4 Speicherkanäle nutzbar und es stellt sich die Frage wie sie letztendlich mit 4 DIE verbunden sind. Bekommt jedes seinen eigenen Speicherkanal oder werden die beiden Kanäle von 2 DIE genutzt und die anderen 2 müssten zwangsläufig über IF den Speichercontroller vom anderen DIE nutzen. Mir persönlich würde da 1 Controller pro DIE besser gefallen.
Da bei TR4 und SP3 (EPYC) allerdings der gleiche Sockel zum Einsatz kommt würde auch noch die Möglichkeit bestehen das alle 8 Speichersteckplätze einzeln mit dem Sockel verbunden sind und die Reduzierung auf 4 Speicherkanäle auf dem Träger des Chip Gehäuses stattfindet. In dem Fall wären sogar alle 8 Speicherkanäle möglich.

Ich bin wirklich gespannt wie das beim letztendlichen Produkt ausschaut. :)
 
Zurück
Oben