News Ryzen Threadripper: 1950X und 1920X zu Preisen von 999 und 799 US-Dollar

Krautmaster schrieb:
Und das geht auf absehbare Zeit total einfach und unbegrenzt weiter? Wieso führt Intel überhaupt Mesh ein?
Das Konzept mit den CCX auf einer Die mag bei 4, 8 oder auch noch 16 Kernen in zb 2 Ringen auf einer Die wunderbar funktionieren wie bei Broadwell heute ja auch.
Intel hätte doch auch recht einfach mehrere Broadwell 8 Kerner auf ein Package packen können, nur löst das nicht das Problem der Anzahl der Kerne die auf einer Die miteinander performant reden müssen, an den RAM und IO angebunden sind.

@ Ampre

Wie sieht das bei Epyc aus? Klar steigt der Weg mit Anzahl der Kerne auf einer Die an. Mehr Kerne werden egal mit welcher Technik nie so schnell miteinander reden können wie zb bei einem CCX intern.
Du siehst doch bei Ryzen schon gut, CCX intern super fix, CCX zu CCX schon höhere Latenz als das Mesh oder Intels Ring. Aber auch das ist noch halb so wild.
Mit mehr Kernen in einer CCX oder mehr CCX oder mehr MCM Die wird das aber auch nicht besser werden.

Was glaubst du denn warum Intel so Muffensausen hat? ;)
 
AMD wird genauso in die Zukunft orientiert denken, sag ich das Gegenteil oder was? Vielleicht machen die ihr Mesh schon heute bei IF zwischen den einzelnen Die Nodes, oder wie redet IF aktuell? Aber auch AMD intern wird die sicher überlegen wie sie ihr CCX vergrößern oder ggf mehrere CCX unterbringen, oder aber die IF Nodes vergrößern um bei 4 Die pro Package auch bis 8 Sockel zu realisieren usw.

Sowas kann man auch technisch nüchtern diskutieren ohne gleich ein besser als draus zu machen, sagte ich bereits vorher. Finde beide Ansätze für das jeweilige Unternehmen genau richtig.

@ ampre

Werd nicht kindisch. Reicht wenn Intel kindisch Folien bringt. ^^

Edit : bei Intel wie AMD geht es zunehmend darum wie man maximal viele Kerne in ein System packt, mit egal wie vielen Nodes. Das einfach eine mathematische Überlegung wie man möglichst viele Nodes, bis runter auf den einzelnen CPU Kern, verbindet. Bei AMD und Intel sind es verschiedene Levels.

4 Kerne in einem CCX (super fix)
8 Kerne in einem Die mit 2 CCX
Bis 4 Die also 32 Kerne auf einem CPU Package/Sockel
Bis 2 Packages im System = 64 Kerne

Bei jeder Ebene wird die Kehr zu Kern Kommunikation etwas langsamer.

Bei aktuell Intel

28 Kerne in einem Mesh (Latenz abh von Kern zu Kern Entfernung im Mesh)
1 Die pro Package
Bis 8 Packages im System = 224 Kerne
 
Zuletzt bearbeitet:
Schau dir die Stuktur beider An. Es kommt jetzt drauf an wie die Programme geschrieben sind.

Bei den Meisten Programme ist es so das es ausreicht wenn 4 Kerne miteinander Daten austauschen. Bei der CCX muss man im Programm also nur aufpassen das Threads die Daten von anderen Threasds brauchen in der selben Gruppierung laufen und bum das Teil wird viel viel Schneller abgearbeitet als bei Intel.
 
Zuletzt bearbeitet:
Wenn du Aufgaben und die Logik dazu hast diese zusammengehörigen Tasks in ein CCX oder einen Die zu packen hast du absolut recht.
Intel versucht hier eine möglich breite Homogenität anzubieten, ganz unabh davon welcher Kern mit welchem quatscht da es nicht immer diese einfache Granularität bei Tasks gibt. Im big Data schon garnicht.

Wenn du zb Cinebench anwirfst spielt das alles keine Rolle. Da kommt jeder Kern in einem CCX schneller an den RAM als zb ein Kern inmitten des 28 Kern Mesh bei Intel.
 
Zuletzt bearbeitet:
ampre schrieb:
Zum Mesh von Intel. Das ist ein riesiger Verwaltungsaufwand den eien Meshstruktur benötigt und der Steigt mit jedem Kern an, bei größer werden Netzwerken wird das Mesh immer langsamer weil seine Verwaltung immer unüberschaubarer macht. Da kann es dann sein das eine Baumsturkutr um einiges Schneller reagiert als ein Mesh

AMD hat das gleiche Problem.

650px-amd_infinity_fabric_dual-socket%284_dies%29.svg.png

https://en.wikichip.org/wiki/amd/infinity_fabric

Derzeit löst AMD das Problem mit möglichst breiten Verbindungen zwischen den Dies. Da aber pro Die nur 2 Speicherkanäle vorhanden sind, läuft wie wir bereits wissen die Infinity Fabric im Speichertakt und die einzelnen Dies greifen so mit möglichst wenig Verzögerung auf den eigenen (lokalen) und fremden (remote) Speicher zu.

Das lässt sich aber nun eben nicht beliebig skalieren. AMD greift mit 2x4 Dies Intels 2x1 Dies an. Hier liegt auch das Massengeschäft, darüber brauchen wir nicht zu diskutieren. Intel kann aber nicht nur 2x16 Kerne, Intel kann auch 8x28 Kerne!

Mit dem derzeitigen System kommt AMD da nicht weiter. Derzeit verbindet zum Beispiel eine IF Lane ein Die von einem Sockel mit einem Die auf einem anderen Sockel und diese läuft mit dem Speichertakt. Bei Intel verbinden 3 UPI Lanes mit 5,2 Ghz die jeweiligen Sockel miteinander. Das geht bei AMD deshalb nur bei einem 2 Sockel System auf. Bei 4 oder mehreren Sockeln müssten sie entweder ein Mesh zwischen den Sockeln aufbauen oder sie müssen die Dies aufbohren. Dann gibt es jedoch nicht nur 2x4 Kerne pro Die sondern 2x8 und das hat dann wieder so ihre Probleme.

Derzeit kann AMD günstig einen "Einheitsdie" produzieren und diesen mit maximalen Yield in allen CPUs platzieren. Ein Bedarf für 16 Kerne im Desktopmarkt wird aber noch über Jahre hinweg nicht entstehen, im Servermarkt hingegen schon. Es ist richtig und wichtig im Massenmarkt zunächst einmal Geld zu verdienen, aber ganz so einfach wie sich das manche hier so vorstellen wird sich das nicht auf die nahe Zukunft übertragen lassen.

ampre schrieb:
Bei den Meisten Programme ist es so das es ausreicht wenn 4 Kerne miteinander Daten austauschen.

Ist das so? Da bin ich mir eben sicher, dass es nicht so ist. Wo benötigen wir viele Kerne? Datenbanken und Terminal Server sind da ein guter Beispiel. Schon bei den Datenbanken wird es schwierig wenn man den Speicher immer nur über andere Kerne hinweg ansprechen kann. Bei Terminal Servern wird es gar tödlich, da laufen dann diverse Programme, die teils selbst zwischen 1 und 8 Kernen nutzen können in einer VM mit 16+ Kernen. Da kannst du nichts mehr optimieren, sondern brauchst möglichst gleiche Leistung oder hängst ständig am schwächsten Glied der Kette. Auch beim Speicher kannst du da nicht zaubern, niemand wird im Server den Speicher übertakten, da ist die Einschränkung der IF mit dem Speichertakt zu laufen problematisch.
 
Zuletzt bearbeitet:
Deswegen find ich AMDs Ansatz auch ideal für den eigenen Betrieb, Fokus auf Felder mit hohem Bedarf und hier möglichst hohe Marge produzieren.

Ohne aber das technische Verständnis bzw das eigentliche Problem erkannt zu haben wirds schwer drüber zu diskutieren. Intel wird schon wissen an wen sie ihre Produkte mit 8 Sockel und je 28 Kerne vertreiben. Man sieht es ja schon an dem extrem customized CPU die Intel da offeriert, da bekommst quasi den 2 mio Euro 8 Sockel System bzw Systeme nach Maß. Ka wer sowas in großem Stil kauft? Wissenschaftliche Einrichtungen vllt.

Das ist ein ganz anderer Markt als der den AMD mit Epyc bedienen will.
 
Zuletzt bearbeitet:
Ich als 0815 Anwender kann mit 12 oder gar 16 Kernen nichts anfangen und ob die jetzt von AMD billiger sind ist mir egal weil es bringt mir ja nichts, wenn ich die Leistung von soviel Kernen nicht nutze.
Klar gibt es Leute, die sich über so viele günstige Kerne freuen und hier wird AMD auch fleißig verkaufen, was ja auch gut so ist.

Einen 10 Kerner TR wird es wohl nicht geben, weil es gibt auch keinen 5 Kerner Ryzen. Bleibt ein möglicher 8 Kerner TR, der dann auch erst einmal zeigen muß, ob es sich lohnt das Geld dafür zu bezahlen. Klar hätte der mehr IO und Quad RAM aber schneller als ein Ryzen 8 Kerner wird der auch nicht sein.

Irgendwer hat hier geschrieben, man könnte mit einem 16 Kerne TR ja Spielen, streamen und nebenbei noch einen Film umwandeln. Hier würde ich gerne einmal sehen, was die Infinity Fabric dazu sagt bzw. wie die Kerne sinnvoll den jeweiligen Anwendungen zugeordnet werden können um die Last auf der Infinity Fabric zu reduzieren.
 
Ich kann das schwer abschätzen. Welche Nachteile bietet zb ein klassisches 2 Sockel System hier für Gamer und normale Anwender? Ist das beim Game dann iwi umrunder wenn ein Task aus der anderen CPU mitrechnet? Wohl so minimal dass keiner da wirklich was mitbekommen würde.

Wie ist es bei diesem Rechenzentren wenn noch ne Layer dazu kommt, also Task A versucht auf Kern 2351 und 6427 zu rechnen? ^^
 
Zuletzt bearbeitet:
oldmanhunting schrieb:
Ich als 0815 Anwender kann mit 12 oder gar 16 Kernen nichts anfangen und ob die jetzt von AMD billiger sind ist mir egal weil es bringt mir ja nichts, wenn ich die Leistung von soviel Kernen nicht nutze.

Du vielleicht nicht, aber ganz sicher für diejenigen, die mit Bild- und Videobearbeitung arbeiten und damit ihr Geld verdienen.

Im Gegensatz zu Intel, wo man sich fragen muss, ob ein 18 Kerner SLX überhaupt rauskommt, bietet hier AMD eine gute Antwort zu einem Preis, welches es wirklich interessant macht.
 
Leider werden im Freudentaumel wenn die neue CPU der eigenen Fetischmarke endlich mal wieder gut abschneidet, alle möglichen Leute zu Möchtegern-Jim-Keller-Doubles und wissen ganz genau wie eine solche zu designen ist :evillol:

Ganz ehrlich, da darf man gerne mal spekulieren, aber wirklich handfeste Fakten gibt es derzeit noch nicht. Auf jeden Fall sollte man keine voreiligen und allgemeingültigen Schlüsse ziehen, wenn SKL-X in einigen Anwendungen (noch) nicht so gut performt und Threadripper in bis jertzt einzelnen Benches gut da steht. Intel wird sich mit Sicherheit nicht einfach ohne Not vom bewährten Ringbus getrennt haben und wie gut AMDs Infinity Fabric auf lange Sicht performt wird sich zeigen. Heute voreilige Schlüsse zu ziehen ist eben nur eins... voreilig ;)
 
Joa um nochmal zu uns Anwendern zurück zu kommen. Da ist Mesh sicher nicht das was nötig wäre und auch hier ist AMDs Weg der wirtschaftlichere.

Für diese kleinen Kernzahlen um 8-20 wäre vermutlich sogar Intels Ringbus nach wie vor ne gute Wahl. Vielleicht nutzt diesen Intel auch wieder wenn sie me neue Consumer CPU brauchen mit zB 8 Kernen. Das Design haben sie ja schon.

Mal sehen wie der 6 Kern Coffee Lake aufgebaut ist.

Aktuell bedeutet Intels neues Konzept für Ihr Server CPU Design wohl eher Nachteile für uns.
 
Zuletzt bearbeitet:
Krautmaster schrieb:
Ich kann das schwer abschätzen. Welche Nachteile bietet zb ein klassisches 2 Sockel System hier für Gamer und normale Anwender?

Ein grosses. Deshalb ist "sowas" normalerweise nur für Server und Serveranwendungen gedacht die damit umgehen können. An jedem Sockel hängt Speicher und PCIe Lanes mit entsprechenden Geräten. Der Zugriff auf den Speicher und die Geräte am gleichen Sockel läuft immer mit voller Geschwindigkeit, der Zugriff auf fremden Speicher und fremde Geräte muss zunächst über die Querverbindung erfolgen. Bei AMD ist es eben die Infinity Fabric, bei Intel QPI/UPI.

Einfachster Beispiel wie man das Problem im Serverbereich umgeht? Bei einem Server für Datenbanken einfach 2 VMs mit je x Kernen und x Speicher aufbauen, schon bracht man sich darüber kaum Gedanken machen.

Bei einem "Spielesystem" würde aber zum Beispiel die Grafikkarte an einer CPU hängen, aber beide CPUs müssen darauf Daten übertragen. Die eine CPU kann das noch mit voller Geschwindigkeit, die andere aber unter Umständen nicht mehr. Da nun Spiele aber von NUMA nichts verstehen und das Betriebssystem wie gewohnt die Tasks hin und her schaltet reduziert sich die Gesamtleistung auf den Flaschenhals.

Intel hat schon seine Gründe wieso sie auch 72Kerne auf eine CPU packen, weil es schlichtweg für viele Anwendungen das Optimum darstellt.

Aber bringt auch wenig darüber in Threadripper Thread zu diskutieren. Das ist alles Zukunftsmusik. Mir kommt halt immer Galle hoch wenn wieder jemand schreibt wie toll die AMD Lösung doch ist und wie veraltet die Intel Lösung dagegen aussieht...... AMD hat das Optimum aus ihren beschränkten Ressourcen gemacht und ein geniales System für JETZT und HEUTE präsentiert. Das macht das Intel System nicht schlechter und sagt über die zukünftige Entwicklung noch gar nichts aus.

Wie schon weiter oben angemerkt hat Intel von 4 bis 72 Kernen alles mögliche im Programm und von 1 bis 8 Sockeln auf normalem Boards. AMD stellt nur einer kleine aber lukrative Teilmenge davon dar und auf diese wurde ihr System optimiert.
 
Zuletzt bearbeitet:
xexex schrieb:
AMD hat das gleiche Problem.

650px-amd_infinity_fabric_dual-socket%284_dies%29.svg.png

https://en.wikichip.org/wiki/amd/infinity_fabric

Derzeit löst AMD das Problem mit möglichst breiten Verbindungen zwischen den Dies. Da aber pro Die nur 2 Speicherkanäle vorhanden sind, läuft wie wir bereits wissen die Infinity Fabric im Speichertakt und die einzelnen Dies greifen so mit möglichst wenig Verzögerung auf den eigenen (lokalen) und fremden (remote) Speicher zu.

Das lässt sich aber nun eben nicht beliebig skalieren. AMD greift mit 2x4 Dies Intels 2x1 Dies an. Hier liegt auch das Massengeschäft, darüber brauchen wir nicht zu diskutieren. Intel kann aber nicht nur 2x16 Kerne, Intel kann auch 8x28 Kerne!

Mit dem derzeitigen System kommt AMD da nicht weiter. Derzeit verbindet zum Beispiel eine IF Lane ein Die von einem Sockel mit einem Die auf einem anderen Sockel und diese läuft mit dem Speichertakt. Bei Intel verbinden 3 UPI Lanes mit 5,2 Ghz die jeweiligen Sockel miteinander. Das geht bei AMD deshalb nur bei einem 2 Sockel System auf. Bei 4 oder mehreren Sockeln müssten sie entweder ein Mesh zwischen den Sockeln aufbauen oder sie müssen die Dies aufbohren. Dann gibt es jedoch nicht nur 2x4 Kerne pro Die sondern 2x8 und das hat dann wieder so ihre Probleme.

Derzeit kann AMD günstig einen "Einheitsdie" produzieren und diesen mit maximalen Yield in allen CPUs platzieren. Ein Bedarf für 16 Kerne im Desktopmarkt wird aber noch über Jahre hinweg nicht entstehen, im Servermarkt hingegen schon. Es ist richtig und wichtig im Massenmarkt zunächst einmal Geld zu verdienen, aber ganz so einfach wie sich das manche hier so vorstellen wird sich das nicht auf die nahe Zukunft übertragen lassen.


Wieso muss man da die Bandbreite immer weiter aufbohren? Je weiter du dich vom Kern entfernst des do geringer wird die Kommunikation. Wie gesagt es muss gruppiert werden. Aber AMDs Ansatz ist sehr attraktive, denn es kommt dem weg zur Lösung von mathematischen Problemen sehr nahe.

Viele Rechengleichungen werden heute vorsortiert und in Grupppen zusammengepackt schon alleine weil der Rechenaufwand an sich kleiner ist. (weniger threads).

Leider habe ich mich schon lange nicht mehr mit dem Thema befasst.
 
@Krautmaster:

Ja, dass passiert wenn Intel eben sagt: "Datacenter first". Es wird das gemacht was sinnvoll für den Server-Markt ist, leider kann es auch teilweise dazu kommen das sie dazu den normalen Consumer nutzen zu ihren Testzwecken. Mesh ist momentan für den normalen Desktop absolut sinnlos, sogar teilweise schlechter als der übliche Ring-Bus. Seine Vorteile beginnen wohl erst bei einer noch höheren Kernanzahl. Da sind wir im Desktop-Bereich jedoch noch Jahre davon entfernt.
 
Klar aber wen trifft das? Die handvoll Leutz die jetzt im Consumer Bereich meinen 16 Kerne zu brauchen? Und die Nachteile sind ja auch überschaubar ^^
Keiner weiß wie rund zb Threadripper nachher bei Gaming ist, Percentile zB.

Ich denke Intel wird nicht umhin kommen auch die Consumer Plattform auszubauen. Coffeelake usw.. Möglich dass sie da für dann zb bis 8 Kernen iwann wieder Ringbus nutzen.

Zb 8 Kerne und nach wie vor Dual Channel Ram. Aber wohl neuer Sockel dann da man mehr PCI Lanes anbieten wird. Vielleicht.
 
Zuletzt bearbeitet:
ampre schrieb:
Wieso muss man da die Bandbreite immer weiter aufbohren? Je weiter du dich vom Kern entfernst des do geringer wird die Kommunikation

Wenn deine Grafikkarte/Netzwerkkarte/Storage an einer CPU hängt werden alle Daten auch darüber ausgetauscht und alle Sockel müssen die Daten zu derjenigen CPU schicken und sie abholen können. Das ist bei dem Mesh von Intel nicht anders, dort sind aber bis zu 72 Kerne auf einem Die vereint und die Geschwindigkeiten nicht an den Speichertakt gekoppelt.
Xeon-Phi-Knights-Landing-Architecture.png


AMDs Lösung ist einfach. Ich habe einen Kern mit 2 RAM Kanälen und x I/O Kanälen. Die Löte ich zusammen und nutzen einen Teil der I/O Kanäle für PCIe und einen Teil für die IF. Die IF läuft mit Speichertakt damit ich auf Speicher auf benachbarten Kernen zugreifen kann ohne Zwischenlogik. Toll , günstig, performant, aber eben nicht ohne weiteres nach oben skalierbar.
 
Zuletzt bearbeitet:
@ druckluft

Doch es gab und gibt Hinweise von AMD im Zuge der Epyc Präsentation und der Vorausschau auf 7nm.
Wenn ich das nicht falsch verstanden habe, wollen sie beim Epyc Nachfolger in 7nm einfach verdoppeln (Zusicherung an Kunden, dass der Epyc Sockel mit der 7nm Generation, 128 Kerne (2 x 64) aufnehmen kann), was für mich logisch für ein 8 Kern CCX spricht, dass sie wohl entwickeln werden für die Zukunft. Insoweit müssen sie dann auch die INF weiter aufbohren. Mehr als 4 Dies auf einem MCM halte ich auch nicht für machbar., wenn die Inf der Kommunikator ist.

Auch wird ein 8 Kern CCX wohl um einiges aufwendiger im Design und Kommunikation und die Frage steht im Raum wie sich AMD bei AVX 2, 512 positionieren wird, im Moment ist ja die offizielle AMD Linie, dass AVX mit GPUs besser bedient werden kann.
 
Zuletzt bearbeitet:
@xexex Es ist aber nun mal so das der Datenaustusch immer weiter abnimmt je complexer ein Problem ist. Viele reden immer von Bandbreite. Das ist ja für Video Decoden ok. Aber für die meisten Mathematischen Probleme brauchst du kaum Bandbreite. Eher einen großen Zwischenspeicher um genügend Daten zwischen zu speichern bis du sie brauchst. Aber Bandbreite brauchst du da meist kaum. Bis das Programm ein Problem abgearbeitet hat ist das Datenpaket schon längst nachgeladen.

Man kann das sehr gut an vorabbenchmark erkennen.
http://www.anandtech.com/show/11544/intel-skylake-ep-vs-amd-epyc-7000-cpu-battle-of-the-decade/21

Die Floating Point Berechnungen sind eine Katastrophe für Intel.
 
Zuletzt bearbeitet:
xexex schrieb:
Es ist richtig und wichtig im Massenmarkt zunächst einmal Geld zu verdienen, aber ganz so einfach wie sich das manche hier so vorstellen wird sich das nicht auf die nahe Zukunft übertragen lassen.
Die nahe Zukunft wird gewiss noch auf gegenwärtigen Entwicklungen aufbauen, wie dreidimensionale Strukturen auf der Fläche, flächiges Stapeln im Raum, beweglichere GaAs-Halbleiter usw., um die mathematisch erforderlichen/möglichen Verknüpfungen zu realisieren und Latenzen und Verlustleistungen insgesamt niedrig zu halten.
Aber die gar nicht mehr so fernere Zukunft im Rechenwesen kann ich mir eigentlich ganz gut vorstellen: sie wird sich vermutlich weder in der gestapelten Fläche, noch im von Neumann-Prinzip und schon gar nicht auf Silizium abspielen, sondern in der Struktur neuronaler Netzwerke in einer 3D-gedruckten, kubisch-vernetzten Nanoröhrchen-Technik - in sämtlichen Disziplinen existieren bereits praktisch angewendete Lösungen, sie müssten nur noch massenfertigungstauglich miteinander kombiniert werden.
 
Zuletzt bearbeitet:
Das sicher kein schlechter Einwand, als das Theoretikum dass die Abhängigkeit zwischen einzelnen Threads bei Komplexität und Parallelisierbarkeit der Aufgabe abnimmt.

Mag sein. Supercomputer sind ja auch mit 100000 Kernen noch in der Lage zu rechnen, ggf halt aber einfach viele Iterationen parallel.

Rendern ist zb so ein Idealfall, sehr granulare Tasks.
 
Zuletzt bearbeitet:
Zurück
Oben