Test Ryzen Threadripper 2000 im Test: 2990WX, 2970WX, 2950X und 2920X im Vergleich

Hier ein paar Anwendungsbenchmarks inkl. Windows vs Linux und 7980XE.
Die restlichen Benchmarks gehen ab 5:33 weiter, dann allerdings nur noch Windows, aber mit mehr CPUs.
 
Zuletzt bearbeitet von einem Moderator: (...)
Faust2011 schrieb:
Klasse Test, .....Wären da nur nicht die hohen Preise für die X399 Mainboards. :(

Ja aber die gibt es ab und zu günstiger bei MindStar oder Alternate ZackZack und im Outlet. 😉

Aber mir reicht ein x3600 später mal, völlig aus.
 
Nixdorf schrieb:
Einfach mal hier im Thread lesen hätte schon gereicht.

Keine Ahnung, aber bei einem einzigen Benchmark von "reichen" sprechen ist nicht ganz so meine Art. Aber ich merke schon, das Interesse da Zahlen zu finden, die den Spaß belegen (in welche Richtung auch immer), geht dir auffallend gegen Null ;)
Nix für ungut - wenn ich mir da mal paar "mehr" Zahlen zu ansehe, erkenne ich immer mehr ungereimtheiten, welche eben keine Pauschale zulassen:
https://www.phoronix.com/scan.php?page=article&item=2990wx-linwin-scale&num=4
-> Windows scheint hier bspw. auch mit SMT ein Problem zu haben. Alles so Sachen die gegen ne Pauschale sprechen.

ICH sehe übrigens in dem Vergleich Indigo zwischen Linux und Windows bei den genannten Werten erstmal keinen Unterschied bei nem 2950er, der ebenso ein NUMA Design ist. Und der allgemeine Tenor war vor dem halbkastrierten TRs ja auch, Linux kann besser mit dem NUMA Design...

Nixdorf schrieb:
Rendering! Das zeigen die Tests. In Blender liegt ein 2990WX klar vor einem EPYC 7601. Der Takt ist schon ab Werk höher, den EPYC kann man nicht einfach so gleich hoch takten. Und der kastrierte RAM-Zugriff hat offenbar einen hinreichend geringen Einfluss, sodass der Leistungsvorsrpung erhalten bleibt.

Rendering... Hast du jemals selbst mit solcher Software gearbeitet?
Der Einfluss vom Speicher in Blender Cycles ist idR extrem von der Szene abhängig. Keine Ahnung was du mit der Software selbst am Hut hast, aber ich kann dir sagen, dass es dort sehr deutliche Unterschiede gibt. Szenen mit viel Speicherbedarf haben meist auch einen recht hohen Bedarf an Bandbreite, was bei näherer Betrachtung auch völlig logisch erscheint. Folgerichtig hat ne Szene, die spielend in ein paar MB passt, aber auch effektiv wenig bis gar keine großen Anforderungen an die Speicherbandbreite und/oder Anbindung. Bestenfalls noch an die Latenzen.
Blender, respektive das Konstrukt Raytracing@CPU ist im allgemeinen auch sehr gut dafür geeignet, per NUMA zu skalieren, weil du völlig unabhängig die Tiles pro Node aufteilen kannst. Passt dann pro Tile der Datenbestand noch in die CPU Caches, limitiert auch absolut nichts mehr, was mit dem RAM zu tun hat. Dummerweise musst du das halt erstmal hinbekommen.
 
Zuletzt bearbeitet:
Ich bin immer noch fasziniert, was für ein Brett die Threadripper sind.

Ich meine, wäre ich Carsten Maschmeyer, hätte den Fiskus gerade um mehrere Millionen erleichtert und wüsste nicht wohin mit all dem schmutzigen Geld, ich würde mir wohl den Boden meiner Villa mit Threadrippers fliesen lassen.
Obwohl, Skylake X kostet pro m² um einiges mehr...
 
  • Gefällt mir
Reaktionen: Rock Lee, Lord B. und Shoran
Ich bin immer noch fasziniert, dass @fdsonne in jedem Review zu AMD CPU's (vor allem Threadripper und Epyc) immer wieder seine NUMA Diskussion starten muss. :confused_alt:
 
  • Gefällt mir
Reaktionen: Rock Lee, DarknessFalls und Nixdorf
Aldaric87 schrieb:
Ich bin immer noch fasziniert, dass @fdsonne in jedem Review zu AMD CPU's (vor allem Threadripper und Epyc) immer wieder seine NUMA Diskussion starten muss. :confused_alt:

Dann solltest du nochmal lesen - indem Fall war es nicht ich ;)
Mal davon ab, wo wenn nicht im Review zu einer NUMA based CPU will man das denn sonst diskutieren?
"Fazinierend" in dem Fall ist auch meiner Sicht eher, dass mit jedem neuen Review die Leute den Spaß immer weiter hinnehmen. Wenn ich mir hier ansehe, da wird sogar gesagt, dass die Plattform gereift ist und so Zeugs... Geändert hat sich exakt gar nichts außer dass AMD da nen Workarround für Windows nachgeschossen hat. Mir ist nicht eine einzige Software bekannt, wo man NUMA awareness reingepatcht hat bspw. Oder wo man generell irgendwo das Zwitter-Konstrukt von den WXen im Detail beachtet, also die Performance sich maßgeblich durch geänderte NUMA Skalierung verbessert hat.
 
"Insbesondere der bisherige 12-Kerner ist im aktuellen Verkauf extrem günstig zu bekommen und so die größte Gefahr für den Neuling mit gleicher Ausstattung. Denn bei 405 Euro in sofort lieferbarem Zustand wird es der Nachfolger für über 600 Euro zum Start schwer haben."

Yep, der 1920X reizt schon, nur leider reizen die Preise der TR4 Boards nicht sonderlich. ^^
 
ceVoIX schrieb:
Die Aktie ist noch im Abwärtstrend, ich würde sie die Tage weiter beobachten.

So wie leider fast alle Aktien bei den Halbleiterherstellern. nVidia fällt auch immer weiter, da könnte sich für einige bald der Einstieg lohnen.
 
fdsonne schrieb:

Was ist denn jetzt (neben deinem “TR-sind NUMA-kastriert”-Mitteilungsbedürfnis) genau dein Punkt?

Je nach Szenario, schlägt entweder hoher Takt die Kernanzahl oder hohe Kernanzahl schlägt maximalen Takt. Wobei separate DIE Anbindung an den Speicher generell besser wäre, sich jedoch je nach Szenario unterschiedlich stark niederschlägt?

Bei Gott! Da wäre ich vorher nicht drauf gekommen.
 
Sun_set_1 schrieb:
Je nach Szenario, schlägt entweder hoher Takt die Kernanzahl oder hohe Kernanzahl schlägt maximalen Takt. Wobei separate DIE Anbindung an den Speicher generell besser wäre, sich jedoch je nach Szenario unterschiedlich stark niederschlägt?

Die Frage war ob man die hier gestellte Behauptung, Linux würde generell besser mit dem halb kastrierten NUMA Design der WX CPUs umgehen mit Zahlen belegen kann.
-> die Zahlen des einen einzigen Benches, die aufgezeigt wurden bescheinigen generell nur bedingt diese Aussage, weil eben viele Faktoren in diesem genannten Benchmark für Umgereimtheiten sorgen.
-> Des weiteren wurden Zahlen aufgezeigt, die generell erstmal eine recht deutliche Mehrleistung in den Benches pro Linux aufzeigen - undabhängig vom CPU Design.
 
@fdsonne

Naja, da u.a. Phoronix/Blender aber mit der immer gleichen Szene und Rechnung den Parcours durchläuft, zählt dein Argument der unterschiedlichen Rechenlast/Szenen so erstmal nicht.

Aber ja, es gibt zig Ursachen (Compiler, Treiberversionen, verwendete API’s etc) die hier eine Rolle spielen können. Und für eine generelle Ableitung, braucht es immer mehr als einen Beleg oder Quelle. Das gilt für die Wissenschaft ebenso wie für die IT. Da bin ich bei Dir.

Der Verdacht, dass der Linux-Kernel generell besser mit Mehrkern skaliert, steht aber wiederum auch schon länger im Raum. Voreilig abqualifizieren sollte man daher auch nicht.
 
@Aldaric87 Ich finde die beiden Grafiken aus dem Post von @chithanh halt sehr aufschlussreich.

In dem Test, der mit gleicher Software und gleicher Testszene auf Windows und Linux durchgeführt wird, sieht man sehr gut, wo es hakt:
  • Die "einfachen" CPUs funktionieren auf Linux und Windows ähnlich gut. Die Werte für den 2700X sind zum Beispiel quasi identisch, und die für den 9900K sind auf Linux gerade mal 5% besser. Das zeigt, dass hier Linux nicht per se so viel besser ist.
  • Je komplexer die CPU wird, desto mehr enteilt Linux. Beim 7980XE sind es +6,6%, beim 7960X sogar +12%. Hier dürte die Latenzmatrix von Vorteil sein, die der Linux-Scheduler anscheinend auswertet und der Windows-Scheduler nicht. Und nein, ich hab jetzt die Quelle zu so einer Matrix nicht mal eben im Kopf, sowas hab ich vor einer Woche irgendwo in einem Ubuntu-Terminal-Screenshot gesehen.
  • Bei den Threadrippern teilt sich dann die Spreu vom Weizen. Bei den X-Varianten, wo jeder Node lokalen Speicher hat, liegt Linux +5% vorne. Bei denen , wo es welche ohne lokalen Speicher gibt, sind es aber +45% und +53%!
Das Problem ist nicht das NUMA-Design an sich, sondern wie heterogen es ist. Je gleichmäßiger die Leistung vorhanden ist, desto dämlicher darf der Scheduler sein. Mit den sehr unterschiedlichen Nodes von Threadripper bzw. der Asymmetrie im Design kommt Windows halt nicht klar, und DLM kann das nur teilweise korrigieren.
 
  • Gefällt mir
Reaktionen: Sun_set_1, chithanh, Taxxor und 2 andere
fdsonne schrieb:
Wo siehst du das?
Auch unter Linux ist non NUMA aware Software klar im Nachteil. Faktisch gibts aber oftmals bisschen besseren Support, vor allem weil einige der Tools/Benches, die es dort für Linux gibt, eben frei sind und du als Endanwender munter den Spaß so kompilieren oder optimieren kannst, wie du es brauchst.
Anders kompilieren bringt im vorliegenden Fall eher nichts.

Es gibt vier Arten von Konstellationen, bei dem der 2990WX/2970WX im Nachteil ist:
  1. Betriebssystem skaliert nicht gut, z.B. 7-zip oder Indigo unter Windows
  2. Softwareimplementierung skaliert nicht gut, z.B. Euler CFD oder SPECwpc CFD, aaaaber mit Rodinia CFD skaliert es dann doch
  3. Problem skaliert nicht gut wegen NUMA allgemein (z.B. Spiele, Datenbanken)
  4. Problem skaliert nicht gut wegen der zwei Kerne ohne direkte Speicheranbindung (dafür hat bislang keine der großen Reviewseiten ein Beispiel gebracht, in entsprechenden Foren wurden aber solche gepostet).
fdsonne schrieb:
Und genau dafür wären doch mal ein paar Zahlen nice??
Ich mein, alle behaupten dass das mit Linux so viel besser funktioniert. Sehen tue ich davon nur wenig...
Der 2990WX und 2970WX stehen gegenüber Intel Skylake-X viel besser unter Linux da. Manches hängt mit NUMA zusammen, anderes sind einfach Probleme die Windows mit vielen Kernen hat. Und mit Threadripper sind nunmal viele Kerne plötzlich bezahlbar geworden und daher werden sie auf neue Probleme angewandt.

Das Beispiel Indigo hatte ich schon in meinem vorherigen Post genannt.
7-zip wurde beim 2990WX-Launch auch bereits ausgiebig diskutiert.
Hardware Unboxed haben noch weitere Beispiele gefunden (GraphicsMagick, Stockfish, John the Ripper).

fdsonne schrieb:
ICH sehe übrigens in dem Vergleich Indigo zwischen Linux und Windows bei den genannten Werten erstmal keinen Unterschied bei nem 2950er, der ebenso ein NUMA Design ist. Und der allgemeine Tenor war vor dem halbkastrierten TRs ja auch, Linux kann besser mit dem NUMA Design...
NUMA ist nicht gleich NUMA.

Wenn der Windows-Scheduler mit den zwei identischen NUMA-Nodes des 1950X/1920X inzwischen einigermaßen klar kommt - was zum Launch nicht der Fall war, er musste erst nachträglich angepasst werden - heißt das noch lange nicht, dass er mit den vier NUMA-Nodes des 2990WX/2970WX, von denen es auch noch zwei unterschiedliche Typen gibt, klar kommt. Die Anforderungen die der 2990WX an den Scheduler stellt sind viel härter, und die Vergangenheit hat gelehrt, dass Microsoft Skalierungsprobleme häufig nur reaktiv anstatt wie die Linux-Community proaktiv angeht. In diesem Zusammenhang verweise ich gerne auf die Erfahrungen der Chromium-Entwickler bei Google, die nach Upgrade auf 24-Kern-Xeon-Workstations auf seltsame Probleme gestoßen sind:

https://randomascii.wordpress.com/2017/07/09/24-core-cpu-and-i-cant-move-my-mouse/
https://randomascii.wordpress.com/2018/02/11/zombie-processes-are-eating-your-memory/
https://randomascii.wordpress.com/2018/02/25/compiler-bug-linker-bug-windows-kernel-bug/

Eine vergleichbare Situation erleben wir jetzt beim 2990WX/2970WX. Jetzt heißt es erstmal warten, bis Microsoft tätig wird.
 
  • Gefällt mir
Reaktionen: HardRockDude
Ich bin nach wie vor unglaublich beeindruckt was AMD - ja AMD da auf die Beine gestellt hat.

Ähnliches hätte man eigentlich von Intel erwarten müssen.
Für uns alle bringt Threadripper massiv günstigere Preise und mittelfristig auch mehr Cores bis in den Mainstream.
Mir wäre die Plattform tatsächlich schon zu Overpowered, für so viele Cores habe ich keinen Verwendungszweck mehr, Server, etc... möchte ich gerne getrennt von meinem System haben und mit dem Gaming Mode läuft man ja quasi nur auf Ryzen 7 Niveau, zudem unterstützen Games noch nicht mehr Cores.
Dennoch extrem beeindruckend alleine schon CPU-Z zu sehen und die Daten, vor einigen Jahren wäre das reines Wunschdenken gewesen, erst Recht zu solchen Preisen.
Bräuchte ich jetzt eine Workstation, würde ich definitiv Threadripper kaufen.
 
  • Gefällt mir
Reaktionen: SVΞN
@Sun_set_1
Hä? Was hab ich denn versucht die ganze Zeit zu sagen? Genau um diese nicht sonderlich brauchbaren Pauschalen ging es doch.
Ob Linux mit Mehrkern besser skaliert oder nicht, ist doch ein völlig anderes Thema. Der Bench, der verlinkt wurde oben (Indigo) bescheinigt zwischen Linux und Windows in exakt der selben Szene bei einem 2950er quasi gleiche Leistung. Ergo kann es nicht daran liegen. Forscht man bisschen weiter fällt bspw. auf, dass allein das abschalten von SMT bei nem 2990er deutlich Performance bringt unter Windows, während Linux klar Performance verliert.

MMn sind genau solche Benches eben das Problem - irgendwer bringt irgendwo Zahlen. Und die Leute geben unreflektiert einfach nur irgendwas weiter, weil es gerade passend scheint.
Ist das zielführend? Und wenn man dann nachfragt, wird man pissig...


Und was Blender angeht - da solltest du nochmal den Zusammenhang lesen. Ich sagte, dass unterschiedliche Szenen unterschiedliche Bandbreitenanforderungen haben. Denk einen Schritt weiter - wer liefert hier die Infos ob die Szene Bandbreitenlastig ist/war?? Stattdessen wird die Szene pauschal als Maßstab genommen.
Laut Anzeige braucht die BMW27 Szene ~140MB bei den ersten paar Tiles. Ich habe schon Szenen mit Blender gerendet, da waren 100GB+ Verbrauch auf der Uhr. Ich denke es dürfte klar sein, dass der Bedarf an Bandbreite allein um die Datenmenge durch zu schubsen schon weit höher liegen sollte...

Nixdorf schrieb:
Das Problem ist nicht das NUMA-Design an sich, sondern wie heterogen es ist. Je gleichmäßiger die Leistung vorhanden ist, desto dämlicher darf der Scheduler sein. Mit den sehr unterschiedlichen Nodes von Threadripper bzw. der Asymmetrie im Design kommt Windows halt nicht klar, und DLM kann das nur teilweise korrigieren.

Das ist allerdings aus programmiertechnischer Sicht die falsche Sichtweise.
Das NUMA Design besagt normalerweise, dass dem Node eigener Speicher bereit stellt. Das ist bei den WXen nicht der Fall.
Was das am Ende bedeutet, lässt sich über Pauschalen nicht fest machen, weil es so ein Konstrukt (meines Wissens) vorher überhaupt nicht gab.
Sowie ich das sehe versucht der Threadscheduler im Linux primär die Last auf die DIEs 0 und 2 zu fokusieren. Solange, bis es nicht mehr geht, weil man entweder Speicher oder Threads über die Node Grenzen hinweg anfragt.
Windows kann das von Haus aus nicht - deswegen der Workarround von AMD dazu. Windows schubst dazu alle Nase lang die Threads von Core zu Core. Hält die Last primär aber auf einem NUMA Node, wenn man die Grenzen einhält.

Deswegen auch die Frage nach den Zahlen.

PS: dass Linux und Windows bei "einfachen" CPUs effektiv gleich performen ist doch aber überhaupt nicht wahr?
https://www.phoronix.com/scan.php?page=article&item=ryzen-2700x-winlin&num=1
Ich sehe da ne Menge Unterschied, teils 5-10%, wenns nicht so viel ist. Teils aber auch drastisch mehr. Selbst zwischen verschiedenen Linux Distributionen/Versionen liegen teilweise messbare Unterschiede.
 
@ smart-
Die Nutzer hätten schon früh auf LGA1366 und AM3 setzen können. Beim Ersten hat intel mit 6 Kernen und 12 Threads mit den intel i7 XE genug Rechenleistung für eine Workstation geboten. AMD startete selbst früh mit seinen X6 Kernern, nur hätte man hier auch später ein triple Channel oder deutlich schnelleren Dual Channel Ram Controller anbieten müssen.

Besonders LGA1366 war vom Preis zur Leistung extrem attraktiv. Mit LGA2066 kam ja das innovative Stocken, weil AMD ja nicht mal mit seinem 8 Kerner Bulldozer selbst auf Opteron Basis dem K10 mit 6 Kernen was besseres entgegen stellen konnte. 2014 hätte die Workstation längst echte 12 Kerner mit SMT bekommen können, weil sogar intel ja den weit fortschrittlicheren Fertigungsprozess besaß, wenn die breite Nutzergemeinde 2010 auch den AMD Phenom II X6 angenommen hätten. Da hätte AMD auch nachgezogen oder bei einem Marktanteil von 30% mit dem Phenom II das nötige Kapital bessere Lösungen anzubieten.


Derzeit verkauft manch Händler sogar i7 920 mit X58 Mainboards. Ein Freund hat sich so ein System letztens gekauft. Während er Dank SSE4.1 sogar Facry 5 spielen könnte, schaue ich mit AMD SSE4a tief in die schwarze Röhre. Das System ist selbst für ihn als Internetsurfer mit sehr, sehr leichten Multitasking völliger Overkill und hätten Spieleentwickler auf der X58 Plattform Spiele entwickelt, sogar Chris Roberts sein Star Citizen, hätte AMD nie den Auftrag für seine Konsolen APU an Land ziehen können, die dem i7 Bloomfield unterlegen ist.

 
Zuletzt bearbeitet:
Zurück
Oben