News CPU-Gerüchte: AMDs Genoa für Server mit 96 Zen-4-Kernen

Kampfkeks94 schrieb:
@[wege]mini @textract Ich habe eine Frage. Warum ist SMT4/SMT8 denn überhaupt erstrebenswert? Die Leistung einer CPU wird dadurch ja nicht wirklich erhöht, oder? Es wäre super, wenn ich mich dahingehend aufklären könntet :)
Verkürzt gesagt überall da wo du schrottigen Code (aus CPUSicht) hast. Also Datenbanken, Webserver oder irgendwelchen BuisnessCode.

Da wartet die CPU nämlich gerne mal mehr als sie rechnet oder ist mitContext switchen bzw sichern von Registern beschäftigt und nicht dem ausführen von Programmcode...
bensen schrieb:
Dann haben wir andere Quellen. Die Speichercontroller machen ja schon fast die Hälfte aus. Der Rest ist dann PCIe und Strom für die restliche CPU.
Grob überschlagen sind das 20%.
https://en.wikichip.org/w/images/thumb/9/93/Socket_SP3_pinmap.svg/2976px-Socket_SP3_pinmap.svg.png
Lass uns ma überlegen.

128PCIe Lanes sind 256 Pins
8Channel DDR4 sind 122x8=976 Pins
Zusammen also 1232 pins

Und das ist das Gro der Signalpins. Die Hand voll locker, usb/sata kann man fast unter den Tisch fallen lassen.
 
mibbio schrieb:
So sieht es aus, wenn man Crysis komplett von einem Threadripper 3990X rendern lässt statt von der Grafikkarte:
Wäre interessant mal zu wissen 1core CPU vs 1 Core GPU
 
Teralios schrieb:
Aber all das ist nicht der Grund warum sich ARM nicht durchsetzten kann. Der Grund, warum sich ARM nicht durchsetzte kann ist relativ einfach: Egal wie gut die Hardware auch sein mag, stimmt die Infrastruktur nicht, gewinnt man keine Entwickler! Da ARM primär nur die ISA liefert sowie die Cores und dami Geld verdienen, sind die Hersteller gefragt entsprechende Ressource aufzuwenden, machen sie aber nicht.

Oder anders gesagt, bis auf die Pi-Baureihe ist doch sowieso keine Implementierung zur anderen kompatibel. Weder beim Boot-Verhalten noch beim IO-Verhalten.

Teralios schrieb:
Der M1 kann nun mit halte, weil man beim M1 das SI massiv aufgebohrt hat und gleichzeitig auch die Caches und damit die ALUs und AGUs gut füttern kann.

Oder anders gesagt, die Transistoren die man bei x86 in zusätzliche Kerne stecken kann wandern bei ARM in zusätzliche Caches, Ansteuerungselektronik fürs RAM uswusf..

Teralios schrieb:
Entschuldige, das was du hier schreibst ist einfach nur unfundiert und auch falsch. Bus-Breite kommt immer darauf an, von welchem wir sprechen. Caches? Ist eine organistatorische Frage und wie man diese in der CPU implementiert. SI-Breite? Kann man auch, passend skalieren.

Hier ein Beispiel:
Ein Register bei x86 zu erhöhen braucht im Besten Fall einen 8Bit grossen Opcode.
Ein Register bei ARM zu erhöhen braucht im schlimmsten Fall 96Bit.
D.h. 12facher Bedarf an Bandbreite und Caches. Und ja, das sind Extremfälle. Und nein, das sinkt nie unter 50% Overhead.
Das Arbeiten mit Operatorgrössen abseits 32 und 64 Bit braucht mitunter drei zusätzliche Befehle weswegen man sehr oft für int8 und int16 gleich int32 verwendet.
D.h. Overhead von 50-100%.

Teralios schrieb:
Die Word-Breite läuft bei beiden mit 64 Bit, als auch da ist kein Problem. Ansonste? SSE hat 128Bit, Neon hat 128 Bit. ARM bietet eine Scalable Vector Extension an, die bis 2048-Bit breite SIMDs skaliere kann, x86 hat 512Bit und mit AMX wird noch etwas kommen.

Falsche Baustelle.
 
SoDaTierchen schrieb:
Ich würde mich freuen, wenn du diese Behauptung auch noch mit Fakten untermauern könntest. Mal davon ab habe ich weder behauptet, dass die meisten WebServer nicht auf x86 laufen, noch steht deine Aussage in irgendeinem Konflikt zu meiner, da es mir nur um die inhaltliche Veranschaulichung ging.
Webserver sind nun wirklich nichts exotisches, und x86 ist einfach mit sehr großem Abstand die meistgenutzte Architektur. Ist zwar nicht repräsentativ, aber fast alles was auf AWS, Google Cloud oder Azure läuft ist x86 (und ein bißchen ARM). Wir sind hier ja bei Epyc, also nicht bei Desktopanwendungen, und unter den Serveranwendungen sind Webserver eine ganz typische Sache.

Weshalb ich kommentiert habe war vor allem die Aussage "Im klassischen x86-Umfeld macht mehr als SMT2 nur sehr wenig Sinn, da hier selten Workloads verwendet werden, die davon profitieren können.", da ich Webserver absolut nicht als seltene Workload im x86 Feld sehen würde (wenn wir hier von Servern reden). Wenn SMT >2 deutliche Vorteil bei Webservern und ähnlichen Anwendungen hat, würde ich erwarten das es auch bei x86 im Serverbereich einzieht.

Intuitiv hätte ich vermutet das SMT hier nicht so wahnsinnig viel bringt da man sehr viel auf IO wartet, also Festplatte, Datenbank oder Netzwerk. Das ist so viel langsamer als die CPU das es da eigentlich nicht so viel bringen sollte wenn der Thread aktiv wartet mit SMT oder einfach ganz normal geschedult wird vom OS wenn die Festplatte mal die Daten rangeschafft hat. Würde mich interessieren wenn es Benchmarks dazu gibt.
 
  • Gefällt mir
Reaktionen: Crass Spektakel
Die CPU ist zwar für Server gedacht aber man sieht wo die Reise hingeht, immer mehr CPU-Kerne.

Wenn ich dann sehe das viele Anwendungen immer noch auf ein Kern rumeiern und oder diese vielen Kerne kaum ausgenutzt werden, fragt man sich doch was die "Softwarabteilung" macht, scheinen wohl noch im Tiefschlaf zu sein......
 
@PiraniaXL naja kommt immer drauf an. Es hat sich schon sehr viel getan.

Wo ich persönlich noch richtig Potential sehe ist encoding, Videorendering und Bildbearbeitung (Abseits vom stacking)

Was Modellierungen oder Editing bei Videos angeht wird je nach Effekt schon meine komplette CPU (und GPU) genutzt. Beim Imagestacking zum Beispiel auch. Solche Anwendungen könnten auch 256 Threads auslasten und mehr wenn implementiert.

Aber ich brauch zum Beispiel selbst in UHD mindestens 3 (ich nehme meist 4) gleichzeitig umwandelnde Aufnahmen um die 64 Threads auszulasten. Da muss eigentlich noch mehr gehen.

Abseits dieser Diskussion sehe ich aber schon meine nächste Plattform nach Zen2 Threadripper vor mir. Vielleicht auch erst bei Zen5.

Aber ich kann's gebrauchen und der ganze RAM wird auch gut tun.

Dafür gibt's dann Threadripper.

Was mich bei genoa noch interessieren würde wäre die maximale RAM Menge pro Sockel.

Jetzt wo 24 DIMMs Pro CPU gehen müssten das bei theoretisch vierfacher Kapazität welche DDR5 im Vergleich zu DDR4 bietet ja 24 Mal 1TB = 24TB sein. Da DDR4 bei 256 GB Riegeln endet.

Dann 48TB im Dualsockel :evillol:

Aber selbst wenn's nur 24 TB wären mit 512er Modulen.. da werden sich viele Anwender drüber freuen
 
  • Gefällt mir
Reaktionen: PiraniaXL
PCIe 5.0 :o
 
Crass Spektakel schrieb:
Hier ein Beispiel:
Ein Register bei x86 zu erhöhen braucht im Besten Fall einen 8Bit grossen Opcode.
Ein Register bei ARM zu erhöhen braucht im schlimmsten Fall 96Bit.
Best Case gegen Worst-Case und weiterhin sehr viel Halbwissen und Nichtwissen in deinem Beitrag.
Egal, ich tu mir selbst den Gefallen und lass es stehen. Hab ich mehr von.
 
@Dalek

Und wenn es all diese limitierungen nicht gibt wie Ram wird nur sehr wenig genutzt und man profitiert nicht so viel bzw garnicht zwischen dual und quad oder 8 Channel,was denn dann und wie bei mir sogar nicht so viel zwischen den niedrigsten ram Takt und den 3600 mhz.Da limitiert also dann was anderes.Wenn Festplatte ebenso fast nicht genutzt wird sondern nur mickige paar Prozent an auslastung herscht und sogar direkt vom Netzlaufwerk aus umgewandelt wird oder halt was anderes. Wenn es also weder RAm noch Festplatte limiertien.Dann limitiert ja was anderes.Denn es wird immer etwas limieren,wenn dann halt bei der CPU,denn Mainbaord kann nichts limieren oder gar bremsen. Was ist denn dann?
Ergänzung ()

@PS828

Ich habe ne interessante Test wo so halt kaum einer Macht.
Was wohl schneller ist Threadripper 3970x mit SMT 4x gleichzeichzeitig gegen Ryzen 9 5950x + Ryzen 9 3950x mit jemals 2 gleichzeitig.Bin gespannt wer davon gewinnen wird und wo es am ende die meisten Leistung Pro Watt dabei rauskommen bzw gibt

Oder Threaripper 3970x ohne SMT mit nur 2 gleichzeitig vs Ryzen 9 5950x & 3950x mit jemals 1 gleichzeitig.

Der Threadripper 3970x braucht 280 Watt mit und 250 Watt ohne SMT.
Mein Ryzen 9 5950x braucht 128 Watt und der 3950x brauchte 142 Watt,bei jemals z.b. 1:30 beim 5950x und 3950x 1:40 bei 2 gleichzeitig. Gehe mal davon aus das sie einzeln wohl viel schneller sein werden.
Der Threaripper 3970x brauchte mit SMT 1:30 und ohne SMT 1:20 (ich selbst habe solch eine CPU jedoch noch nie besessen)
Am ende werden wohl bei Leistung Pro Watt wohl die beiden einzelnen die man ja auch beide noch zum zocken verwenden kann auch am ende die meisten Leistung Pro Watt ereichen.
Denn zusammengezählt sind das 210 Watt bei beiden vs 250 für den Threadripper 3970 also pro Stunde.


Und bei dem Preis kriegt man im Vergeich zum 3970 eben zwei CPUS und Mainbard und der rest beim Threadripper braucht auch automatisch mehr strom dank QUadchannel usw. Also von daher,gehen dann auch zwei PCs.
Sowas hat wohl noch keiner in dem Sinne getestet gehabt.Und freilich wird dann auch weil ja 3970x ohne smt ,müssen die auch beim 3950x und 5950x ebenso ohne SMT getestet werden. Das ganze dann als 4 ghz,damit es auch wirklich 1 zu 1 fair bleiben kann.

Ich tendiere ja eher zu 1 auf dem und 1 zu dem anderen Pc und beim 3970x 2 gleichzeitig.Ich selbst schaffe es wegen dem zu hohen Aufwand nicht 4 gleichzeitig laufen zu lassen.Der Aufwand übersteigt leider den Nutzen bei mir sehr stark.Ich hatte es mal ausprobiert gehabt,aber 4x Xmedia Recode gleichzeitig zu starten ist mir dann doch zu viel gewesen.Und ein anderes Programm hat bei so vielen irgendwie dann gleichzeitig nen fehler bei der Umwandlung gemacht. Damit sind 4 gleichzeitig leider nicht das was ich jemals erreichen könnte.Wird dennoch ein interessantes Duell werden.Was wohl am ende wirklich gewinnen wird oder ob es sogar ein Unentschieden sein wird,das ist die andere Frage.
 
Zuletzt bearbeitet:
bensen schrieb:
Hä? Deine Aussage war, dass du 6000 Kontakte für unrealistisch hälst bei 96 Kerne.
Versuch doch bitte, den gesamten Kontext zu berücksichtigen. Ich habe ziemlich ausführlich geschrieben, dass bei einer Erhöhung der Pins und der Fläche deutlich mehr als 96 Kerne möglich wären, sodass ich es für unrealistisch halte, dass 96 Kerne der Maximalausbau bei 6096 Pins sein wird.

Bei 50% mehr Fläche wären selbst in 7 nm bereits 96 (Zen 3) Kerne möglich. Zen 4 wird pro Kern sicherlich etwas komplexer, aber selbst dafür sollte dann noch genug Platz sein, da TR ja jetzt schon noch deutlich mehr Platz bietet. In 5 nm ist aber nochmal deutlich (84%) mehr möglich, was man mit Sicherheit auch ausschöpfen wird. Daher bin ich der Meinung, dass man bei 6000+ Pins auch Modelle mit mehr als 96 Kernen planen wird. Natürlich wird es dann auch Modelle mit 96 Kernen geben, aber bei einer solchen Flächenerhöhung wage ich zu bezweifeln, dass das dann die größten Modelle sein werden.

Das, was du sagst, ist kein Widerspruch zu dem, was ich geschrieben habe. Wir reden einfach nur aneinander vorbei.
 
  • Gefällt mir
Reaktionen: Colindo
Wenn im Server Berreich schon 12 Channel Ram Systeme kommen, wäre es geil wenn bei den Consumer mal Quadchannel ankommt.
 
  • Gefällt mir
Reaktionen: proserpinus
cruse schrieb:
intel wird es(pcie4) vermutlich komplett überspringen.
damit gibt es vermutlich nicht ein consumer board für intel-sockel mit der neusten technik(bzw mit pcie4) - das gab es noch nie und zeigt auch wie weit intel eigentlich hinterher hinkt.
Aus dem Zusammenhang schlussfolgere ich, dass Du dich nicht auf die Serversparte beziehst.
Mit Tiger Lake bietet Intel PCI-E 4.0 doch bereits an. Mit Rocket Lake dann wohl noch im Verlauf des Monats auch im Desktop. :confused_alt:

SaschaHa schrieb:
Bei 50% mehr Fläche wären selbst in 7 nm bereits 96 (Zen 3) Kerne möglich. Zen 4 wird pro Kern sicherlich etwas komplexer, aber selbst dafür sollte dann noch genug Platz sein, da TR ja jetzt schon noch deutlich mehr Platz bietet. In 5 nm ist aber nochmal deutlich (84%) mehr möglich, was man mit Sicherheit auch ausschöpfen wird. Daher bin ich der Meinung, dass man bei 6000+ Pins auch Modelle mit mehr als 96 Kernen planen wird. Natürlich wird es dann auch Modelle mit 96 Kernen geben, aber bei einer solchen Flächenerhöhung wage ich zu bezweifeln, dass das dann die größten Modelle sein werden.
Nur was hat Fläche mit der Anzahl der Pins zutun? Imo. nicht so viel, wie man es als O-Ton bei dir raus lesen könnte.

textract schrieb:
Auch DB2 läuft signifikant schneller unter SMT8 vs SMT4.
Wie groß der Unterschied zu SMT2 ist, wurde da leider nicht getestet.
Generell sollte man bei dieser Debatte aber auch beachten, dass SMT nicht gleich SMT ist.
Im Prinzip sagt es erstmal nur aus, dass Teile des Rechenwerks redundant ausgelegt sind.
Welche Teile das sind und wie hoch der Grad der Redundanz aussieht, steht auf einem ganz anderen Blatt.

Soweit ich weiß, Sprach Intel früher mal davon, dass für HTT nur ca. 5% mehr Bauteile eingebaut werden.
Ob das noch aktuell ist und was andere Hersteller so machen, entzieht sich meiner Kenntnis.
Aber das kann man noch sehr viel weiter treiben.
 
SaschaHa schrieb:
Das, was du sagst, ist kein Widerspruch zu dem, was ich geschrieben habe. Wir reden einfach nur aneinander vorbei.
Das Problem ist das du von Kontakten redest obwohl die gar nichts damit zu tun haben. Der Pin Pitch muss ja gar nicht der gleiche sein.
Rede doch einfach von Fläche wenn du Fläche meinst.
Der Sockel wird zu Lebzeiten gut und gerne mehr als 96 Kerne haben. Aber für die nächste Generation bezweifle ich das stark. 1.84x Density ist für Logik. SRAM skaliert wesentlich schlechter. Da die Kerne bei Zen4 sicherlich fetter werden, ist für die 96 Kerne wahrscheinlich schon mehr Siliziumeinsatz nötig als für Rome heute.
 
Taxxor schrieb:
Die Bits aus denen der Twitter Post besteht, sind ebenfalls Daten...
Und wenn man keine ArguYoko und Argumente hat, begibt man sich auf Yoko und Claas Niveau.
 
Vitec schrieb:
Wenn im Server Berreich schon 12 Channel Ram Systeme kommen, wäre es geil wenn bei den Consumer mal Quadchannel ankommt.

Halte ich fuer unwahrscheinlich. Die meisten Consumer haben wenig davon und wuerden dafuer nicht extra zahlen wollen. Und wer's braucht, fuer den gibt's HEDT.
 
  • Gefällt mir
Reaktionen: PS828
Pjack schrieb:
Nur was hat Fläche mit der Anzahl der Pins zutun? Imo. nicht so viel, wie man es als O-Ton bei dir raus lesen könnte.
Weil die Pin-Dichte kaum noch erhöht werden kann?

Es lassen sich mechanisch nun mal nicht beliebig kleine Pins bauen, somit bedeuten 50% mehr Pins auch etwa 50% mehr Fläche. Wenn man es schafft, diese Pins weiter zu verkleinern und etwaige Zwischenräume zu reduzieren, wäre das ja top. Aber 50% mehr Pins wird man sicherlich nicht ohne Flächenerhöhung hinbekommen. In der "News" ist ja auch von mehr Fläche die Rede, daher verstehe ich diese Erbsenzählerei nicht.

Zitat:
Da die Anzahl der Kontakte um 50 Prozent steigt und damit auch das Package deutlich wachsen muss, ist der Platz dafür vorhanden; es könnte einfach an jeder Ecke einer zusätzlicher CPU-Die angebaut werden.

Somit ja, es gibt einen Kausal-Zusammenhang zwischen Anzahl der Pins und der Fläche ;)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Pjack
mae schrieb:
Die meisten Consumer haben wenig davon
Also gerade im Bereich APU wäre das gar nicht so schlecht. Mit Quadchannel DDR5 könnte man evtl. sogar bis zu einer RX5500XT/GTX1650 Super skalieren.
Und 4 RAM-Slots haben die meisten Boards ohnehin. Aber das Routing auf dem PCB wird komplexer, das bedeutet mehr Layer und teurere Boards.
 
Forum-Fraggle schrieb:
Und wenn man keine ArguYoko und Argumente hat, begibt man sich auf Yoko und Claas Niveau.
Abgesehen davon, dass es es immer noch nur um die Grammatik ging, dass unbelebte Dinge nichts "zeigen" können, egal ob es nun Daten, Kalender oder Uhren sind, ist es auch nicht mein Problem,wenn du nur eine von dutzenden Definitionen des Wortes "Daten" annimmst.
 
SaschaHa schrieb:
Somit ja, es gibt einen Kausal-Zusammenhang zwischen Anzahl der Pins und der Fläche
Ah alles klar.
Ist natürlich richtig. Zumal zumindest bei der Stromversorgung kleinere Pins auch einfach nichts bringen.
Ich dachte Du meinst, dass die Pins nur aufgrund der Fläche erhöht werden, und nicht wegen zusätzlichen Signalwegen (zB. 50% mehr Speicherkanäle) und erhöhtem Strombedarf.
 
  • Gefällt mir
Reaktionen: SaschaHa
Zurück
Oben