News CPU-Gerüchte: AMDs Genoa für Server mit 96 Zen-4-Kernen

Crass Spektakel · 2. März 2021

Dalek schrieb:
Intuitiv hätte ich vermutet das SMT hier nicht so wahnsinnig viel bringt da man sehr viel auf IO wartet, also Festplatte, Datenbank oder Netzwerk. Das ist so viel langsamer als die CPU das es da eigentlich nicht so viel bringen sollte wenn der Thread aktiv wartet mit SMT oder einfach ganz normal geschedult wird vom OS wenn die Festplatte mal die Daten rangeschafft hat. Würde mich interessieren wenn es Benchmarks dazu gibt.

Die Vorteile sind in der Tat eher gering. Bei POWER8 oder 9 machte der Unterschied zwischen SMT2 und SMT8 nie über 5% aus, manchmal bremste es sogar durch Cache-Thrashing. Und das bei Datenbankanwendungen die geradezu auf solche Szenarien zugeschnitten sind.

Im Gegenzug stieg der Stromverbrauch und Temperatur beachtlich an und die Single-Core-Leistung fiel auf Pentium3-Niveau. Kein Scherz. Und das ist dann sogar für Backend-Anwendungen oft zu wenig.

Kein Wunder, wer alle Funktionseinheiten hoch auslastet lastet alle Funktionseinheiten hoch aus.

[wege]mini · 2. März 2021

Beitrag schrieb:
erfahrungsgemäß kommen die hohen Taktraten erst einige Zeit nach Markteinführung.

DDR5 ist halt wirklich geil.

Durch die Verdoppelung des Prefetch hat man bei gleichem Takt in der Theorie (muss die Software unterstützen und nutzen) doppelt so hohen Durchsatz.

Von DDR3 zu DDR4 gab es das halt nicht und dadurch konnte hier nur über Takt und Clockrate - CL aka Timings - "Geschwindigkeit" gewonnen werden.

mfg

p.s.

Die "Pipeline" im RAM wird halt damit auch wieder länger und wenn die Software nicht schon mehrere Taktzyklen im Voraus "weis", was demnächst gebraucht wird, bringt das alles auch nicht wirklich viel.

Sprungvorhersage und ähnliche Dinge sind dann natürlich eine Wissenschaft für sich.

Wenn man jedoch immer nur 1+1 rechnet, hängt weiterhin alles am Realtakt.

latiose88 · 2. März 2021

@[wege]mini

Und wie sieht es dann aus wenn CPU Takt nur minimal also fast garnichts an mehrleistung bringt.
Cache auch kleiner sein kann und von den L4 cache ebenso nichts bringt.Was ist denn dann noch für die Leistung entscheidend .ALso Ram zwischen dual und Quad ebenso nix,vielleicht etwas beim Ramtakt und das war es dann.Was ist denn dann entscheidend?

Smartbomb · 4. März 2021

@latiose88
Dann ist nicht mehr die CPU oder der RAM bzw die CPU-RAM Verbindung limitierend sondern eine andere Komponente.

Wie schon sicher mehrmals gesagt wurde: wenn die Daten nicht daher kommen, was willst du denn machen?
Darum ist der Unterschied HDD-->SSD auch so massiv.
CPUs wurden in den letzten 10 Jahren nur ein "kleines bisschen" schneller im Vergleich. Single threat meine ich. Darum ging man ja auch in die Breite und arbeitet nun mit so vielen Kernen gleichzeitig wie möglich.
Schließlich und endlich hängts dann wieder an der Software...

latiose88 · 5. März 2021

@Smartbomb

Na dann wird es wohl an der Software liegen,weil sonst könnte ich das auch nicht erklären warum ich von 3950x zu 5950x dem 3970x so nah kommen konnte das der Abstand nur noch 10 % liegen.
Und das auch nur weil beim testen der 3970x SMT abgeschaltet wurde.Das heißt hier ist nur noch SMT diese ja nicht die normalen Threads entspricht,diese wo die differenz ausmacht. Dank SMT hat schließlich auch der 5950x also halt alle 16 Kerner 32 Threads. Und ohne SMT hat der 3970x ebenso 32 Threads. Das heißt das ist ein normaler Abstand. Es sagen ja auch welche das SMT/HT 25 % der Leistung eines Kernes schafft.
AMD hat hier aber sehr gut optimiert.Sodas es wohl nun 50 % des Kernes entsprechen tut.Denn sonst würde der Abstand weit größer sein als nur 10 %.

Erwarte somit bei der nächsten Entwicklung also keine Leistungsteigerung mehr.Es sei denn AMD hat noch einen weiteren Trick auf lager um hier noch mehr zu steigern. ABer eins ist gewiss,zaubern kann auch AMD nicht.
Meine Erwartung ist somit gering. Denn die Latenzen sind schließlich auch gesunken. Vielleicht bringt diese ja noch was also die Cache Latenz noch weiter zu senken. Aber ob diese in meinem Fall hilft,ist ne andere Frage.
Am Cache gab es ja im grunde zwischen 3950x und 5950x ebenfalls keine rießige Veränderung. AVX bringt bei mir auch nix,das habe ich schon gemerkt. Wenn also da AMD was macht,dann werde zumindest ich nicht davon Profitieren. Und ich habe auch nen besseren Ram gegenüber dem I9 9980xe System,das darf man auch nicht vergessen. Nen höheren Ramtakt habe ich in den Tests gesehen das ab 3600 mhz die Leistung sogar wieder abfallen tut. Und ich habe noch immer 2133 mhz am Laufen. Würde ich diese auch noch ohne Takt verlust zum laufen kriegen,würde der Abstand von 10 % noch weiter nach unten schrumpfen.
Gehe dann von nur noch 6 % aus.Damit kann ich leben.Achja beim 3970x hatte wer für mich noch Oc gemacht kappt,da sank die Leistung ebenso nach unten,also wurde schlechter.
Es hat sogar einer mit 8 Channel es versucht,das brachte ebenso nix und zwischen HDD und SSD war ebenso kein Unterschied festzustellen.

Die Software die ich verwende wird auch nicht mehr neuer,denn die Software Version bleibt bei mir.
Also wird sich wohl langfristig die CPU der Software anpassen müssen.Das halte ich allerdings für ein Wunschdenken,denn von sowas habe ich ja noch nie gehört. Ausprobieren werde ich es wenn es soweit ist es von einem anderen lassen.Rein aus neugier bin ich gespannt was am ende da noch herausgequtscht werden kann aus so ner CPU.

Smartbomb · 5. März 2021

@latiose88
Bitte lern Deutsch. Und schreiben. Danke.
Und auch sonst reimst du dir da irgendwas zusammen was nichts miteinander zu tun hat.
Was haben die beiden 16 Kerner auf der Consumer Plattform mit dem Threadripper zu tun?
AMDs SMT skaliert besser als Intels kaputte Lösung, die ja die ganzen "Sicherheitslücken" verursacht.
Aber da jetzt von Prozenten zu sprechen... Und WO ist welche CPU mit wievielen genutzten Kernen um wieviel schneller?
Wenn nicht mehr Threads als echte physische Kerne zum Abarbeiten da sind, ist es besser HT/SMT abzuschalten, denn die Verwaltung kostet auch a bissl Leistung und es gibt ja nix zum Bearbeiten. Es gibt einige wenige Programme, die sogar sehr allergisch auf HT reagieren!

Bzgl Speicher: vergiss MHz. Was zählt ist die Speicherbandbreite die "hinten raus kommt" und die Latenzen. Während die GB/s nur eine Zahl ist, sinds bei Latenzen schon mehr.

Außerdem: verschiedener Sockel, Chipsätze, Treiber, Virenscanner, Windows Update Geschichte etc. BIOS Einstellungen etc pp.

Außerdem macht es einen GROẞEN Unterschied welches Programm und welche Stelle in diesem Programm gerade WELCHE MATHEMATISCHE BERECHNUNG durchgeführt wird.
CPUs sind doch nur programmierbare Mikrochips die bei mathematischen Berechnungen helfen. Je nachdem welche Zahlen und Zahlenfolgen du vorne eingibst, umso unterschiedlich schnell kommen diese mit einer gewissen Genauigkeit hinten raus.

CPUs sind mega komplex! Was da alles unterstützt und beschleunigt wird, die Cache Hierarchien, Pipeline, Befehlssätze, ... Alleine die Sprungvorhersage ist sowas von genial!

CPUs werden nicht für gewisse Software optimiert! Bzw zm nicht x86 CPUs, denn die müssen ALLES können. Speziellere Beschleuniger sind da natürlich in einer bestimmten Anwendung um ein Vielfaches schneller.
Wenn sich die x86 Welt aber dahingehend entwickelt, dass gewisse mathematische Befehle dir Überhand nehmen, dann werden auch die CPU Designer dies Berücksichtigen und der Fokus wird mehr auf diesen Teil der Berechnungen gelegt.
Zm könnte das so sein, ist nur eine Vermutung.

AVX: ja wenn die AVX Einheiten der CPU nicht genutzt werden, was soll es da auch bringen?
Vergleiche doch Software die regen Gebrauch davon macht mal mit und mal ohne AVX Beschleunigung durch die CPU. Der Unterschied ist eklatant!

Warum lässt du deine Software nicht updaten?
Hast du ein reines Benchsystem oder "benutzt" du deinen Computer auch?

latiose88 · 5. März 2021

Also zuerst mal es spielt doch garkeine Rolle weil der Ryzen 9 5950x ja beim Cache genau die Hälfte hat gegenüber vom 3970x. Und ja ich kann das sehr gut bezüglich dem cache vergleichen weil ich ja auch nen Threadripper 2990wx testen durfte.Da wo der L3 Cache ja auch kleiner ist und dennoch nur ein 3 % Leistungsunterschied vorhanden ist.
Das dies nun mal die einzige Software ist die ich verwende,beziehe ich mich auch auf diese.Mag zwar sein das sie bei anderen Software die jeweiligen CPUS anderst sich verhalten. Da da ich diese anderen Software allerdings nicht verwende,spielt dies eben halt keine Rolle.

Ich scheine also auch ne Software zu haben wo Cache eben nicht so groß ne Rolle Spielt. Habe die tests bezüglich L4 auch gesehen und da hob sich diese Software eben auch nicht ab von den CPUS wo diese nicht hatten. Man kann also gut zusammen fast,das bandbreite wohl keine Rolle spielen.Denn sonst würde ja der unterschiedliche Cache eben zu einer anderen Leistungsunterschied führen. Ich weis das der 3970x durch SMT abschalten diese ganze die 32 Kerne zur verfügung haben. ALso sprich diese haben dann 128/32 und nicht 128/64 und so ist es eben auch bei sämliche andere dann. Ich weis auch das SMT Einheiten ebenso mit Cache gefüttert werden wollen,weil mit luft und liebe können diese eben nicht berechnen.

Und das mit dem AVX naja,da wird sich bei mir nichts ändern,weil ich eben keine Software für AVX habe.Warum sollte mich das denn dann interessieren. Und ich habe sogar noch welche Instuktionen abgeschaltet namens FMA3,LZCNT und BMI2 abgeschaltet. Sodas nur noch BMI1 und die ganzen SSE einheiten bei mir übrig bleiben. Das ist also auf dem Level wie zur einführen von i7 3770k zu der Zeit gewesen war. DIe wo ich abgeschaltet hatte,führten zu keiner verlangsamung meines Ergebnisses.Ich habe alles durchgetestet gehabt. Warum ich das gemacht hatte,na ich wollte wissen was davon mit der CPU skaliert und was überhaupt nicht. Mit FMA3 gibt es bei diesem Software sogar zu Problemen,ich brauche allerdings nicht zu dem verlinken. weil es eben so ist beim H264 umwandeln.

Ich weis das es nen nachfolger gibt,der besser skaliert. Allerdings müsste ich dann sämtliche Geräte austauschen,mir nen anderen Player zur wiedergabe aussuchen als VLC oder Media Player oder Media Player Classic die keines dieser h265 wiedergeben kann. Ich will halt nen flexiblen Decoder haben.

Nun zur erklärung warum ich nicht die software Update,nun die neue Software scheint dümmer geworden zu sein,denn sie vergisst immer meine EInstellungen. Das ist mühesälich und nervig.Sowas ist nicht Benutzerfreundlich. Ich finde es wirklich traurig in welcher Richtung die Software geht.Aber ich kann die Probleme dennoch verstehen. Es gibt immer weniger Menschen die es beherrschen und Software ist weit Teuer zu entwickeln. Zudem ist es mit viel Aufwand verbunden. Darum weil es so ist,müssen sich halt die CPU Hersteller Intel und AMD eben ein kniff einfallen lassen,um dieses Problem zu umgehen. Das hat ja AMD schon gemacht.Nun ist also Intel am Zug zu beweisen das sie es ebenfalls drauf haben..

Achja noch was wie ich zu den ganzen Prozenten komme.Na ganz einfach.
Mein Ryzen 9 5950x schafft beim Umwandeln 1:30 und der Threadripper mit SMT abschaltung schafft mit seinen 32 Kernen 1:20. Das sind also so um die 10 % ,naja gut wenn man es genau nimmt sind von 90 Sekunden 9 Sekunden 10 % .Nun weist du also wie ich drauf komme.
Jede Sekunde stellt bei mir 1 % da.
Darum erwarte ich mir vom Rzyen 9 6950x auch keine Wunder mehr. Cache Latenz wird Amd mit sicherheit noch verbessern. Und weil ja IPC verbesserung auch Transistoren Anzahl erhöhen mit einher geht,Profitiere ich auch hiervon ein wenig.Aber halt nicht mehr so viel. Denn vom 3950x zum 5950x sind es bei mir genau 10 % Leistungssteigerung gewesen alias 1:40 ---) 1:30 und das alles bei Standard Takt der ja bei Boosttakt bei 4 ghz liegt. Den threadripepr 3970x habe als ich testen durfte ebenso bei 4 ghz am laufen gehabt.

Ich habe also somit gleiche verhältnisse geschaffen. Sonst würde ein Vergleich auch unfair sein und auch nicht so gut vergleichbar. Wenn nun der Ryzen 9 6950x einen Takt Boost bekommen sollte,dann müsste ich um fairen Vergleich zu haben den auf 4 ghz abbremsen,sonst schaffe ich nicht gleiche Verhältnisse.

Hier wird also sich am ende schon zeigen wieviel Realleistung am Ende wirklich dabei rumkommen wird.

Nun weist du auch warum ich die Aussage die Hardware muss es richten,weil die Software versagt geschrieben hatte. Klar hatte ich ein wenig schneller mit der neueren Software version gehabt aber auch da war AVX und co keine Rolle gespielt.Ich habe dies selbst getestet.Sonst würde ich solche Aussagen auch nicht machen. Hier ist also ein sichtbares Limit. Von der Software wird auch nichts mehr an Gewinn kommen,hier muss also in Zukunft die CPU für die Gewinne sorgen.

Ich denke mal AMD das wirst du schon hinkriegen,denn du hast bisher immer ne gewisse Mehrleistung geschafft.Warum sollte das in Zukunft anderst sein. Da es bei IPC egal ist welche Software man verwendet,man bekommt immer ne gewisse Mehrleistung.So wurde es mir hier und anderen Forum auch gesagt. Das die IPC der Software egal ist und es darum immer ne gewisse Leistungssteigerung geben wird. Na dann lehne ich mich zurück und lasse mich im Postiven überraschen.

Skysnake · 5. März 2021

Oh man....

IPC ist eine Wert der abhängig von CPU und Programm ist. Sogar ein Programm hat für jeden Teilbereich eine andere IPC, der sogar nochmals vom Inputset abhängen kann....

Sorry, aber so viel Pseudowissen habe ich schon lange nicht mehr gesehen und es interessiert doch niemanden, dass du irgend ne alte Software hast die eben nicht skaliert. Sowas gibt es und dann heißt es halt deal with it.

Kleines Beispiel was sich genau so verhalten würde wie du beschreibst.

Start 32 threads
Read data1
Sleep 60s
Data1+1
Sleep 60s
Print data1
Reduze data1 to datasum
Print datasum
Exit

Wo hat das jetzt irgendwas mit der CPU, Ram, IO oder sonst was zu tun? Nein. Es ist einfach schrottige Software...

Und wenn du irgend einen Decoder hast, dann ist der vermutlich sequenziell und zieht dann halt irgendwann keinen Vorteil mehr aus mehr Cores weil er entweder gar keine Arbeit mehr hat die er sinnvoll aufteilen kann oder weil irgendjemand halt das auf nen gewissen Wert limitiert hat, weil mehr macht ja keinen Sinn.

Ich keine deine "Software" nicht, aber eventuell nutzt sie sogar nur einen thread und dann sieht man auch nichts von RAM weil man eh pro Channel ca 2-4 cores braucht um den zu saturieren...

Wenn du mit so ner veralteten Software was schauen willst, dann solltest du mehrere Instanzen davon parallel ausführen und schauen ob sich die Gesmtzeit im Vergleich zur Ausführung nacheinander reduziert. Wenn ja, gz du hast halt Software die die CPU nicht nutzt....

latiose88 · 5. März 2021

Ok dann war Das also nen Wunsch denken gewesen. Es kann also doch nicht immer mit jeder neuen gpu Generation automatisch mehr Leistung als die vorherigen cpu Generation.
Es gibt es also das es irgendwann auch mal ne neue CPU Generation nicht mehr Leistung gibt als es die aktuelle hat gegeben.
Ist sowas jemals vorgekommen das ne neue CPU generation keine mehrleistung am Ende ausgespuckt hatte?
Ich kann mich darin nicht mehr erinnern. Aber gut ich verwende ja eh schon 2 Instanzen gleichzeitig. Mit nur einen würden die ganzen aktuellen CPUs nur noch die selbe Leistung herauswerfen. Das hast fu also damit gemeint gehabt, das ist genau der Punkt wo mehr einfach nix mehr bringt. Und ja zwei schwache reichen eben nicht aus, damit der ram richtig gefordert wird.
Wie halt surf Programm wie firafox, diese braucht bei gewisser Anzahl an taps mehr RAM als andere. So ist das halt.

Mich wundert das ich weil ich ja eigentlich schon an dem Punkt gekommen bin das ich unter diesen trotzdem ne mehrleistung von 3950x auf 5950x erreichen konnte oder war da die Optimierungen nur noch nicht ganz abgeschöpft gewesen. Aber wenn nicht zuvor dann jetzt halt.

Und zwischen 16+smt und 32 ohne smt da gibt es nun mal eben noch einen leistungsunterschied.
Weil auch wenn AMD smt verbessert hat smt Kerne erreichen nie 100 % eines normalen thread, weil zaubern kann ja amd ebenso wenig wie die anderen. Ist also ne ganz normaler Abstand den ich damit festgestellt hatte nicht wahr?

Skysnake · 5. März 2021

Du hast es nicht verstanden...

In obigen Beispiel würde SMTP 100% Mehrleistung bringen wenn man genug threads hat...

SMT bringt immer zwischen -×% und +100%

latiose88 · 5. März 2021

Achso ist also immer unterschiedlich. In meinem Fall bringt diese wohl mindestens 10 % der gesammtleistung. Um dies genau festzustellen müsste ich es wohl mal ohne smt testen. Bei der 3950x waren es 30 % wo smt was an leistung ausgemacht hatte. Und beim 3970x war mit smt 30 % schlechter gewesen. Da sieht man mal wie unterschiedlich smt an Leistung ist. Man weiß darum auch nicht wie der Nachfolger dann skalieren wird. Auch nicht wie der Unterschied von smt Einheiten zu normalen cores es ist. Wiel cores sind nicht gelcih cores.
Wenn smt nix ausmachen würde, müsste ich ja eigentlich mit dem 32 cores ja gleichziehen, tue ich allerdings nicht weil smt doch noch nicht auf den Kern Level ist. Ist wohl ein Wunschdenken das 16+ smt gleich stark mit 32 sein wird.
Wird also so niemals geschehen. Oder denkt ihr amd wird bei smt nich weitere Optimierungen machen?

Noxxphox · 7. März 2021

96 Kerne, wow.
Also momentan können größere Rechenzentren gefühlt alle 1 2 Generationen aufrüsten da sie dann bedeutend mehr Leistung auf der gleichen Fläche bekommen.

Nach Intels ewiger paar % Leiatungsplus Masche war das ja niemand mehr gewohnt 🙄

latiose88 · 7. März 2021

darum tut sich ja auch Intel im moment auch so schwer.Aber es wird sich was bei Intel ändern,dauert halt noch ne gewisse Zeit.Intel wird halt ebenso nen anderen Weg gehen wie es AMD macht.Auch Intel plant ja mehrere CPUS arten zusammen zu kleben bzw zusammen zu fügen. Weil halt ein Monotolischer sich eben nicht mehr lohnt.Es ist einfach zu teuer. Ich finde es gut das AMD diesem Konzept die Treue schwört und auf dieser basis weiter entwickelt. Ich hoffe das es bei der GPU auch so ein Konzept aufgehen wird.Denn wer will schon die ewig Teure Hardware kaufen die immer teurer wird.Das kann sich ja eh irgendwann auch keiner mehr Leisten.
Mein bester Kumpel hätte sich also garnicht mal einen 16 Kerner gekauft wenn dieser alleine 2000 € kosten würde oder sogar mehr. Und durch die ewige Weiterentwicklung ändert sich auch etwas daran. Ist halt die Frage ob sowas jemals ins Mainstraim kommen wird. Ich habe so meine zweifel das es 32 core irendwann mal als Lowend Preis und so kommen wird.Vielleicht ja nach 30 Jahren,wer weis.Dann ist auch sowas so günstig das man es nachgeworfen bekommt.

ETI1120 · 7. März 2021

latiose88 schrieb:
Ich finde es gut das AMD diesem Konzept die Treue schwört und auf dieser basis weiter entwickelt.

AMD schwört dem Chiplet-Konzept keine Treue.
AMD ist bei den Notebookchips bisher beim monolithischen Ansatz geblieben.

In verschiedenen Interviews hat Mark Papermaster gesagt, dass sie den Ansatz mit Chiplets weiter treiben.
Aber er hat auch gesagt, dass nicht alles Sinn ergibt. Und AMD wird nur das machen was Sinn ergibt. Leider hat er keine Details genannt.

Bei den Notebookchips kommt es auf extreme Energieeffizienz an. Dies konnte AMD mit den Chiplets (noch?) nicht umsetzen.

Außerdem darf man nicht vergessen, dass auch der Träger, auf den die Chiplets montiert werden, Geld kostet. Ganz abgesehen vom Montageprozess (Maschinen + Automatisierung).

D. h. der Chiplet-Ansatz ist vor allem bei großen CPUs vorteilhaft. Wie sie für Server und Workstations verwendet werden.
Bei kleinen CPUs können die Nachteile überwiegen. Deswegen starten die Vermeer-CPUs auch mit einem 6-Kerner. Ich gehe davon aus, dass die Lücke nach unten, durch APUs geschlossen wird.

latiose88 schrieb:
Ich hoffe das es bei der GPU auch so ein Konzept aufgehen wird.

Die Gerüchteküche brodelt sehr heftig. Wie üblich widersprechen sich die Gerüchte in des Details.

Aber es ist nicht so einfach. Die MultiGPU-Karten hatten ihre Probleme. Kann man diese Probleme bei GPUs aus mehreren Chiplets vermeiden? Wenn dies klappt führt nichts an GPUs aus Chiplets vorbei.

Colindo · 8. März 2021

ETI1120 schrieb:
Aber es ist nicht so einfach. Die MultiGPU-Karten hatten ihre Probleme. Kann man diese Probleme bei GPUs aus mehreren Chiplets vermeiden? Wenn dies klappt führt nichts an GPUs aus Chiplets vorbei.

AMD hat ja ein Patent veröffentlicht, das genau darauf abzielt. Wie kann man eine Multi-Chip GPU bauen, die dem OS eine einzige GPU vorgaukelt? Da geht es um die Inter-Chip-Kommunikation, um die Lastverteilung und um die passende Speicheranbindung. Gab hier auf CB eine News dazu, wo ich Co-Autor war.

Ergänzung (8. März 2021)

https://www.computerbase.de/news/gr...chiplet-design.74882/#update-2021-01-03T15:17

Crass Spektakel · 8. März 2021

Smartbomb schrieb:
Wenn nicht mehr Threads als echte physische Kerne zum Abarbeiten da sind, ist es besser HT/SMT abzuschalten, denn die Verwaltung kostet auch a bissl Leistung und es gibt ja nix zum Bearbeiten. Es gibt einige wenige Programme, die sogar sehr allergisch auf HT reagieren!

Nope, das läßt sich so nicht verallgemeinern.

Nimm eine CPU mit n Kernen und lasse darauf einen Prozeß mit n Threads laufen, z.B. "time xz -T 8 dickertext.pdf".

Die Ergebnisse sind auf vier Stellen identisch mit und ohne SMT.

Erst wenn die Anzahl der Threads die Anzahl der Cores überschreitet ändert sich was. Aber nicht unbedingt so wie Du meinst. xz -T 16 ist immer noch deutlich flotter als xz -T 8. Starte ich zweimal xz -T 8 parallel dann braucht zwar jedes xz etwas länger um fertig zu werden aber es werden eben in dieser Zeti auch zwei Aufgaben parallel erledigt. Es mag theoretisch möglich sein eine Workload zu konstruieren die von SMT gebremst wird - primär wenn sie merkwürdige Speicherzugriffsmuster mit Cache-Trashing verwendet - aber sowas habe ich in realen Anwendungen in 20 Jahren nie erlebt.

Willst Du eine Tabelle oder glaubst Du mir das unbesehen? Letzteres würde mir Arbeit sparen.

Smartbomb · 8. März 2021

@Crass Spektakel
Ich erinnere mich da an Gamebenchmarks.
Echte Kerne ohne HT und das selbe nochmal mit HT.
Werden die "HT Kerne" nicht benötigt war das Ganze mit HT leicht langsamer als ohne HT.
Ich erinnere mich auch daran, dass es einen ganz speziellen Ausreisser gab, wo es über 20% fps Verlust durch HT gab. Ein einziges Game.
Ansonsten nicht mehr als 0-3% "Verlust" wenn HT nix bringt, weil genügend physische Kerne da sind.
Ist aber alles schon einige Zeit (Jahre) her muss ich sagen.
Seither schaue ich nicht mehr so genau, weils wurscht ist, weil man eh nix merkt.
So wie Intels Skylake + x MHz von 6000 bis 10000 CPUs.

Was ich mich eher frage ist: wenn jetzt eine CPU HT unterstützt und mehr L3 Cache besitzt als die selbe CPU ohne HT (zB früher i7 vs i5), dann würde man durch Abschalten von HT den i7 zum i5 machen.
Dieser i7 hätte dann aber immer noch mehr L3 Cache als der i5, auch wenn sonst alles gleich wäre (Arch, Kerne, Takt (wobei die i7 oft 1-200MHz mehr bekommen haben)).

Colindo · 8. März 2021

Hier ist ein Beispiel. Total War: Warhammer gewinnt +17% bei deaktiviertem SMT auf einem Ryzen 7 1800X:

Smartbomb · 8. März 2021

latiose88 schrieb:
Achso ist also immer unterschiedlich.

JA!
Denn SMT soll dafür sorgen, dass nicht genutzte Einheiten, Transistoren besser benutzt werden.
Würde ein Thread einen Prozessor Kern zu 100% auslasten, würdest du durch Aktivierung von HT NICHTS gewinnen, eher a bissl was verlieren, weil der logische CPU Kern verwaltet werden muss.
Lastet hingegen ein Threat einen Kern irgendwie zu 50% aus (Hausnummer), kann man den durch HT vl auf insgesamt 70-80% steigern, indem auf dem Kern ein zweiter Threat abgearbeitet wird. Weil man aus dem einen physischen Kern zwei logische Kerne macht.
Kann viel bringen, muss nicht.
Daher auch wie vom Vorposter geschrieben bringt HT, SMT oder wie auch immer mans bezeichnet IMMER in jeder Situation zwischen -x und +100% "Leistung".
Leistung heißt die Zeit bis die Berechnungen fertig sind.

latiose88 · 8. März 2021

Also ich weis nur das ich mit nur 8 Kernen 100 % auslastung beim xmedia Programm H264 gehabt hatte. Habe es auf automatisch gestellt die thread anzahl gelassen. Da kommt am Ende immer laut media info 18 threads dabei raus. Also ich laste damit nen 8 kerner mit smt bzw ht aus.
Dann nahm ich bei einem 18 und nun amd 16 Kerner zwei parallel am laufen.
Damit laste ich beim 16 Kerner aber nicht zu 100 % aus sondern nur bei 90 %.
Das ganze also mit 32 threads.
Ich dachte das hier der threadripper 3970x hier viel besser abschneiden würde.
Bei 64 threads war das Ergebnis schlechter gewesen, sogar schlechter als beim jetzigen 5950x und dann beim threadripper 3970x ohne smt dann vorbei gezogen gehabt.
Nun dies bestätigt auch die Aussagen von euch.
Aber das der Abstand zwischen 3970x und 5950x nicht so weit weg ist sondern nur noch 10 %, das kommt mir aber verdammt gering vor. Wie kommt es das der threadripper sich hier nicht so stark absetzen kann, das verstehe ich ja nicht. Scheint wohl echt an der Software zu liegen.
Bin gespannt wie sich der Nachfolger sich beim threadripper und Nachfolger vom rzen 9 6950x sich hier wirklich absetzen können wird.
Erwarte von amd massive latenz optimierungen. Wenn schon die cache von l3 und so nicht so voll in die Geschwindigkeit rein hauen tut.
Erwarte keine doppelte mehr Leistung, das wird wohl auch die Software nicht zulassen. Und ob es wirklich noch mal 10 % mehrleistung werden ist Halt auch fraglich.

News CPU-Gerüchte: AMDs Genoa für Server mit 96 Zen-4-Kernen

Lieutenant

Banned

Commodore

Rear Admiral

Commodore

Rear Admiral

Commodore

Captain

Commodore

Captain

Commodore

Ensign

Commodore

Captain

Redakteur

Lieutenant

Rear Admiral

Redakteur

Rear Admiral

Commodore

Ähnliche Themen

Passend zum Thema