fanatiXalpha schrieb:
meinst du, die können die Latenz bei Inter-CCX-Kommunikation verbessern?
Wenn man den RAM von dem der Fabric entkoppeln könnte, wäre man da sicher einen Schritt weiter, aber letztlich sind solche Core Cluster eben nicht optimal, wenn es um die Kommunikation zwischen den Kernen geht, dafür ist es aber leichter auf der Basis auch Dies mit mehr oder weniger Kernen zu bauen, sofern man eben beim Vielfachen von in diesem Fall 4 bleibt.
fanatiXalpha schrieb:
was meinst du hat AMD geritten für die 4 Kern CPUs es auf ein 2+2 hinauslaufen zu lassen?
Ist den schon sicher, dass es so ein wird? Spätestens bei Raven Ridge dürfte aber wohl ein natives 4 Kerner kommen, denn mit nur einem CCX hat man dann auch entsprechend Platz für die iGPU.
modena.ch schrieb:
aber die Packdichte ist viel höher. AMD hat damit das Kunststück geschafft Fläche
einzusparen und gleichzeitig viel, viel mehr Transistoren zu verbauen als Intel mit
BDW-E. Es ist also nicht Logik gespart sondern viel mehr da.
Da wäre ich mir nicht so sicher!
modena.ch schrieb:
Dann ist die Kommunikation der Kerne und Threads innerhalb eines CCX bei Ryzen deutlich schneller
als bei Intel mit ihrem Doppelring wo jede Kommunikaton untereinander gleich lang dauert.
Bei den alten Haswell-E mit denen getestet wurden und vermutlich auch noch den Broadwell-E sicher, die sind eben so ausgelegt, dass viele Kerne gut miteinander kommunizieren können, was aber auf Kosten der minimalen Latenz der Kommunikation zwischen zwei Nachbarkernen geht. Wird bei einem Intel 8 Kerner ein Kern mit jedem anderen einmal kommunizieren, ist er aber immer noch schneller damit durch als bei RYZEN, auch wenn es beim Nachbarn länger dauert als es bei RYZEN für die anderen 3 auf dem gleichen CCX der Fall ist, denn im schlimmsten Fall zum am weitesten entfernten Nachbar geht es immer noch viel schneller als bei RYZEN, wenn der mit Kernen auf einem anderen CCX kommunizieren muss.
Bei den kleinen S. 115x Zwei- und Vierkernern dürfte die Latenz auch bei der Kommunikation zum Nachbarn viel geringer sein, die haben ja keine Doppelringe. Die CPUs für den kleinen Mainstream 115x und für den großen Server/Workstation/Enthusiasten Sockel 2011-3 sind eben unterschiedlicher als es den meisten Leuten bewusst ist. Wie gesagt soll Intel da bei den großen Skylakes auch noch mal nachlegen und die Doppelringe durch etwas noch besseres ersetzen, sofern die Gerüchte stimmen. Genaueres wird Intel kaum mehr verraten, man AMD da nicht zu viele Informationen geben wollen.
modena.ch schrieb:
Da diese Verbindung am Ramtakt hängt, lässt sich durch schnelleren Ram oder evtl einem anderen Teiler
bereits einiges rausholen.
Sicher, die Frage nur, was AMD daran gehindert hat den Teiler nicht gleich flexible zu gestalten. Vielleicht hat man das nur noch als so ein Problem angesehen, dann wäre dies wohl die erste Optimierung die man angehen dürfte, vielleicht war es vorgesehen und hat Probleme bereitet und müsste daher ungenutzt bleiben, dann wäre es ebenfalls wohl bald behoben.
modena.ch schrieb:
Oder ich gebe dem Scheduler oder Compiler mit, dass Threads die miteinader kommunizieren
müssen möglichst nur im gleichen CCX zu liegen kommen.
Der Compiler hat nichts damit zu tun wo die Threads dann ausgeführt werden, die macht entweder der Task Scheduler des OS oder der Programmierer selbst, denn man kann im Programm bestimmen auf welchen Kernen ein Thread ausgeführt werden darf, sowohl Linux als auch Windows bieten diese Funktion an. Der Scheduler unterstützt RYZEN da auch richtig, dies hat AMD ja auch bestätigt. Wenn man nun alle Threads eines Programms oder Spiels nur auf Kernen eines CCX ausführen lässt, dann hat man letztlich für dieses Programm nur einen 4 Kerner und keinen 8 Kerner, der dann außerdem nur halb so viel L3 Cache hat, da muss man also abwägen was im Einzelnen das kleinere Übel wäre, aber ein Task Scheduler wird das kaum können, da ist dann wirklich der SW Entwickler gefragt.
modena.ch schrieb:
Da ist noch einiges drin die Spieleperformance ist damit noch lange nicht vom Tisch und ist ja jetzt schon gut genug.
Ob es genug ist, hängt davon ab, ob die GPU limitiert oder nicht und dies hängt vor allem von der GPU und der Auflösung ab, aber wenn man dem Gamer eine solche CPU verkaufen will, sollte es besser keine gleich teure oder gar günstigere CPU vom Konkurrenten gehen, die bei den meisten Spielen / Einstellungen besser abschneidet. Genauso sieht es aber derzeit aus.
modena.ch schrieb:
Mann sieht ja auch wenn Ryzen von Anwendungen gut Ausgelastet wird dass die Perfomance meist besser ist als bei BDW-E.
Da sind eben die Kerne ausgelastet und kein blödsinniger Scheduler schiebt die Threads quer über die CPU.
Wieso beißt Du Dich so am Scheduler fewst? Der bestimmt doch gar nicht wie viel Kommunikation zwischen den Threads nötig ist und die ist das Problem, denn RYZEN ist eben nur bei Anwendungen gut, wo es wenig gibt und bei solchen wo es viel gibt, dann schlechter als ein Broadwell-E 8 Kerner, teils sogar als ein 6 Kerner. Die Kommunikation zwischen den Threads bestimmt der SW Entwickler und der macht das nicht zum Spaß, sondern weil Daten voneinander abhängen und daher zwischen den Threads synchronisiert werden müssen, es muss also sichergestellt sein, dass bei einem bestimmten Ereignis alle Kerne den gleichen Datenstand stehe, weil das Problem dies erfordert. Stell Dir vor man unterlässt das einfach, dann würde einer im Ballerspiel schießen und treffen, der andere aber nicht umfallen oder bei einer Rennsimulation würden zwei Autos gleichzeitig den gleichen Raum einnehmen ohne zu kollidieren.
Bei Anwendungen gibt es das auch, es können ja nicht zwei zur gleichen Zeit den gleichen Sitz im Flugzeug für den gleichen Flug reservieren, der eine der schneller war bekommt ihn, der andere nicht und wenn es doch passiert das das System beiden den gleichen zuweist, dann hat der Entwickler bei der Synchronisierung der Daten gepennt. Es hängt also vom Problem ab, wie viel zwischen SW Threads und damit den Kernen der CPU synchronisiert werden muss und wenn nun wie bei Cinebench jeder einen Teil der Daten für sich bearbeitet und nur immer ein Teil fertig ist mal eben synchronisiert werden muss um den nächsten korrekt zu verteilen, dann perfomt RYZEN erstklassig, für solche Anwendungen ist der Spitze, für andere aber eben nicht. Die unterschiedlichen Architekturen haben eben unterschiedliche Stärken und Schwächen.
fanatiXalpha schrieb:
trotzdem behindert sich da so eine Bremse ans Bein zu hängen
die wissen doch selber, wie Spiele funktionieren und wie sich das Auswirken kann
Das ist eben was ich nicht verstehe, wieso hat an so eine Architektur geschaffen und fängt dann ausgerechnet an die zuerst an Gamer gezielt zu vermarkten?
modena.ch schrieb:
Wenn man evtl den Teiler für die Infinity Fabric ändern könnte, also vom Ramtakt teilweise abkoppeln, ginge da auch mit günstigem Ram einiges.
Natürlich, nur warum hat man dies eben nicht gleich gemacht?
modena.ch schrieb:
Mit dem Cache Aufbau bei AMD ist der logische Schritt so eine Verbindung wie die Infinity Fabric zu wählen. (nicht jeder Kern muss in jedem Teil des L3 zugreifen können)
Wenn man dort den Durchsatz erhöhen kann, ist das Problem keins mehr.
Der Durchsatz alleine ist nicht alles, die Latenz ist genauso wichtig. Das ist wie bei HDDs und SSDs, man kann mehrere HDDs in einem RAID 0 betreiben und dann bessere seq. Transferraten als bei einer SSD erzielen, aber die Zugriffszeit (=Latenz) wird nicht besser und damit wird das RAID 0 bei zufälligen Zugriffen immer noch viel schlechter abschneiden als mit einer SSD, obwohl es mehr Durchsatz schafft.
modena.ch schrieb:
AMD ist damit einen Kompromiss eingegangen, schneller in der lokalen Kommunikation innerhalb des CCX und langsamer darüber hinaus.
Eben und dieser Aufbau dürfte einfacher zu entwickeln gewesen und universeller einzusetzen sein, man sollte nicht vergessen, dass die Resourcen bei AMD ja nicht so üppig waren und sind wie es bei Intels Entwicklungsabteilung der Fall ist. Ein nativer 4 Kerner mit nur einem CCX hätte daher wohl weniger Probleme, nur hat AMD sich eben entschieden zuerst die 8 Kerner zu bringen, die genau diesen Nachteil nun auch gerade bei Games zeigen, also der Anwendung auf die man zuerst zielt. Nur hatte AMD wohl auch keine Wahl, die Taktraten kommen ja kaum über 4GHz und die Effizienz wird umso schlechter, je höher man über 3GHz raus geht, einen i7-7700K hätte man mit einem CCX nie angreifen können und damit wäre AMD nur wieder als Zweiter ins Ziel gekommen.
modena.ch schrieb:
Ausserdem dauert es immer eine gewisse Zeit bis eine nagelneue Architektur in der Software ankommt (Scheduler und Compiler) und man muss nunmal immer die Software auf die jeweiligen Eigenarten (und die haben sie alle) einer Architektur anpassen. Wenn man sich als Entwickler nicht zu doof anstellt, kann man diese Eigenarten komplett umgehen, im Gegenteil, man kann sogar vieles rausholen, was auf einer anderen Architektur so nicht geht.
Unsinn, man kann nicht alle Nachteile einer Architektur mit den SW-Optimierungen umgehen oder gar in einen Vorteil verwandeln. Dies geht einfach nicht und auch der Task Scheduler oder der Compiler können das nicht. Denn wie schon gesagt, bestimmt das Problem wie viel Kommunikation zwischen den Kernen einer CPU nötig ist und wenn man die Threads die viel miteinander kommunizieren müssen nur alle auf einem CCX laufen lässt, dann laufen sie nur auf einem 4 Kerner, mit entsprechend weniger L3 Cache. Dies mag sogar in Einzelfällen schneller sein, aber wohl kaum in der Mehrheit der Fälle. Wenn es eine RYZEN CPU mit nur einem CCX gibt oder man diese korrekt simulieren kann, dann wird man sehen wann dies wirklich mal der Fall ist.
Redirion schrieb:
ich kann mir nicht vorstellen, dass AMD so früh tatsächlich schon den Zen-Core überarbeitet.
Erstens muss man nicht unbedingt die Kerne selbst überarbeiten um mehr Performance zu bekommen und zweitens muss man natürlich die Architektur optimieren und weiter entwickeln, gerade am Anfang ist das Optential dafür am größten. Oder möchtest Du einen Stillstand wie in den letzten Jahren sehen?
Redirion schrieb:
Deswegen steht da auf der Roadmap auch noch nichts von Zen+ oder gar Zen2 bei Pinnacle Ridge.
Man möchte jetzt natürlich noch die gerade auf den Markt gekommenen und demnächst kommenden CPUs verkaufen, da schon gleich Zen2 oder Zen+ dran zu schreiben, wäre dafür nicht so hilfreich. Man kann trotzdem damit rechnen, dass es jedes Jahr eine optimierte Version geben wird und die Optimierungen werden nicht alleine von den Verbesserung der Fertigung kommen.
Redirion schrieb:
Eine Vermutung, die ich hätte, wäre dass Pinnacle Ridge sich ähnlich wie
Bristol Ridge zu Carrizo verhält. D.h. es handelt sich tatsächlich noch um die gleichen Zen-Cores, aber es werden Features verwendet, die unter Summit Ridge noch deaktiviert sind.
Bei einer so komplett neuen Architektur halte ich dies für unwahrscheinlich. Was drin ist und nicht aktiviert wurde, wird entweder nur bei Naples freigegeben, der ja angeblich aus 4 der Dies besteht oder funktioniert eben nicht wie geplant, dann muss es aber neue Masken geben um die Probleme zu beheben.
Redirion schrieb:
So sind also aktuell viele feingranulare Möglichkeiten zur internen Spannungsversorgung von Ryzen nicht nutzbar.
Das Aufwecken der Kerne und die Änderungen der Taktraten scheinen ja auch deutlich Nachteile für die Performance zu haben, vielleicht hat man es deshalb einfach deaktiviert um nicht wegen ein paar Watt noch mehr Leistung zu verlieren, am Ende hätte man vielleicht weniger gehabt wenn der Takt sich zu oft ändert, auch wenn der durchschnittliche Takt dann ein wenig höher ist.
Redirion schrieb:
Im Desktopbereich werden die Pinnacly Ridge dann vermutlich einfach mehr Turbo und/oder mehr XFR Boost bringen können. (aber eher sowas wie 100MHz mehr, also boostet dann ein spukulativer 1850X bis 4,2GHz
)
Entweder ist Pinnacly Ridge eine Low-Power Architektur oder für den oberen Leistungsbereich, aber den Bogen von 10, 15W Kernern bis zu 8 Kernern die auch über 100W nehmen mit einer Architektur spannen zu wollen, funktioniert einfach nicht. Pinnacly Ridge soll ja Summit Ridge ablösen, daher dürfte es auch einen ähnlichen Leistungsbereich abdecken, natürlich möglichst noch ein wenig mehr nach oben raus. 100MHZ mehr für einen 1850X, wird man schon mit der Zeit alleine durch die Reife des Fertigungsprozesses bekommen.
modena.ch schrieb:
Was ich mir auch gut vorstellen kann, ist das AMD mit dem Pinnacle Ridge den 10 GB Lan Contr. der in einem
Zeppelin DIE integriert ist frei gibt.
Wenn Naples 10GbE kann, dürfte es den geben und ich htte gehofft, dass AMD den auch freigibt um sich von Intel abzusetzen, zumal die Plattform ja auch nur wenige PCIe Lanes hat, erst recht wenige PCIe 3.0 Lanes um dort 10GbE über zusätzliche Controller anzubinden. Aber Gamer brauchen dies nicht und auf den Workstationbereich zielt AM4 nun einmal ganz offensichtlich nicht. Es würde ja reichen wenn nur einige Boards den 10GbE Port dann auch nutzen, bei den Xeon-D ist es ja auch so, dass nicht jedes Board die beiden 10GbE Ports des SoCs nutzt, denn die PHY sind eben für 10GBASE-T nicht ganz billig, aber leider hat AMD uns kein schnelleren Ethernet gegönnt.
modena.ch schrieb:
Ich weiss nicht ob es jetzt schon möglich wäre den mit PHY hinauszuführen.
Wenn die entsprechenden Pins im Sockel fehlen und die Anschlüsse auf der CPU daher nicht verbunden sind, dann natürlich nicht.
modena.ch schrieb:
Den PHY zu verbauen war aber teurer als einen extra LAN Chip und so haben die MB Hersteller lieber günstige
Realtek LAN Chips verlötet.
Wahrscheinlich wird es bei AM4 auch so sein.
Das glaube ich nicht, es gibt ja immerhin ein Board mit NBASE-T, dies hätte man nicht gemacht, wären 10GbE nutzbar gewesen und nur ein PHY nötig um diese rauszuführen. Aber erst mit dem Erscheinen von Naples wird man wohl genau wissen, was auf dem Die schlummert, aber bei AM4 nicht genutzt werden kann, dass es aber viel mehr als nur die 16 PCIe 3.0 Lanes für die Graka hätten sein können, sollte jetzt schon klar sein. Nur wären dann mehr Pins nötig und damit würden die Kosten der Boards weiter steigen.