v_ossi schrieb:
@Hopsekäse nett...
Aber deine Antwort geht doch vollkommen an dem vorbei, was ich sagen will/wollte.
Nein, geht sie nicht. Du verstehst nur nicht, dass deine Argumentation eine Blackbox-Abstraktion auf einer zu hoch angesetzten Ebene verwendet. So eindimensional sind die Anforderungen im Profi-Bereich nicht.
Es gibt nicht DEN Input. Da ist Input immer spezifisch und der wichtige Output kann abhängig vom Input mit der einen Blackbox mal besser und mal schlechter ausfallen als mit der Anderen. Und darauf wie sich der Output einer Blackbox bzgl. unterschiedlicher Inputs verhält, hat nunmal Einfluss, wie die Architektur intern aufgebaut ist.
Und deshalb ist es selbst wenn man sich die Architektur kein Stück ansieht und völlig mit Blackboxes arbeitet, eben nur "nicht beachtet" aber trotzdem nicht "egal".
Das ist dasselbe wie zu sagen, dass für das Schießen eines Fußballs die Gravitation egal ist, nur weil sich ja Fußballer nicht physikalisch damit beschäftigen wie Gravitation zustande kommt.
Ich versteh' auch gar nicht wie man das nicht sehen kann. Es ist doch schon beim Consumer-Markt anhand der Ryzen-Performance-Profile zu erkennen. Ob man sich nun mit der genauen Architektur beschäftigt oder nicht, ein Threadripper hat immernoch einen Game-Mode, der den "Klebe-Übergang" abschaltet und damit schneller ist. Ryzen sind immernoch allgemein eher bei Anwendungen besser und auch da ganz besonders bei denen, die die interne Kommunikation zwischen Kernen möglichst wenig nutzen (zB Rendering). Das sind genau die unterschiedlichen Performance-Charakteristiken, die ich meine und wegen derer es eben absolut überhaupt gar nicht egal ist, wo wie und wann man "klebt".
Solange die Leistung in den benötigten Szenarien gegeben ist und das Paket aus Anschaffungs- und laufenden Kosten ebenfalls gut ist, kauft man ein Produkt.
Du magst das Oberflächlich nennen, ich nenne das realistisch. Schließlich lauft Niemand eine CPU nur wegen besseren Latenzen. Beide Designs haben Vor- und Nachteile.
Wenn es um dein Argument geht, scheinst du das ja zu verstehen. :-)
Du machst da aber auch wieder einen Marken-Krieg draus. Ich habe nirgends gesagt, dass du unbedingt einen Cascade-Lake-AP kaufen sollst, weil der bessere Latenzen hat. Ich habe gesagt, dass Intels "Kleben" anders ist als AMDs "Kleben", weil die Leute hier oberflächlich rumrennen und meinen es wäre genau dasselbe. Ist es aber nicht. Dass beide Designs Vor- und Nachteile haben ist doch klar. Das ergibt sich doch gerade daraus, dass es nicht dasselbe ist!
Wie zwei große Intel-Dies mit einer (meiner Einschätzung nach relativ "dünnen") Verbindung im Vergleich zu AMDs vielen kleinen mit mehreren Verbindungen abschneiden, wird sehr spannend. Der Monolith (auch wenn das Mesh nicht perfekt ist), hatte mMn durchaus Vorteile gegenüber AMD. Ob die bei zwei geklebten Monolithen noch da sind, ist eine völlig offene Frage, die ich hier auch nie thematisiert habe.
Krautmaster schrieb:
Rein von den Daten her ist ein verklebter Xeon mit UPI und ein Epyc mit IF also wohl recht ähnlich was Latenz angeht. Anders als bei AMD wurde der Sockel aber nicht darauf ausgelegt um Verbindungen mehr als einer CPU Die nach außen zu führen.
...
Die Xeon-AP bekommen einen eigenen Sockel mit irgendwas in den hohen 5000ern an Pins.
Der limitierende Faktor ist nichtmal der Sockel, das ist ja leicht behoben. Intel hat nur keine Chips mit mehr als 3 UPI-Links. Da wird's echt unschön. 2x UPI für den internen Link, und nur noch einen für den Link zum anderen Sockel. Bisher hat man beide Sockel mit 2 oder 3 (ab Platinum-Xeon) Links verbunden. Das wird weniger als vorher. Mal schauen, wie sich das auswirkt.
Die geposteten Werte sind sehr interessant. Die Einschätzung, dass es ähnlich sein könnte, würde ich erstmal vorsichtig teilen.
Die Intel-Werte sind Inter-Node in einem 4P-System. Die AMD-Werte sind Intra-Node auf einem Sockel.
Bei den gezeigten CPUs ist Intel also minimal schneller auf den anderen Sockel, als AMD es auf demselben Sockel ist. Finde ich etwas erstaunlich.
Bei AMD ist der zweite Sockel nochmal deutlich langsamer zu erreichen (Sockel zu Sockel sind die Quadranten oben rechts und unten links):
Quelle:
https://www.servethehome.com/amd-epyc-infinity-fabric-latency-ddr4-2400-v-2666-a-snapshot/
Die Interessante Frage wird hier sein, ob Intel mit CL-AP auf demselben Sockel schneller ist als auf einen anderen Sockel.
Technisch möglich und sinnvoll wäre das definitiv. Deshalb finde ich auch etwas merkwürdig, dass AMD inter-chip so langsam ist. Zumal ja ihre Architektur im Gegensatz zu Intel komplett darauf basiert, auf demselbem Package inter-chip zu kommunizieren.
Mit EMIB hat Intel auch extra eine Technologie dafür entwickelt. Da sollte man vermuten, dass es schon an sich schneller ginge als einmal quer übers Board zum anderen Sockel.
Fraglich ist nur, ob die schnöden Skylake-Refreshs, die Cascade-Lake ja sind, damit schon was anfangen können. Auf die maximalen 3 UPI-Links limitiert sind sie ja genauso.
Es kann also auch durchaus sein, dass Cascade-Lake noch nicht in der Lage ist, die beiden "lokalen" Links schneller zu betreiben als den externen Link. Ich würde sogar vom Gefühl her bezweifeln, dass sie das können.
Dann wäre man bzgl. Latenz (Bandbreite nicht, weil Anzahl Links) homogen zwischen Sockel und Package, aber für intra-node halt schon irgendwie unschön langsam.