Ned Flanders schrieb:
Und das ist halt schon auch korrekt. Auf dem Papier ist Mesh ne feine Sache, aber real ist dass leider performance seitig wenig ideal umgesetzt.
Dennoch sprichst du allgemein vom Mesh und ziehst einzig die SKL Umsetzung als "Beleg" ins Feld. Eben bei der Benennung von Schwächen - wenn der MC bei 1T Zugriff nur einen Kanal nutzen kann, dann ist das kein Meshthema sondern ne Designentscheidung, bspw. analog AMDs künstlichem Einbremsen der Writerate bei den Single Chiplet CPUs.
Ich seh da weniger direkte Angriffsfläche beim Mesh, vor allem in Verbindung mit dem anderen Designansatz inkl. aller Vorzüge und ggf. auch Nachteilen daraus. AMDs IF Links sind Bandbreitenlimitiert, es ist gut und schön irgendwo Latenzen zu messen, was aber passiert praktisch? Einer der größten Vorteile des Mesh dürfte die nicht fixe Wegwahl sein, es gibt mehr als einen Weg, ist da Hintergrundtraffic zu sehen, stehen Alternativen bereit. Ich sprach bspw. PCIe an, gerade im Enterprise Umfeld, mehrere bandbreitenlastige Erweiterungskarten werden von diversen Threads "bedient" und pumpen da Traffic durch die CPU, im Detail knickt ab einem gewissen Punkt der Spaß bei AMD ein während das Mesh technisch weiter skalieren kann. Das geht soweit dass man mit der Sub-NUMA Thematik sogar die CPU künstlich "trennen" kann und dabei letztlich das Mesh auch geteilt wird.
Es ist absolut schwer zu sagen was Overall besser ist, es scheint mir da keinen Sieger zu geben. Gerade auch in Blick auf zukünftige Umsetzungen. MCM wird bei Intel scheinbar anders angegangen als bei AMD, mit Foveros wird man offenbar noch einen Schritt weiter gehen. Spinnt man das mal weiter, stellt sich die Frage wie es hätte besser laufen können? Rein im Vergleich ist das Mesh bei Intel eher vergleichbar den CCX Verbindungen. Leider schreibt AMD überall IF dran, trotz verschiedener Ansätze.
Wenn man in die Details geht, bspw. den L3 Cache, im Mesh ist es atm möglich den L3 Cache quasi komplett zu nutzen, bei den AMD Chiplets ergibt das wenig Sinn, da die Links zu lahm sind und damit RAM Access nicht langsamer sind, auch hier wäre praktisch die Frage was wann wo passiert?
AMDs Ansatz hat dort btw. nen Vorteil wo die Aufwände unabhängig voneinander sind. In Games kann sowas bspw. ziemlich Leistung kosten wenn das ungünstig ausfällt, eine Blender, CB oder sonstwas, profitiert hingegen sogar gon der Unabhängigkeit. Mit viel Cache egalisiert AMD auch ein paar der Nachteile, zumindest bis zu dem Punkt dass der Cache groß genug ist.