Fritzler schrieb:
Wenn die Erweiterung verbreitet ist werden die Optimierungen zunehmen.
... entweder hab ich mich falsch ausgedrückt oder du hast einfach den Beitrag nicht verstanden: Hier werden immer wieder bestimmte Erweiterungen - und darunter eben auch AVX-512 - als der heilige Gral der Leistung hingestellt und dann behauptet, dass ja dafür nicht optimiert wird, weil die Verbreitung fehlt, was aber in dem Fall einfach nur ein Teil des Puzzles ist und auch ein falsches Bild zeichnet.
AVX-512 wird in bestimmten Szenarien durchaus seine Leistung zeigen können, genau so wird es viele Szenarien geben, in der man die Rohleistung nicht mal im Ansatz nutzen kann, weil man durch Abhängigkeiten in den Daten überhaupt keine so großen Vektoren aufspannen kann. In solchen Szenarien würden dann eher mehr aber kleinere Vec-ALUs besser helfen usw.
WinnieW2 schrieb:
Die reine Rechenleistung von AVX-512 ist nur ein Faktor, ein anderer wichtiger Faktor ist die Energieeffizienz.
Doppelt so breite ALU, braucht auch ca. doppelt so viel Energie.
WinnieW2 schrieb:
Bringt AVX-512 mehr Rechenleistung pro Watt im Vergleich zu AVX-256, das ist ebenfalls von Bedeutung.
Das ist eher der springende Punkt und das hängt von einigen Faktoren ab und nein, in dem Fall ist das folgende von dir nicht das Problem:
WinnieW2 schrieb:
Bringt ja wenig wenn AVX-512 zwar pro Takt die doppelte Anzahl an Rechenergebnissen schafft aber dafür deutlich energiehungriger ist.
AVX-512 wird in der Regel genau soviel - eher etwas weniger - Energie benötigen als 2 * AVX-256, weil man sich bestimmte Sachen sparen kann. Es wird also in der Regel weniger Energie benötigen .
Das Problem ist aber, dass man eine AVX-512-Einheit auch füllen muss und da fängt halt das Problem auch an. Wenn die Vektoren zu "klein" für eine AVX-512 Einheit ist, dann benötigt die AVX-512 mehr Energie als eine passende Vektor-Einheit.
Was wiederum für AVX-512 spricht - gegen AVX(2) - ist die höhere Anzahl an Register, die sich dann wieder etwas positiv auf die Energiebilanz auswirkt, weil man weniger in die Caches und später in den RAM muss.
Freiheraus schrieb:
Ein IPC starker P-Kern gechillt @3,0+ GHz wird immer effizienter sein, sprich mehr Leistung pro Watt erbringen, als ein IPC schwacher E-Kern auf 3,5-4GHz.
Nur sollte es niemals zu genau zu so einer Situation kommen. Wenn es zu so einer Situation kommt, dann hat das Betriebssystem genauso versagt wie die CPU selbst.
Ein P-Kern mit entsprechend hoher IPC benötigt alleine durch die Menge seiner Schaltungen aber eine gewisse Grundspannung und ebenso auch eine gewisse Menge an Grundstromstärke. Viele Transistoren wollen auch versorgt werden und ja, ich weiß, dass man auch Schaltgruppen auch abklemmen kann, nur macht man das nicht so granular, weil es dann ein Komplexitätsmonster wird. Sobald eine CPU im C0 ist, ist der Kern vollständig aktiv und hat einen gewissen Grundverbrauch.
Ein E-Kern mit einer geringeren IPC und weniger Schaltungen braucht weniger Spannung und weniger Stromstärke, um überhaupt zu schalten und entsprechend, der Grundverbrauch ist also niedriger.
Und da kommt jetzt das, was entscheidend ist: Mit dem Grundverbrauch - sprich Spannung und Stromstärke - geht auch ein gewisser Grundtakt einher, es ergibt keinen Sinn den Takt "niedriger" anzusetzen, weil man nichts mehr sparen kann. Genau an dieser Stelle greift dann auch das Big.Little-Prinzip.
Es gibt Aufgaben, die muss man nicht auf einem IPC-Monster im C0/Pn laufen lassen, er verbraucht durch den Grundverbrauch dann immer noch mehr Energie als ein E-Kern im C0/Pn und die Aufgabe wird dennoch schnell genug erledigt.
Freiheraus schrieb:
Auch wenn der P-Kern etwas mehr Fläche benötigt, AMD hatte noch nie ein Problem damit für Produkte geringere Margen/höhere Kosten im Vergleich zur Konkurrenz in Kauf zu nehmen.
Etwas mehr Fläche? Hast du dir mal die Informationen zu den E-Kernen und P-Kernen bei Intel angesehen? Ein P-Kern belegt die Fläche, wie 4 E-Kerne und das ist dann nicht mehr nur etwas mehr Fläche, sondern genau die 4-fache Fläche.
Und da kommt halt dann ein entscheidender Punkt: Die E-Kerne sollen auf SkyLake-Niveau liegen und damit ist ein P-Kern ca. 44 % schneller als ein E-Kern, benötigt für diese 44 % aber die 4-fache Fläche.
Auf der Fläche eines P-Kerns hat man 4-Kerne, geht man nun auf eine MT-Anwendung und geht vom Optimalfall bei HT von 30 % aus, dann steht 4,0 gegen 1,9 bei der Leistung. E zu P-Kernen nur rechnerisch bei der IPC.
Es wäre interessant, wie die Energieaufnahme von 4 E-Kernen bei 3 GHz ist und ebenso eines P-Kerns und wie die Leistung am Ende dann aussieht, ich wage aber die Wette, dass die 4 E-Kerne in dem Fall dann effizienter sind als ein P-Kern.
Freiheraus schrieb:
Die 8 P-Kerne laufen an der Kotzgrenze um die schwächere Leistung der 8 E-Kerne auszugleichen, um mit den 16 P-Kernen im Sweetspot mithalten zu können. Zudem muss das Netzteil und die Kühlung bei 250 Watt größer dimensioniert werden.
Die 8-P-Kerne laufen am Limit, genauso wie die 8-E-Kerne, weil Intel aktuell keine "Niederlage" einstecken will und man so in den wichtigen Tests sich vor AMD setzten kann. AMD hat immer noch mit dem N7 von TSMC einen "Fertigungsvorteil" gegenüber Intel und Intel muss das ausgleichen.
Es reicht Intel nicht, dass sie im Single-Core mit 4,0 GHz vermutlich genauso schnell wären, wie AMD mit 4,8 GHz. Sie wollen vorne sein, also geht man auf 4,8 - 5,2 GHz. Es reicht ihnen auch nicht, dass sie bei gleichem Verbrauch vermutlich ca. 20 - 30 % in MT hinter AMD wären, sondern auch hier wollen sie aufschließen, also geht man an das Limit.
Und nein, der 16-Kerne von AMD läuft in so einem Vergleich auch nicht im Sweetspot, nur einfach nicht am Limit. Die Sweetspots liegen in so einem Fall oft eher niedriger. Nur um das zu ermitteln, müsste man ein paar Testreihen machen bei festgelegtem Takt und wann man für den Energieeinsatz die meiste Leistung bekommt.