oemmes schrieb:
@Staubsauger
Hast du die Tests nicht gelesen? Das einzige, was die CPUs seit Haswell noch etwas interessant macht sind die Befehlssatzerweiterungen. Der Übertaktungsgewinn ist über die Jahre rückläufig, einfach weil die Hose auch da irgendwann mal zu ist.
Nur weil die Desktop-Linie nicht mehr exponenziell in der Leistung nach oben skaliert, heißt das noch lange nicht, dass die Architektur ausgereizt ist. Spätestens seit Haswell wird hauptsächlich auf maximale Effizienz und Chipfläche entwickelt, nicht auf absolute Höchstleistung. Da muss man natürlich Kompromisse eingehen.
Es gäbe m.E. schon noch die ein oder andere Möglichkeit, die Architektur weiter auszureizen:
a) größerer L2-Cache
Die Größe des L2-Cache ist schon seit Nehalem unverändert. Ein Upgrade auf 512 kB würde natürlich keine Verdopplung bringen, aber das ein oder andere Prozent sind da schon zu holen - immer natürlich vorausgesetzt, dass die Bandbreite identisch bleibt. Insgesamt würde das aber wohl im Vergleich zum Gewinn an Performance überproportional viel Chipfläche kosten.
b) erweitertes SMT
Bislang können pro Kern zur zwei Threads parallel verarbeitet werden. Es ist denkbar, dass auch hier ein Upgrade auf 4 (wie beim Xeon Phi) oder gar 8 Threads (IBM POWER) in gut parallelisierten Anwendungen gegenüber 2-fach SMT nochmal eine bessere Auslastung der Pipeline erzeugt. Insbesondere unter der Voraussetzung, dass die Anzahl an Execution Ports stetig gewachsen ist und das Backend deutlich breiter ist als beispielsweise beim Xeon Phi (wenn man von den dicken Vektor-Einheiten mal absieht).
c) Verbindung zwischen den Kernen
Schon länger ist absehbar, dass der Ring-Bus, der mit Sandy Bridge eingeführt wurde, irgendwann zur Sackgasse wird. Daher gibt es auch hier schon Spielraum. Das nächste wird dann wohl ein 2D-Mesh-System sein, mittelfristig dann auch in der 3. Ebene.
d) Externer Cache (HBM / HMC)
Die Broadwell-CPUs für den Desktop mit Iris Pro GPU und EDRAM haben teilweise ganz nette Ergebnisse hervorgebracht. Und dabei ist der EDRAM im Vergleich zu anderen Lösungen noch lächerlich langsam angebunden und ziemlich klein. Ein 1-2 GB großer HMC-Stack als L4-Cache mit 400-500 GB/s Bandbreite würde in vielen Applikationen, wo es aktuell zu vielen Cache-Misses kommt, zu einem ordentlich Boost kommen. Problem hier: (aktuell) zu teuer für eine Standard Client-CPU. Spricht aber nichts gegen, dass wir das nicht in ein paar Jahren zu Gesicht bekommen.
e) Taktfrequenz
Ein Vorteil, oder eben auch Nachteil der Core-Architektur ist aktuell, dass sie von 4,5 Watt (Mobile Y-Serie) bis 165 Watt (Xeon E7) praktisch frei skalierbar ist, wenngleich die Optimierung der Transistoren klar auf weniger Verbrauch getrimmt ist. Das bei 4,5 - 5,0 GHz irgendwo eine Art "Grenze" herrscht, wo Silizium-basierte Chips irgendwann die Luft ausgeht, wissen wir nicht erst seit Haswell, sondern schon seit dem Pentium 4. Man sollte jedoch dazu erwähnen, dass seit dem Ende der Netburst-Ära der Fokus sich auch ein wenig gewandelt hat, ebenso wie die Produkte die vornehmlich gekauft werden. Und das ist heute eben nicht der klassische Desktop-PC, sondern eben ein Notebook oder anderes mobiles Gerät und selbst im Desktop-Segment führt die Reise weg von "Big-Towern" in Richtung kleine kompakte Lösungen, die in 0,6L-Gehäusen oder gar PCs in Form eines "Sticks" ihren aktuellen Höhepunkt finden. Vor 10 Jahren wäre das undenkbar gewesen.
Dieser "Vorteil" der Skalierung wandelt sich mittlerweile auch mehr und mehr zum Nachteil, weshalb Intel die Segmentierung schon dieses Jahr ein wenig klarer fast. Das kann man daran erkennen, dass es von Skylake-EP keinen "Desktop"-Ableger geben wird, sonders das dafür eine neue Linie mit "Skylake-X" geschaffen wird. D.h.: die größte Ausbaustufe der jeweiligen Generation wird definitiv nur in Servern zu finden sein. Dazu sei angemerkt, dass auf der SC16 erstaunlich viele Wasserkühlungslösungen ausgestellt waren. Das lässt darauf schließen, dass das TDP- (und damit auch das Takt-) Budget für die stärksten SKUs wieder ein Stück nach oben wandert. Aktuell ist bei 165 Watt im klassischen x86-Bereich Schluss, Ende 2017 würde es mich nicht wundern, wenn es einzelne Modelle auf 200 Watt und mehr bringen.
Mit heutigem Stand der Forschung wäre es denke ich auch möglich, durch Änderung der Transistoren bis an die 6 GHz oder vielleicht sogar ein Stückchen darüber hinaus zu kommen, wenn man statt auf höchste Effizienz eher auf höchsten Takt entwickeln und fertigen würde. Das würde aber halt nur kaum jemand mehr kaufen.
____________________
Ja, die Grundarchitektur ist schon ziemlich gut optimiert. Ein absolutes Killer-Feature, was auf einmal 100% mehr Performance bringt, ist nicht in Sichtweite. Und auch die Taktrate wird man wie bis zum Ende der P3/P4-Ära nicht ständig beliebig mit jeder neuen Fertigung nach oben treiben können. Würde man aber den Faktor der Kostenoptimierung (Gewinnmaximierung) ausblenden, geht da m.E. aber noch etwas.