Sun_set_1 schrieb:
Intel wollte bei der sowieso schon relativ komplizierten P/E Architektur, Kosten für teure TSMC-DIE Fläche einsparen in dem sie keinen Sheduler verbauen müssen, der zwischen P¹,P² E¹,E² vernünftig aufteilen kann. Anschließend erzählt einem die Marketingabteilung, dass man HT bei x86 ja gar nicht mehr benötige.
Ich denke, das ist es auch nicht, so viel Flaeche kostet das nicht. Einen kleinen Vorteil in der Mikroarchitektur wird's aber schon geben.
Als Gruende fallen mir ein paar ein, und der Artikel liefert einige Argumente, um diese Gruende zu bewerten:
Diese Desktop-CPUs haben P- und E-Kerne, waehrend die Server (die SMT (alias HT) haben) das nicht haben. Jetzt verteilst Du weitgehend sequentielle Aufgaben auf die P-Kerne, und weitgehend parallelisierbare auf die E-Kerne (und dann auf noch freie P-Kerne). Mit SMT koenntest Du die parallelisierbaren Sachen auf noch mehr Threads aufteilen und dafuer die SM-Threads der P-Kerne verwenden, aber das wuerde die sequentiellen Threads richtig langsam machen (langsamer als auf einem E-Kern: 16 Threads mit SMT auf P-Kernen sind 936 Punkte (plus ein bisschen fuer Lion Cove, also vielleicht 1000 Punkte), 16 Threads auf E-Kernen sind 1444-(936/8)=1327 Punkte. Die Verlangsamung der sequentiellen threads willst Du eher nicht haben. Die Werte sind bei 4GHz, aber so viel hoeher wird's nicht gehen, wenn alle Kerne ausgelastet sind (und mit SMT erst recht nicht). Wenn Du so gut parallelisierbare Sachen laufen lassen willst, dass Du alle Kerne mit SMT auslastest, verkauft Dir Intel sicher gerne einen Server-Prozessor mit noch mehr Kernen und (bei P-Kernen) SMT.
Ein weiterer Punkt ist die Effizienz: Die 16 E-Kerne brauchen 99-(66/8)=91W fuer die 1327 Punkte (14.6Punkte/W), die 8 P-Kerne brauchen 66W fuer 769 Punkte (11.7Punkte/W); das ist jeweils bei 4GHz, aber wenn Du bei den P-Kernen den Takt steigerst, sinkt die Effizienz weiter; im Power Limit musst Du dann die E-Kerne niedriger takten, um die P-Kerne hoeher zu takten, das waere aber noch schlechter fuer die Effizienz. Das Einschalten von SMT scheint an der Effizienz wenig zu aendern, wenn man sich die Ergebnisse des 14900K anschaut.
Wenn wir jetzt davon ausgehen, dass wir fuer maximalen Durchsatz lieber die E-Kerne mit maximalem Takt (4.6GHz beim 285K) laufen lassen, wieviel vom Power Limit bleibt dann noch fuer die P-Kerne uebrig? Gibt's in diesem Szenario wirklich einen Durchsatz-Vorteil vom SMT bei den P-Kernen? Ich kann mir gut vorstellen, dass es keinen gibt.