der ablauf ist immer der gleiche. die cpu bereitet ggf daten im arbeitsspeicher vor und die gpu nimmt sich die daten aus dem arbeitsspeicher, bzw. sie werden in den graka-speicher geladen. und ab da rechnet die gpu vollkommen autonom auf den daten rum.
da ist nix mit cpu-gpu-kommunikation. hier direkt im nachbarbüro wird genau das gemacht. ich kann ja gern die kollegen herholen, dann kannst du denen ja mal was von cpu-gpu kommunikation bei opencl und cuda erzählen.
edit: deswegen ist derzeit kein nennenswerter performancegewinn durch die verlagerung des gpukerns in den cpu-block zu erwarten.
Die Latenzen sinken durch die direkte Anbindung einer Grafikkarte an den internen CPU-Bus. Bei den Atoms wurde dies ja nicht gemacht (immer noch FSB-Anbindung), aber soweit ich das Datenblatt der i3 und i5 (glaube beide haben ja eine integrierte Grafikkarte mittlerweile) richtig gedeutet habe, wird diese direkt über die QIP angesteuert. Dies sollte die Latenz insbesondere beim Zugriff auf den Hauptspeicher im zehnerpotenzbereich senken. Vorallem da der Speichercontroller ja in der CPU sitzt. Aehnliches ist bei AMD auch zu erwarten (da wirds halt HT-Link genannt). Dies muss nicht unbedingt bedeuten, dass mehr Performance am Bildschirm ankommt, sondern dass einfach weniger Takt fuer die gleiche Rechenleistung benoetigt wird. Dies waere fuer eine IGP doch schon ein enormer Fortschritt. Effizienz ist hier das Zauberwort. Wer absolute Raw-Power braucht benutzt doch sowieso Dedizierte Grafikkarten.
Bei den IGPs ist doch Effizienz und Produktionskosten allem anderen vorran gestellt. Und da sehe ich schon eindeutig eine positive Entwicklung. Ob nun viel GPGPU-Computing durch den Einsatz von IGPs dazukommt, oder nicht, ist doch 2t rangig. Ist ja nicht so, dass eine regulaere CPU mit x64 Befehlssatz eine absolute ueberforderte Krueke ist.
Kurze Frage; was beschreibt eigentlich die Packungsdichte? Die Anzahl der Transistoren bezogen auf die Fläche des DIEs? Wäre bei gleichem Abstand zu den Transistoren, und mehr Transistoren pro Fläche - da gestapelt - nicht eben doch eine höhere Packungsdichte gegeben?
Die Thematik der "gestapelten" Transistoren will ich mal aussen vorlassen, weil sie mit der eigentlichen Frage nichts zu tun hat. Aber nur kurz: generell werden Transistoren lateral gebaut.
Es gibt eine absolute Packungsdichte, also wieviele Transistoren/mm² und eine relative Transistorabstand/Strukturgroesse.
Ersteres Beschreibt in erster Linie die Die-Flaeche, und hat enormen Einfluss auf den Stromverbrauch, sowie Takt/Spannungsverhaeltnis.
Der relative Abstand zwischen Transistoren (das beinhaltet auch die Leitungslänge) ist der entscheidende Faktor fuer Latzenzen. Ganz einfach, weil Spannungsimpulse sich sehr langsam durch die Leiterbahnen bewegen und genau deswegen muessen Wartezyklen eingehalten werden (typische Angabe bei SD-Ram Modulen cl7, cl8 etc...). Durch dichtes Packen (incl kurzer Datenleitungen) koennen Latenzen deutlich gesenkt werden.
Schoen zu sehen beim Die-Shrink bei Intel und AMD. Bei Intel wurde ein anderes Cache-Layout gewählt (relativ-dichter), was direkt ein einem deutlichen Performanceschub messbar war (ich denke damals waren das ca. 7-10% beim C2D bzw. C2Q)... beim Shrink des Phenoms war die Rechenleistung/Takt aber nicht gestiegen (einfacher Shrink, kein neues Layout). Legendlich der Takt konnte angehoben werden (allgemein kuerzere Routingwege in der CPU = mehr Takt bei gleicher Spannung da v(elektron) gleich bleibt), und der Stromverbrauch sank (weniger Betriebsspannung bei gleichem Takt notwendig).
Die Cache-Latenzen blieben jedoch gleich. Aehnliches ist ebenfalls beim Shrink der Radeon Familie oder der GTX Familie zu beobachten gewesen.
Deswegen muss man deutlich unterscheiden zwischen Shrink und Packungsdichte.
Eine hohe Packungsdichte ist aber generell nicht unproblematisch. Hier sind Leckstroeme zwischen 2 Transistoren, massive Migration von Legierungen, induktivitaeten etc. ein viel groesseres Problem, wie wenn man mehr Platz laesst.
Ich hoffe, das hat ein wenig mehr Klarheit geschaffen.