News AMD gibt Details zu 32-nm-CPUs preis

Dese schrieb:
cpu und gpu hat nichts direkt miteinander zu kommunizieren, egal ob der gpu kern in der cpu sitzt oder nicht. und was hat der derzeitige trend damit zu tun?

Der dertzeitige Trend ist, dass man nicht nur Grafik mit GPU berechnet, sondern die GPU auch für andere Aufgaben nutzt. Mit OpenCL wandern serielle Aufgaben auf den CPU-Kern, Datenparalle aufgaben auf dem GPU-Kern. Die komplette Lösung des Problems liefern beide Kerne...

http://www.hardware-infos.com/bild....ame=ATI+Stream:+Entwicklung+und+Unterstützung
 
das ist mir schon klar silent-efficiency. nur hat da die cpu immer noch nicht viel mit der gpu DIREKT zu kommunitieren. da ist kein unterschied obs 3d-berechnungen sind oder sonst was.

der ablauf ist immer der gleiche. die cpu bereitet ggf daten im arbeitsspeicher vor und die gpu nimmt sich die daten aus dem arbeitsspeicher, bzw. sie werden in den graka-speicher geladen. und ab da rechnet die gpu vollkommen autonom auf den daten rum.

da ist nix mit cpu-gpu-kommunikation. hier direkt im nachbarbüro wird genau das gemacht. ich kann ja gern die kollegen herholen, dann kannst du denen ja mal was von cpu-gpu kommunikation bei opencl und cuda erzählen.

edit: deswegen ist derzeit kein nennenswerter performancegewinn durch die verlagerung des gpukerns in den cpu-block zu erwarten.
 
@silent-efficiency:
Aber macht dies deine Behauptungen richtiger? Ich finde nicht, vor allem nach dem ich den Post von Abolis gelesen habe.

Kurze Frage; was beschreibt eigentlich die Packungsdichte? Die Anzahl der Transistoren bezogen auf die Fläche des DIEs? Wäre bei gleichem Abstand zu den Transistoren, und mehr Transistoren pro Fläche - da gestapelt - nicht eben doch eine höhere Packungsdichte gegeben?

Im übrigen witzig das du nun noch den Vergleich zu Intel negativ bewertest; umgekehrt wäre das doch bestimmt völlig legitim.
 
milamber! schrieb:
Wäre bei gleichem Abstand zu den Transistoren, und mehr Transistoren pro Fläche - da gestapelt - nicht eben doch eine höhere Packungsdichte gegeben?

Ich hab es schon mal erklärt. Die Transistoren werden nicht gestapelt, sie befinden sich stets auf der Oberfläche bei den CPUs. In den untereren Lagen sind nur die Zuleitungen.
 
Zuletzt bearbeitet:
kleine ergänzung: sofern der arbeitsspeicher keine bremse im vergleich zum modernen graphikartenspeicher darstellt, kann es einen vorteil geben bei der integration der gpu im cpu-kern: sie greifen auf den gleichen speicher geminsam zu, was das umkopieren von und zu dem graka-speicher überflüssig macht.

das ist allerdings ohnehin eine seltene operation, und darüber hinaus nur dann ein vorteil es wegzulassen, wenn der arbeitspeicher ähnlich schnell ist, wie der graka-speicher.

da das aber nur am anfang und am ende eines grossen berrechnugnsblocks auf der gpu geschieht trägt es kaum zur gesamtleisuntg bei.
 
Was die Sache aber erheblich verbessern sollte ist die Tatsache das die GPU wohl nun direkt auf den Hauptspeicher zugreifen kann ohne erst einen "Umweg" die Northbridge, den im Vergleich zur Speicherbandbreite schmalen HT-Link-Bus usw.
Das sollte auch die Latenzen beim Zugriff auf den Speicher minimieren.

Und wer weiß ob die GPU beim Llano mit der CPU nicht noch über einen extra Cache direkt Daten austauschen kann?
 
Dese schrieb:
der ablauf ist immer der gleiche. die cpu bereitet ggf daten im arbeitsspeicher vor und die gpu nimmt sich die daten aus dem arbeitsspeicher, bzw. sie werden in den graka-speicher geladen. und ab da rechnet die gpu vollkommen autonom auf den daten rum.

Die Daten werden nicht im Arbeitsspeicher gespeichert, sondern per PCIe von der CPU an die GPU gesendet. Lynnfield hat den PCIe-Controller direkt auf dem CPU-Die und schickt die Daten damit direkt an die GPU. Wenn man die GPU näher an die CPU anbindet, könnte die GPU die Daten auf einem noch direkterem Weg von der CPU erhalten. Die Grafikkarte gibt ihre Bildsignale über Displayport oder HDMI an den Monitor weiter. Eine GPU die etwas anderes als Bildsignale für den Monitor berechnet muss die Daten hingegen entweder in den Arbeitsspeicher speichern oder zur weiteren berechnen durch die CPU eben an die CPU schicken...

milamber! schrieb:

ist so, deswegen werden die unteren Lagen auch "Kupferlagen" genannt, weil die Leitungen aus Kupfer bestehen, falls du das bis jetzt nicht einordnen konntest ;)
 
Zuletzt bearbeitet:
@mav82

Das hier war Eissfeldts behauptung. Nicht ich habe gesagt, dass ein S-775 am Ende sei.
JanEissfeldt schrieb:
Häh? :stacheln:
Der 775 ist am Ende und wurde von 1156 abgelöst. 1366 ist der nachfolger des 771!

Dementsprechend:
mav82 schrieb:
@MacPok

Weil der S-775 noch (lange) nicht tot ist! Oder hat Intel das jemals vermelden lassen, einen Termin bis zum letzten ausgelieferten Prozzi vermeldet, einen Termin bis zur letzetn Neuerscheinung usw.? Nein. Macht für Intel schließlich auch keinen Sinn.

Habe ich was anderes behauptet? (Bitte Quote als nachweis, falls doch)
Damit auch du weisst worum es geht, lies dir bitte die letzten beiden Seiten des Freds hier durch.
Dein Gewitter sollte über JanEissfeldt einpreschen und nicht über mir.


JanEissfeldt schrieb:
WEil weiter ordentlich damit Geld gemacht werden kann, vor allem bei den OEMs! :evillol: Oder gab es beim am3 etwa nach einem halben jahr nach Einführung schon bessere Marktanteile? :D [...]

Weil es geht! [...]

Ist doch logisch!:lol:

Verbrenn dir mit diesem Satz nicht die Finger. Denn deine Argumentation ist nicht zu deinen vorherigen Posts schlüssig und somit ganz fern ab von logisch.

Auf dem naiven Standpunkt herumzureiten Intel führe derzeit nur einen WS-Sockel, weil LGA 775 tot sei und LGA 1366 ausschließlich für Server (habe ich dementsprechend widerlegt), und in einem Atemzug dann mit Pro-Argumenten zu kommen, wie "die gibts noch, weil da noch Geld zu holen ist" und andererseits mit mit nichtssagenden Floskeln wie "Weil es geht", zollt nicht gerade von Objektivität.


JanEissfeldt schrieb:
Nee, für 775 gibts ja schon keine 32nm Chips. Der Sockel stirbt nun, wie auch die Voraussagen von INTEL zeigen für Q1/2010. :evillol:

Und andererseits stellt Intel dem die Aussage gegenüber, dass der Sockel das Mainstreamsegment (noch) bedienen wird.
Aber darum gings nicht. Es geht doch darum wie die zwei gegenwärtig aufgestellt sind. Da kann ich nicht Zukunft und Vergangenheit ineinanderführen, zumal man so nicht zu objektiven Ergebnissen kommt.

Also mein Fazit bleibt stehen:
Intel führt derzeit drei Desktop-Sockel, zumal für jeden dieser Sockel Desktop-Prozessoren verfügbar sind und es auch noch für jeden dieser Sockel Desktop-Neuerscheinungen gibt.


N Kleiner Tipp noch: Benutz mal weniger Smylies und bleib dafür sachlicher.
 
Zuletzt bearbeitet:
der ablauf ist immer der gleiche. die cpu bereitet ggf daten im arbeitsspeicher vor und die gpu nimmt sich die daten aus dem arbeitsspeicher, bzw. sie werden in den graka-speicher geladen. und ab da rechnet die gpu vollkommen autonom auf den daten rum.

da ist nix mit cpu-gpu-kommunikation. hier direkt im nachbarbüro wird genau das gemacht. ich kann ja gern die kollegen herholen, dann kannst du denen ja mal was von cpu-gpu kommunikation bei opencl und cuda erzählen.

edit: deswegen ist derzeit kein nennenswerter performancegewinn durch die verlagerung des gpukerns in den cpu-block zu erwarten.

Die Latenzen sinken durch die direkte Anbindung einer Grafikkarte an den internen CPU-Bus. Bei den Atoms wurde dies ja nicht gemacht (immer noch FSB-Anbindung), aber soweit ich das Datenblatt der i3 und i5 (glaube beide haben ja eine integrierte Grafikkarte mittlerweile) richtig gedeutet habe, wird diese direkt über die QIP angesteuert. Dies sollte die Latenz insbesondere beim Zugriff auf den Hauptspeicher im zehnerpotenzbereich senken. Vorallem da der Speichercontroller ja in der CPU sitzt. Aehnliches ist bei AMD auch zu erwarten (da wirds halt HT-Link genannt). Dies muss nicht unbedingt bedeuten, dass mehr Performance am Bildschirm ankommt, sondern dass einfach weniger Takt fuer die gleiche Rechenleistung benoetigt wird. Dies waere fuer eine IGP doch schon ein enormer Fortschritt. Effizienz ist hier das Zauberwort. Wer absolute Raw-Power braucht benutzt doch sowieso Dedizierte Grafikkarten.
Bei den IGPs ist doch Effizienz und Produktionskosten allem anderen vorran gestellt. Und da sehe ich schon eindeutig eine positive Entwicklung. Ob nun viel GPGPU-Computing durch den Einsatz von IGPs dazukommt, oder nicht, ist doch 2t rangig. Ist ja nicht so, dass eine regulaere CPU mit x64 Befehlssatz eine absolute ueberforderte Krueke ist.

Kurze Frage; was beschreibt eigentlich die Packungsdichte? Die Anzahl der Transistoren bezogen auf die Fläche des DIEs? Wäre bei gleichem Abstand zu den Transistoren, und mehr Transistoren pro Fläche - da gestapelt - nicht eben doch eine höhere Packungsdichte gegeben?

Die Thematik der "gestapelten" Transistoren will ich mal aussen vorlassen, weil sie mit der eigentlichen Frage nichts zu tun hat. Aber nur kurz: generell werden Transistoren lateral gebaut.
Es gibt eine absolute Packungsdichte, also wieviele Transistoren/mm² und eine relative Transistorabstand/Strukturgroesse.
Ersteres Beschreibt in erster Linie die Die-Flaeche, und hat enormen Einfluss auf den Stromverbrauch, sowie Takt/Spannungsverhaeltnis.
Der relative Abstand zwischen Transistoren (das beinhaltet auch die Leitungslänge) ist der entscheidende Faktor fuer Latzenzen. Ganz einfach, weil Spannungsimpulse sich sehr langsam durch die Leiterbahnen bewegen und genau deswegen muessen Wartezyklen eingehalten werden (typische Angabe bei SD-Ram Modulen cl7, cl8 etc...). Durch dichtes Packen (incl kurzer Datenleitungen) koennen Latenzen deutlich gesenkt werden.

Schoen zu sehen beim Die-Shrink bei Intel und AMD. Bei Intel wurde ein anderes Cache-Layout gewählt (relativ-dichter), was direkt ein einem deutlichen Performanceschub messbar war (ich denke damals waren das ca. 7-10% beim C2D bzw. C2Q)... beim Shrink des Phenoms war die Rechenleistung/Takt aber nicht gestiegen (einfacher Shrink, kein neues Layout). Legendlich der Takt konnte angehoben werden (allgemein kuerzere Routingwege in der CPU = mehr Takt bei gleicher Spannung da v(elektron) gleich bleibt), und der Stromverbrauch sank (weniger Betriebsspannung bei gleichem Takt notwendig).

Die Cache-Latenzen blieben jedoch gleich. Aehnliches ist ebenfalls beim Shrink der Radeon Familie oder der GTX Familie zu beobachten gewesen.

Deswegen muss man deutlich unterscheiden zwischen Shrink und Packungsdichte.

Eine hohe Packungsdichte ist aber generell nicht unproblematisch. Hier sind Leckstroeme zwischen 2 Transistoren, massive Migration von Legierungen, induktivitaeten etc. ein viel groesseres Problem, wie wenn man mehr Platz laesst.

Ich hoffe, das hat ein wenig mehr Klarheit geschaffen.
 
@fence: direkt vor deinem post habe ich erklärt, warum der direkte zugrif auf dem arbeitsspeicher kein vorteil ist, sondern lediglich ein gleichweirteger ersatz für den graka-speicher.

@silent-efficiency: hast du meinen letzten post nicht gelesen? es ist scheiss egal woher die graka die daten bekommt und ob sie sie etwas schneller bekommt.

ich weiderhole in teilen meinen letzten post:

derzeitiges szenario: cpu bearbeitet arbeitsspeicher, cpu schiebt daten aus arbeitsspeicher in grakaspeicher - gpu arbeitet auf grakaspeicher
neues szenario: cpu bearbeitet arbeitsspeicher, graka bearbeitet arbeitsspeicher.

unterschied: das hin und herschieben zwischen arbeitsspeicher und grakaspeicher fällt ggf weg.

vorteil: einzig vor und nach beginn der berechnungen und auch nur dann, wenn der arbeitsspeicher selbst im zweiten szenario nicht sogar behidnert, weil langsamer als der grakaspeicher.

ausmass des vorteils: SEHR GERING!
warum? weil gemessen an der gesamtarbeit die auf die gpu geschoben wird das so gut wie nix ist. die gpu ist ein parallelrechner und dieser macht nur dann sinn, wenn man ihm verdammt viel zu rechnen gibt. sonst ist meist eine squentielle berrechnung immer noch flotter. und bei der menge die erst sinn macht, macht das zweimalige umkopieren von dem einen speicher in den anderen NIX aus.

direkter zugriff auf cpu cache? macht keinen sinn. gibt keine verwendung dafür. die gpu sollte ihren eigenen cahce haben. daten über den cach-auszutauschen macht keinen sinn, weil wir dann von einer zu geringen menge reden. die parallelberechnungen für die gpu müssen um überhaupt sich auszuzahlen weitestgehen autonom laufen.
 
Ach ja, kleiner Anhang:

Die "Kuperlagen" sind das Backend, die Transitorlage das Frontend. Also es werden erst die Transistoren prozessiert... dann kommt das Backend. Beides hat eigentlich herzlich wenig miteinander zu tun, da die CPU auch ohne Backend funktioniert, und das Backend sowieso keinen Einfluss auf die Performance hat.

Nur die Produktionskosten koennen davon beinflusst werden. Also ist das Backend so interessant wie ein Telefonbuch. Man brauchts halt, aber mehr auch nicht ;)
 
im übrigen ist gerade beim gpu-computing eher ein leistungseinbruch zu erwarten, da auf modernen graphikkarten der speicher wesentlich effektiver an die rechenanheiten angebunden ist, als der arbeitsspeicher an die cpu. d.h. was open-cl berrechnungen an geht sollte man im moment z.m. noch von einer schlechteren performance ausgehen.
 
Ok, dann wird mir jetzt zumindest klar warum auf die Äusserung bezüglich direkter Veringerung auseinander genommen wurde, ich bin davon ausgegangen, das die Transistoren auf den Lagen gestalpelt sind. Das sie mehr zur Verknüpfung der Transistoren dienen hab ich dann auch nochmal hier gelesen; http://www.andreas-schwope.de/ASIC_s/Aufbau/Aufbau-Routing/body_aufbau-routing.html

Wobei mir ohne Antwort von Volker noch nicht klar ist, warum das eine Auswirkung auf die Die-Fläche haben soll, er wird für die Aussage ja auch einen Grund gehabt haben.

Auch versteh ich immer noch nicht die Behauptung der geringeren Anzahl der Wafer pro Stunde, welche ja zumindest laut Abolis nicht relevant wären. Oder weisst du wieviel Zeit es erfordert die zwei Lagen pro Wafer mehr aufzutragen?
Ebenso versteh ich den Vergleich mit Intel und QPI im ersten Post nicht; muß im Llano im Gegensatz zum Clarkdale nicht eh über den Speichercontroller, wo er ja die Grafikeinheit afaik direkt integriert, und der Clardale 'nur' eine GPU neben der CPU sitzen hat?
 
milamber! schrieb:
Auch versteh ich immer noch nicht die Behauptung der geringeren Anzahl der Wafer pro Stunde, welche ja zumindest laut Abolis nicht relevant wären. Oder weisst du wieviel Zeit es erfordert die zwei Lagen pro Wafer mehr aufzutragen?

Dreisatz:
9 Lagen dauern x Zeiteinheiten
1 Lage dauert x/9 Zeiteinheiten
11 Lagen dauern x/9*11 Zeiteinheiten

=> man braucht 11/9 an Zeit, also 1,2 mal so viel Zeit.

Ein Wafer verbringt mehre Monate in der Fertigungsstraße, habe ich letztens irgendwo gehört, so klein können die Zeiteinheiten also nicht sein. Wenn jemand etwas genaueres weiß, kann dieser jemand meine Aussage ja ergänzen.
 
Zuletzt bearbeitet: (korrektur)
Danke für den Dreisatz, eine solche Milchmädchenrechnung wollt ich heute auch schon aufstellen, und kam am Ende auf 180.000 CPUs pro 24 Stunden, aber das ist sicher nicht richitg.

Hier ist von 20-180 Wafern die Rede. Stellt sich nun die Frage wieviel Einfluss x/9*12 Zeiteinheiten auf so eine CPU nehmen, einen Aufkleber auf die Grafikkarte zu kleben wird die Karte ja auch nur Unverhältnismäßíg teurer machen. :)

Daher die Frage nach der RELEVANZ.

@Abolis, nochmal danke für die Ausführliche Erklärung.
 
Dreisatz:
9 Lagen dauern x Zeiteinheiten
1 Lage dauert x/9 Zeiteinheiten
11 Lagen dauern x/9*11 Zeiteinheiten

=> man braucht 11/9 an Zeit, also 1,2 mal so viel Zeit.

Nochmal, AMD will doch nicht x Anzahl an Wafern/Monat produzieren... sondern x Anzahl von CPUs. Kleinere CPUs (also mehr pro Wafer), ein paar Bearbeitungsschritte mehr... sollte den Output an CPUs/Monat relativ gleich halten... vielleicht sogar steigern. Aber das ist reine Spekulation. Keine Ahnung wieso eine Waferanzahl/Monat in irgendeiner Form relevant für den Output einer Fab sein sollte? Reicht doch auch ein Wafer/Monat, solange der Bedarf an CPUs gedeckt werden kann.

Ausserdem gehts hier nur ums Backend. Das ist quasi trivial im Vergleich zum Frontend. 2 Cu Lagen mehr? ... Das sind mit Polishing vielleicht 12-16 Prozessschritte mehr... in einer gut getakteten Fab sind das womöglich 1-2 Tage Durchlaufzeit. Wenn überhaupt.

Leider habe ich nicht den direkten Vergleich, da wir zum einen keine Siliziumprodukte herstellen sondern GaAs und GaN, und zum anderen weil wir eher kein Massenhersteller sind. Aber wir haben Durchlaufzeiten von ca. 6-8 Wochen/Wafer. Ich kann mir nicht vorstellen, dass GF derartig lange Durchlaufzeiten hat. Die haben schliesslich nur eine Handvoll Produkte, und sind auf Output ausgelegt.(im Vergleich, wir haben ca. 1200 Verschiedene Produkte, mit entsprechendem Umrüstaufwand)
Ich würde auf ca. 4 Wochen Durchlaufzeit tippen.

Ebenso versteh ich den Vergleich mit Intel und QPI im ersten Post nicht; muß im Llano im Gegensatz zum Clarkdale nicht eh über den Speichercontroller, wo er ja die Grafikeinheit afaik direkt integriert, und der Clardale 'nur' eine GPU neben der CPU sitzen hat?
Also genau kenne ich die Architekturen nicht. Aber soweit ich weiss ist der QPI der interne Bus welcher beim Clarkdale die Cores etc verbindet. Dieser Bus wird aber von der IGP nicht verwendet, sondern direkt eine PCIe Anbindung. Von daher ist dies nicht unbedingt so schnell (unterscheidet sich eigentlich kaum von einer Steckkarte, ausser halt, dass es billiger ist).... der Rest verhällt sich wie üblich. CPU stellt den Speicherkontroller zur Verfuegung etc...
Wenn ich die AMD-Roadmap richtig verstanden habe, dann soll die IGP tatsächlich am HT-Link hängen. Also direkten Zugriff auf den Speichercontroller haben. Was in deutlich niedrigeren Latenzen muenden sollte. Obs ein Vorteil ist, muss sich noch zeigen. Aber auf dem Papier waere einer da.

Aber falls ich mich hier irre, bitte berichtigen. So genau hab ich mich in den Clarkdale nicht eingelesen
 
Abolis schrieb:
Kleinere CPUs (also mehr pro Wafer), ein paar Bearbeitungsschritte mehr... sollte den Output an CPUs/Monat relativ gleich halten...
Das kommt doch darauf an, um wie viel die CPUs kleiner werden, wenn überhaupt, durch die zusätzlichen Kupferschichten.
Intel hat eine sehr gute Packungsdichte. Meinst du, die könnten mit mehr Kupferschichten, da noch was dran verbessern? Das bezweifle ich doch mal sehr stark.
 
Dese schrieb:
kleine ergänzung: sofern der arbeitsspeicher keine bremse im vergleich zum modernen graphikartenspeicher darstellt, kann es einen vorteil geben bei der integration der gpu im cpu-kern: sie greifen auf den gleichen speicher geminsam zu, was das umkopieren von und zu dem graka-speicher überflüssig macht.

das ist allerdings ohnehin eine seltene operation, und darüber hinaus nur dann ein vorteil es wegzulassen, wenn der arbeitspeicher ähnlich schnell ist, wie der graka-speicher.

da das aber nur am anfang und am ende eines grossen berrechnugnsblocks auf der gpu geschieht trägt es kaum zur gesamtleisuntg bei.

Schonmal auf die Idee gekommen, dass die GPU dann direkt auf den Cache zugreifen könnte?
Aber du siehst ja keinen Vorteil...:rolleyes:
 
Das kommt doch darauf an, um wie viel die CPUs kleiner werden, wenn überhaupt, durch die zusätzlichen Kupferschichten.
Intel hat eine sehr gute Packungsdichte. Meinst du, die könnten mit mehr Kupferschichten, da noch was dran verbessern? Das bezweifle ich doch mal sehr stark.

Mir fehlen viel zu viele Informationen um sowas beurteilen zu koennen. Angefangen von den verwendeten Prozessen, die Anlagen etc...
Aber prinzipiell ist der Ansatz nicht verkehrt. Im einfachen Backend mehr Komplexität (hier entstehen deutlich weniger Kosten), um eine höhere Die-Dichte zu erreichen.

Und ob nun die Packungsdichte unbedingt besser ist bei Intel im Vergleich zu AMD sei mal dahingestellt. Sie ist dichter, mehr auch nicht.
Man sieht das eigentlich recht schon am Vergleich Ph2 vs. i7 oder i5 oder C2Q... AMD skaliert deutlich besser mit dem Takt (robustere Lev3 Cache-Anbindung)... aber auch hier, besser ist relativ.

Im Ende gehts doch nur darum, ob der Kunde ein gutes Produkt erhaellt (das ist bei beiden gegeben), und ob dieses Produkt kostendeckend hergestellt werden kann (ich denke das AMD auch hier den Turn-Around geschafft hat). Alles andere ist größtenteils Äpfel mit Birnen zu vergleichen.
Die Architekturen und Ansätze sind einfach zu unterschiedlich. Oft habe ich den Eindruck, Intel ist besser auf der Prozessebene, AMD hat das clevere Layout... und unterm Strich sind sie irgendwie gleich.
Aehnlich wie ATI und nVidia... viele Wege fuehren zum selben Ziel
 
Zurück
Oben