Bericht Bericht: Nvidia GF100: Technische Details

quaiky · 19. Januar 2010

Lübke schrieb:
es geht darum, dass die produktion ganz einfach umgestellt werden kann und im falle der untersten fermi-lösung einfach ein sechzentel-chip (kleinste rendundante einheit des fermi) + nichtrendundanten teil produziert werden kann.

hab das aufs verschnitt prinzip mit deaktivierten teilen bezogen.
das es möglich ist 1/16 chip + nichtredundanten teil herzustellen ist klar, aber dafür muss auch wieder eine extra maske hergestellt werden, die dann tapeout und tests braucht. ist also zwar sicher leichter für der erstellung der masken und spart bei dem schritt warscheinlich zeit, aber der rest kette von ersten silizium bis zur serienfertigung wird nicht wirklich beschleunigt

JokerGermany · 19. Januar 2010

Meriana schrieb:
Interessant ist vorallem die Frage: 32nm RV870 Variante ja /nein und wenn ja ab wann.

Die Frage ist wirklich interessant, gerade da die neue HD6XXX Serie ja eigentlich schon bald kommt.
Ich glaube, dass wenn eine kommt in 32/28nm, dann wird es so eine "Testgraka" wie die HD4770 werden. Einfach um das neue Verfahren mal zu testen.

Meriana · 19. Januar 2010

weiss wer schon Details zu der HD6XXX? Ev. wird ja AMD nen 32nm shrink des RV870 als 6000er Reihe verkaufen.

AMD wird auf jedenfall versuchen, etwas zu bringen, was zumindest PR-mässig Nvidia den Wind aus den Segeln nimmt.

Lübke · 19. Januar 2010

@quaiky: ich denke schon, dass man sich das gros der entwicklung sparen kann, da es sich schlicht immer um den gleichen chip handelt. lediglich die maske muss angepasst werden. das ist der vorteil am baukastenprinzip. wenns mit 16 identischen bausteinen geht, gehts auch mit 8, 4, 2 oder einem.

klar ist das jetzt stark vereinfacht dargestellt, aber es muss kein neuer chip aus der bestehenden architektur entwickelt werden. das prinzip entspricht imho ein bisschen dem, was man eigentlich atis r800 nachgesagt hatte: beliebig viele "gpus" auf einer die lassen aus einem chip eine beliebig starke gpu machen.

Fetter Fettsack · 19. Januar 2010

klar ist das jetzt stark vereinfacht dargestellt, aber es muss kein neuer chip aus der bestehenden architektur entwickelt werden. das prinzip entspricht imho ein bisschen dem, was man eigentlich atis r800 nachgesagt hatte: beliebig viele "gpus" auf einer die lassen aus einem chip eine beliebig starke gpu machen.

Mit beliebig großem Stromverbrauch?^^
Ich wage zu unterstellen, dass man das nur dann machen kann, wenn man im Gegenzug die Strukturgröße verringert oder sonstige stromsparende Maßnahmen setzt, da man ansonsten vor einem Problem, dass sich momentan 300Watt-Grenze nennt, steht.

(war jetzt kein Angriff, Lübke,, ich wollte nur ein wenig spitzfindig sein

)

Complication · 19. Januar 2010

Lübke schrieb:
es geht darum, dass die produktion ganz einfach umgestellt werden kann und im falle der untersten fermi-lösung einfach ein sechzentel-chip (kleinste rendundante einheit des fermi) + nichtrendundanten teil produziert werden kann.

Nein das geht eben nicht so einfach wie es auf den ersten Blick aussieht.
Die Fermi benötigt eine Mindestanzahl an SM-Einheiten und das sind 4 die eine GPC bilden - sie benutzen alle eine einzige Raster Engine. Also geht es schon mal nicht kleiner zu skalieren.
Hinzu kommt der Level 2 Cache, ohne den das ganze Design des Fermi gar keinen Blumentopf gewinnen kann. 2 GPC werden da mindestens benötigt um überhaupt einen Sinn im L2 Cache zu haben, da der Fermi aus der Out-of-Order (OoO) Technik seine Performance zieht.

Dann kommt hinzu dass eine Mindestanzahl an polymorphen Engines benötigt wird um auch nur in die Nähe der Performance einer separaten Tessellation Einheit zu kommen - nicht vergessen die Tessellation Einheit ist selbst auf der kleinsten HD5xxx Karte gleich gross und schnell, während die Fermi immer langsamer wird beim skalieren. Es ist nicht möglich in dieser Struktur 16 Tessellatoren gleichzeitig laufen zu lassen, da sie eben doch ihre taktzeiten teilen müssen mit den anderen Bausteinen der Polymorphen Einheiten. Anand hat das sehr gut analysiert:
http://www.anandtech.com/video/showdoc.aspx?i=3721&p=2

While the PolyMoprh Engine may sound simple in its description, don’t let it fool you. NVIDIA didn’t just move their geometry hardware to a different place, clone it 15 times, and call it a day. This was previously fixed-function hardware where a single unit sat in a pipeline and did its share of the work. By splitting up the fixed-function pipeline like this, NVIDIA in actuality created a lot of work for themselves. Why? Out of order execution.

OoO is something we usually reserve for CPUs, where high-end CPUs are built to execute instructions out of order in order to extract more performance out of them through instruction level parallelism. OoO is very hard to accomplish, because you can only execute certain instructions ahead of other ones while maintaining the correct result for your data. Execute an add instruction that relies on a previous operation before that’s done, and you have problems. GF100 isn’t a full OoO design, so we’re not going to cover OoO in-depth here, but if you’d like to know more please see this article.

Ich empfehle hierzu zum Verständnis der Out-of-Order Prozesse diesen sehr gut erklärten Artikel auf den er auch dort verweist, wo dies am Beispiel des Cell-Prozessor erklärt wird: http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2379&p=7

Das Fazit finde ich sehr treffend auf den Punkt gebracht. Es wird wohl wenn es um FPS in Games geht, alles auf die Taktfrequenz ankommen, die bestimmt wie schnell die parallelen Einheiten ihre Aufgaben abarbeiten können oder wie lange sie auf andere Prozesse warten müssen.

NVIDIA has shown their cards, and they’re all in. Now in the next couple of months we’ll see if they’re bluffing or if they really have what it takes to win. Stay tuned.

danko71 · 19. Januar 2010

Neo_Xsendra schrieb:
wenn der chip wirklich nach diesem "verschnitt prinzip" verkauft werden kann, könnte NV tatsächlich:
1. einen launch über die komplette palette auf einmal durchziehen
und
2. die karten dank einem 90-100% yield doch sehr günstig werden

EDIT 2: stimmt denkfehler ... aber trotzdem würde ich dann noch auf 85-95% tippen

oder seh ich das falsch? -.^

Ja denn es wäre total unwirtschaftlich.
NV wird wie AMD auch die kleineren Chips extra fertigen und damit den Yield und die Gesamtausbeute an Midrangechips im Vergleich zum GF100 mehr als verdoppeln.

JokerGermany · 19. Januar 2010

Meriana schrieb:
weiss wer schon Details zu der HD6XXX? Ev. wird ja AMD nen 32nm shrink des RV870 als 6000er Reihe verkaufen.

AMD wird auf jedenfall versuchen, etwas zu bringen, was zumindest PR-mässig Nvidia den Wind aus den Segeln nimmt.

Wenn es einen Shrink vor der "richtigen" HD6XXX geben sollte, wird der wohl den Namen HD6XXX übernehmen und die "richtige" HD6XXX würde HD7XXX werden.
Denn wie soll man im Namensshema ohne die Kunden zu verwirren einen Shrink unterbringen?

Allerding stellt sich dann eine Frage:
Wie Aufwändig ist so ein Shrink? Wie lange dauert es so einen zu entwickeln?
Das schöne an einem Shrink wäre für AMD, dass sie nicht unter Druck kommen mit dem "richtigen" HD6XXX Chip wie Nvidia...

Schaffe89 · 19. Januar 2010

Ich bin gespannt inwieweit die "frei" Tesselation Einheit beim Fermi vom Takt abhängt.
Wenn da auf andere Prozesse gewartet werden muss eventuell net so prickelnd.
Als reine Tesselation Karte bestimmt gut, aber in Kombination? Wir werden sehen =).

während die Fermi immer langsamer wird beim skalieren.

Danke für deinen Beitrag Complicated, sehr interessant.

Lübke · 19. Januar 2010

@Fetter Fettsack: klar gibs limitierende größen wie verbrauch und yields (jede gpu muss ja als zusammenhängende einheit hergestellt werden, je mehr "einzelfermis" des so geringer die zahl der voll einsatzfähigen chips) etc.
aber theoretisch wäre es möglich, wenn man jetzt auf 28nm umstellen würde, z.b. 32 "einzelfermis" in die gpu zu packen (und hätte dann auch insgesamt 32 tesselationseinheiten verbaut...).
ob es praktisch noch sinn ergibt gegen eine 6870, ist ne ganz andere frage.

@Complication: ich glaub, du hast nicht ganz verstanden, was ich sagen wollte. es macht auf mich den eindruck, als wenn der fermi aus 16 kleineren chips besteht. kleiner als 1/16 geht also sowieso nicht. das kleinste wäre demnach eine gpu mit 32 shader. erklärt wohl auch die existenz des g310 mit dx10.1 und ohne tesselationseinheit und co

Complication · 19. Januar 2010

Schaffe89 schrieb:
Ich bin gespannt inwieweit die "frei" Tesselation Einheit beim Fermi vom Takt abhängt.
Wenn da auf andere Prozesse gewartet werden muss eventuell net so prickelnd.
Als reine Tesselation Karte bestimmt gut, aber in Kombination? Wir werden sehen =).

Die Polymorphe Einheit taktet mit 1/2 des Shadertaktes, steht auch im Artikel von Anand.
Wenn nun aber nur jeder 5 Takt für Tessellation zur Verfügung steht bleiben nur noch 1/10 vom Shadertakt wenn alle Einheiten in der Polymorphen Einheit gleich ausgelastet sind.
Das bringt natürlich riesen Vorteile in Benchmarks, die eben die anderen Teile nicht belasten.
Macht man 5 Benchmarls die eben immer nur eine Facette der Polymorphen Einheit stark belasten kommen bei weitem bessere Ergebnisse raus als es bei ausgeglichenen Lasten wäre.

So kann man Benchmarks zeigen die immer 100% schneller sind als die Konkurrenz, aber nie alle 5 Lasten gleichzeitig 5 mal schneller können.
Vorteil: es wird auch im Spiel on the fly geswitched und es gibt bei weitem geringere Frame Einbrüche und somit stabilere Frameraten ohne Abhängigkeit des gezeigten Bildes.
Nachteil: werden alle Komponenten benötigt kommt man bei weitem nicht auf die Frames die Benchmarks glauben machen wollen. Mit Fermi werden Benchmarks noch mehr verfälscht durch Auswahl einer bestimmten Szene und was man dort gerade testet. Der Tester bestimmt den Speed und das Ergebnis - ob gewollt oder ungewollt - noch stärker als bisher.

Ergänzung (19. Januar 2010)

Lübke schrieb:
@Complication: ich glaub, du hast nicht ganz verstanden, was ich sagen wollte. es macht auf mich den eindruck, als wenn der fermi aus 16 kleineren chips besteht. kleiner als 1/16 geht also sowieso nicht. das kleinste wäre demnach eine gpu mit 32 shader. erklärt wohl auch die existenz des g310 mit dx10.1 und ohne tesselationseinheit und co

Ich habe dich verstanden und dir versucht zu erklären, dass kleiner als 1/2 nicht geht.
Viel Wahrscheinlicher ist 3/4 da hier der Level 2 Cache noch mehr nutzen hat.
1/4 macht schon gar keinen Sinn mehr da man dann den Level 2 Cache weglassen kann und ungefähr die halbe Leistung einer G80 hat.

JanEissfeldt · 19. Januar 2010

JokerGermany schrieb:
Denn wie soll man im Namensshema ohne die Kunden zu verwirren einen Shrink unterbringen?

Auch wenn das hier völlig am Thema vorbeigeht, kurze Antwort: wie die 4770!

quaiky · 19. Januar 2010

dass es nicht so einfach ist einfach ein x/16 des chips als neuen chip ohne neudesign des kompletten chiplayouts herzustellen zeigt recht gut das bild des eigentlichen Die http://images.anandtech.com/reviews/video/NVIDIA/GF100/GF100diebig.jpg.

hier sind recht gut die 16 einheiten aussen herum zu erkennen während im zentralbereich der L2 cache und die restlichen gemeinsamen teile liegen. dabei ist gut zu sehen wie gross dieser teil im vergleich zu den einzel cores ist.
von dem bild ausgehend denke ich dass es warscheinlich noch recht leicht (zumindest verhältnismässig, im heutigen chipdesign ist aber nichts trivial) möglich wäre auf einer seite bzw auf auch beiden seiten je eine reihe cores einzusparen und damit also auf 12 oder 8 cores zu kommen, aber alles dazwischen macht keinen sinn ohne komplett überarbeitung des gemeinsam genutzten bereiches. für alles unter 8 cores muss ich complication recht geben macht das speicher design keinen sinn, und mann läufft nebenbei auch noch in die gefahr dass die geometrie leistung dann zum flaschenhals wird (eventuell schon auch ohne aktivierter tesselation).

Lübke · 19. Januar 2010

@Complication: ist ja nur ne vermutung meinerseits. welche kombinationen sinn ergeben, lass ich mal offen, wobei man 0,5 x 8800gtx mit geändertem takt zb. in der klasse der 5670 brauchen könnte oder auch der cache schlicht zum nicht rendundanten teil zählt und individuell angepasst werden kann. aber die gtx360 ist ja auch mit 14 "fermis" (448 shader) sinnvoll und die gtx380 hat eben 16 "fermis" (512 shader). und wenn die 5890 dann die gtx380 versägen würde, könnte man theoretisch eine gtx385 mit 18 "fermis" (576 shader) nachschieben (sofern der verbrauch unter der 300 watt grenze bleibt).

wie gesagt, alles graue theorie, aber imho eine mögliche erklärung für diese seltsame, scheinbar nachteilige tesselations-konstelation.

ok, gehört wohl eher in meinen gerüchte-thread^^

Schaffe89 · 19. Januar 2010

Ich bin ja ehrlichgesagt mal auf Tesselation Benches in dirt2 oder Stalker gespannt. Vielleicht stinken da die Nvidias ab.
Ich glaub auch, dass wir diese Tesselation Benches + Game erst spät sehen werden. Eventuell verursacht dies auch das Treiberproblem von dem Nvidia spricht.
Könnte ja sein, dass die Dinge mit der quasi freien, nicht begrenzten Tesselationeinheit nicht so einfach zu bändigen sind. ATI hatts da vielleicht etwas einfacher.

Shurkien · 19. Januar 2010

MIch interessiert da eher das Uniengine Benchmark
Das bisschen Tesselation in DiRT2 und S.T.A.L.K.E.R. kostet ja nicht wirklich Leistung

Schaffe89 · 19. Januar 2010

Das bisschen tesselation kostet bei den ATI Karten teilweise ordentlich Leistung. Besonders wenn ich auf meiner HD5770 die Tesselation der Leute die an der Rennstrecke stehen auf sehr hoch stelle.
Ein Benchmark zeigt nie die wahre Leistung. Wenn du dir den Kommentar von Complicated mal durchlesen würdest dann würdeste in der Hinsicht bestimmt etwas kritischer zu Werke gehen.
Apropos mehrere Prozesse gleichzeitig ausführen und evtl. auf andere Warten.

Complicated schrieb:
So kann man Benchmarks zeigen die immer 100% schneller sind als die Konkurrenz, aber nie alle 5 Lasten gleichzeitig 5 mal schneller können.

milamber! · 19. Januar 2010

Shurkien schrieb:
MIch interessiert da eher das Uniengine Benchmark
Das bisschen Tesselation in DiRT2 und S.T.A.L.K.E.R. kostet ja nicht wirklich Leistung

Was hast du von 100 FPS in einem Benchmark, wenn - wie hier vermutet wird - die Leistung bei einem Spiel gar nicht gebracht werden kann?

quaiky · 19. Januar 2010

Lübke schrieb:
@Complication: ist ja nur ne vermutung meinerseits. welche kombinationen sinn ergeben, lass ich mal offen, wobei man 0,5 x 8800gtx mit geändertem takt zb. in der klasse der 5670 brauchen könnte oder auch der cache schlicht zum nicht rendundanten teil zählt und individuell angepasst werden kann. aber die gtx360 ist ja auch mit 14 "fermis" (448 shader) sinnvoll und die gtx380 hat eben 16 "fermis" (512 shader). und wenn die 5890 dann die gtx380 versägen würde, könnte man theoretisch eine gtx385 mit 18 "fermis" (576 shader) nachschieben (sofern der verbrauch unter der 300 watt grenze bleibt).

wie gesagt, alles graue theorie, aber imho eine mögliche erklärung für diese seltsame, scheinbar nachteilige tesselations-konstelation.

ok, gehört wohl eher in meinen gerüchte-thread^^

Da wir jetzt bei den spekulationen angelangt sind werd ich mich auch mal als orakel versuchen.

also meine einschätzung wäre dass es bei der ersten vorstellung die gf380 mit allen 16 fermi cores und die gf360 mit 12-14 fermi cores geben wird die beide auf dem identen chip verwenden, nur bei der 360 sind ein paar cores deaktiviert bzw. defekt. wenn der chip so performt dass die 380 gut als top grafikkarte positioniert werden kann, dann wird nvidia warscheinlich versuchen die gf360 direkt gegen die radeon 5870 in stellung bringen und dabei versuchen möglichst viele der teildefekten chips noch einzusetzen. wenn der vorsprung der 380 gegenüber der 5870 nicht esentlich ist werden sie die 380 gegen die 5870 in stellung bringen müssen und die 360 wird dann gegen die 5850 in position gehen.

im mid-low end bereich wird nvidia noch nicht so bald auf das fermi design umsteigen da haben sie ja grad erst überarbeitete dx 10.1 karten rausgebracht.
wenn da was auf fermi design basierendes kommen sollte dann schätze ich dass diese modelle nicht for q3/q4 geplant sind.

unsicher bin ich mir ob ein modell dazwichen geplant ist, eventuell im bereich in dem jetzt die radeon hd5750 und 5770 liegen.

zur merkwürdigen tesselation konstruktion fällt mir nur die theorie ein dass da es sich um eine programmierbare einheit handelt, diese im GPGU karten auch eine verwendung hat, wohingegen eine fixed unit nur brach liegen würde. (das ist aber pure spekulation von mir und nichts fundiertes).

Lübke · 19. Januar 2010

im mid-low end bereich wird nvidia noch nicht so bald auf das fermi design umsteigen da haben sie ja grad erst überarbeitete dx 10.1 karten rausgebracht.

die dx10.1-karten reichen nur bis zur gt240. wenn Complications einschätzung stimmt und eine gpu mit 4 "fermicores" tatsächlich ca 50% der leistung einer 8800gtx bringt, dann wäre die gpu schon oberhalb der gt240 angeordnet. der kleinere chip erzeugt ja auch weniger abwärme und erlaubt dadurch wieder höhere taktraten...

Bericht Bericht: Nvidia GF100: Technische Details

Lt. Junior Grade

Banned

Lt. Commander

Fleet Admiral

Fleet Admiral

Banned

Ensign

Banned

Banned

Fleet Admiral

Banned

Ensign

Lt. Junior Grade

Fleet Admiral

Banned

Shurkien

Gast

Banned

Commander

Lt. Junior Grade

Fleet Admiral