Chrome 430 GT im Test: S3 mit Außenseiter-Grafikkarte gegen die Großen

 2/21
Wolfgang Andermahr
61 Kommentare

Technische Daten

Radeon
HD 3450
Radeon
HD 3470
GeForce
8400 GS
S3
Chrome 430 GT
Logo ATi Radeon Graphics ATi Radeon Graphics Nvidia GeForce S3 Graphics
Chip RV620 RV620 G86 Destination 3 (D3)
Transistoren ca. 181 Mio. ca. 181 Mio. ca. 210 Mio. ca. 196 Mio.
Fertigung 55 nm 55 nm 80 nm 65 nm
Chiptakt 600MHz 800 MHz 460 MHz 625 MHz
Shadertakt 600MHz 800 MHz 918 MHz 1.200 MHz
Shader-Einheiten
(MADD)
8 (5D) 8 (5D) 16 (1D) 32 (?D)
FLOPs (MADD/ADD) 48 GFLOPS 64 GFLOPS 44 GFLOP/s* min. 77 GFLOPS
ROPs 4 4 4 1 (4 Pixel)
Pixelfüllrate 2400 MPix/s 3200 MPix/s 1840 MPix/s 2500 MPix/s
TMUs 4 4 8 4
TAUs 8 8 8 4
Texelfüllrate 2400 MTex/s 3200 MTex/s 3680 MTex/s 2500 MTex/s
Shader-Model SM 4.1 SM 4.1 SM 4 SM 4.1
Hybrid-CF/-SLI X X X X
effektive Windows
Stromsparfunktion
X
Speichermenge 256 DDR2 256 GDDR3 256/512 DDR2 256 DDR2
Speichertakt 400 MHz 700 MHz 400/300 MHz 500 MHz
Speicherinterface 64 Bit 64 Bit 64 Bit 64 Bit
Speicherbandbreite 6400 MB/s 11200 MB/s 6400 MB/s
4800 MB/s
8000 MB/s

Die GPU auf der Chrome 430 GT trägt den Codenamen Destination 3 (D3) und wird im 65-nm-Prozess bei TSMC gefertigt. Der Chip kommt insgesamt auf 196 Millionen Transistoren, womit man sich genau zwischen dem RV620 von ATi und dem G86 von Nvidia einreiht. Interessantes gibt es auch vom eigentlichen Aufbau der GPU zu berichten, wobei wir einige Fragen offen lassen müssen, da die Informationen bezüglich der Architektur des D3-Chips recht rar gesät sind.

Der D3 verfügt über 32 Shadereinheiten, die pro Takt ein MADD (Multiply-ADD) sowie noch einige „Zusatzberechnungen“ durchführen können. Wir gehen davon aus, dass es sich bei diesen Zusatzberechnungen um Spezialberechnungen wie zum Beispiel eine Kosinus-Operation handelt, die normalerweise von der Special-Function-Unit (SFU) erledigt werden.

Etwas unklar bleibt leider der eigentliche Aufbau der ALUs. Denn bei denen handelt es sich nicht, wie man aufgrund der hohen Anzahl vermuten könnte, um Skalareinheiten, die pro Takt eine Komponente (Rot, Grün, Blau oder den Alphawert) berechnen können. Die ALUs sollen stattdessen ähnlich aufgebaut und auch ähnlich flexibel sein wie die 5D-Vektoreinheiten von ATi. Das ist etwas verwunderlich, da bei fünf Komponenten pro ALU (die man – zumindest bei ATi – darüber hinaus in die Konfiguration 1+1+1+1+1 aufteilen kann, solange die Berechnungen nicht voneinander abhängig sind) die theoretische ALU-Leistung, gemessen in GFLOPS, extrem hoch sein würde. Damit schließen wir fünf Komponenten pro ALU aus. Aber selbst bei zwei Komponenten würde die Peak-Leistung gar um mehr als das zweifache vor der einer Radeon HD 3470 liegen.

Auf dem D3 sind insgesamt vier Texture Mapping Units (TMU) verbaut, die pro Takt einen bilinearen Pixel adressieren sowie texturieren können. Die bei den Vorgängern noch benutzen „Fast-Tri-TMUs“, die pro Takt einen trilinear gefilterten Pixel erzeugen konnten, gibt es also nicht mehr. Da die GPU Direct3D 10.1 unterstützt, wurden die TMUs dementsprechend angepasst und können FP16- sowie FP32-Texturen (die also im hochwertigen Floating-Point-Format vorliegen) berechnen.

Dabei filtern die TMUs auf der S3-Karte selbst FP32-Texturen in bilinearer Qualität innerhalb eines Taktes und verlieren keine Füllrate. ATis R6x0-Architektur kann zwar FP16-Texturen innerhalb eines Taktes filtern, benötigt für FP32-Qualität jedoch zwei Takte (man muss aber anmerken, dass wohl kein aktuelles Spiel FP32-Texturen verwendet).

Auf dem D3 vertraut S3 Graphics auf lediglich eine ROP-Einheit (Raster Operation Processors). Dies hört sich im ersten Augenblick nach sehr wenig an, jedoch ist die eine ROP in der Lage, pro Takt vier Pixel fertigzustellen. Damit kommt man im Endeffekt auf vier „ATI/Nvidia-ROPs“. Laut S3 bricht die ROP-Leistung selbst bei vier-fachem Anti-Aliasing nicht ein, womit es sich um Single-Cycle-ROPs handeln würde. Für acht-fache Kantenglättung benötigt die S3-GPU dann zwei Takte. Damit liegen die ROPs bezüglich der Geschwindigkeit bei der Kantenglättung auf ein und demselben Niveau wie die auf einer G8x- oder G9x-GPU. ATis R(V)6x0 kann dagegen wahrscheinlich nur zwei-faches AA in einem Rutsch berechnen.

Bei reinen Z-Berechnungen (Tiefentests/Sichtbarkeitsprüfungen) kann der S3-Chip 16 Z-Pixel pro Takt liefern. Damit erreicht man zwar nicht ganz das Z-Verhältnis von Nvidia, der S3 ist aber effizienter als die ATi-GPUs.

Die TMU-Domäne auf der Chrome 430 GT taktet mit 600 MHz, während die ALUs, wie auf den aktuellen Nvidia-Chips, von einem eigenen Taktgeber angesteuert werden. Der arbeitet mit einer Frequenz von 1.200 MHz (in einer im Internet befindlichen Präsentationsfolie war von 900 MHz die Rede, was sich aber nur auf eine spezielle Version der Chrome 430 GT bezogen hat). Der 256 MB große DDR2-Speicher agiert mit 500 MHz. Mittels eines 64 Bit breiten Speicherinterface ist der VRAM an die GPU angebunden. Die vier Speicherbausteine, die jeweils eine Kapazität von 64 MB aufweisen, sind an einen einzelnen 64-Bit-Memorycontroller angeschlossen.

Chrome-400-GPU
Chrome-400-GPU

*Die von uns angegebenen GFLOP-Zahlen der G80-Grafikkarten entsprechen dem theoretisch maximalen Output, wenn alle ALUs auf die gesamte Kapazität der MADD- und MUL-Einheiten zurückgreifen können. Dies ist auf einem G80 allerdings praktisch nie der Fall. Während das MADD komplett für „General Shading“ genutzt werden kann, hat das zweite MUL meistens andere Aufgaben und kümmert sich um die Perspektivenkorrektur oder arbeitet als Attributinterpolator oder Special-Function-Unit (SFU). Mit dem ForceWare 158.19 (sowie dessen Windows-Vista-Ableger) kann das zweite MUL zwar auch für General Shading verwendet werden, anscheinend aber nicht vollständig, da weiterhin die „Sonderfunktionen“ ausgeführt werden müssen. Deswegen liegen die reellen GFLOP-Zahlen unter den theoretisch maximalen.