Arm-GPUs: Immortalis-G720, Mali-G720 und G620 läuten 5th Gen ein
Arm läutet mit der Immortalis-G720, Mali-G720 und Mali-G620 die 5. Generation eigener GPU-Architekturen ein. Das Unternehmen verspricht eine höhere Leistung und gesteigerte Effizienz. Erreicht werden soll das auch mit Deferred Vertex Shading (DVS). Die neuen GPUs sind Teil der TCS23, zu denen auch die neuen CPU-Kerne zählen.
Die neue Architektur hat keinen Codenamen mehr, zumindest keinen, den Arm öffentlich kommuniziert. Die 4. Generation lief unter dem Namen „Valhall“, begann mit der Mali-G77 und erreichte letztes Jahr mit der Immortalis-G715, Mali-G715 und Mali-G615 ihren Abschluss, als unter anderem Hardware-Raytracing und Variable Rate Shading (VRS) eingeführt wurden. Arm hat die 5. GPU-Generation unter dem Projektnamen „Krake“ entwickelt, der Codename der eigentlichen GPU-Architektur sei dies aber nicht, ließ Arm die Redaktion zum Besuch am Standort Cambridge wissen.
Effizienz und Leistung im Fokus
Mit der 5. Generation geht Arm aktuelle Trends in der Industrie an. Zum Beispiel wird die Geometrie der gerenderten Szenen stetig komplexer, HDR-Rendering erfordert mehr Leistung und Zugriffe auf den Speicher kosten Effizienz und tragen maßgeblich zu thermischen Limitierungen bei. Die neue Architektur soll diese Herausforderungen angehen und am Beispiel der Immortalis-G720 im Vergleich zur Immortalis-G715 bis zu 40 Prozent weniger Speicherbandbreite benötigen, eine durchschnittlich 15 Prozent höhere Leistung pro Watt, 15 Prozent höhere Peak-Leistung und einen doppelt so hohen Durchsatz beim Texturing mit 64 Bits per Pixel für das HDR-Rendering liefern.
Zugriffe auf den DRAM reduzieren
Für die alte Immortalis-G715 teile sich der Verbrauch laut Arm zu 70 Prozent auf die eigentliche GPU und zu 30 Prozent auf Zugriffe auf den externen DRAM auf, der außerhalb des SoCs liegt. Für die Immortalis-G720 komme die GPU selbst auf nur noch 60 Prozentpunkte und der DRAM auf noch 20 Prozentpunkte auf der alten Skala.
Rendering-Pipeline mit Deferred Vertex Shading
Maßgeblich zur Reduzierung der benötigten Bandbreite auf den DRAM soll unter anderem ein von Arm als Deferred Vertex Shading (DVS) bezeichneter Vorgang der Rendering-Pipeline beitragen. DVS ist dabei jedoch keine gängige Bezeichnung, stattdessen ist üblicherweise vom Deferred Rendering die Rede. Deferred steht übersetzt für „verzögert“ oder „zurückgestellt“, weil bei dieser Art des Renderings vereinfacht ausgedrückt zunächst bei einem Geometrie-Durchgang die Positionen, Farben und andere wichtige Eigenschaften von Objekten in einer Szene ermittelt und in einem Buffer hinterlegt werden. Erst nach diesem Durchgang werden in einem weiteren die Daten aus dem Buffer genutzt, um die Beleuchtung und Shading-Effekte zu berechnen.
Somit muss die Beleuchtung nicht mehr einzeln für jedes Objekt und jede Lichtquelle berechnet werden, was deutlich effizienter ist, da die Berechnungen nur noch einmalig für jeden Pixel durchgeführt werden müssen. Durch die Separierung reduziert sich der Rechenaufwand und komplexere Szenen mit höherer Geometrie sowie mehreren Lichtquellen können effizienter oder überhaupt erst von der GPU gerendert werden.
Tiler entscheidet über den Rendering-Pfad
Deferred Rendering ist aber nicht frei von Nachteilen, zum Beispiel benötigt es den zuvor angesprochenen Buffer. Außerdem können dort nur die Eigenschaften undurchlässiger Objekte gespeichert werden, sodass für transparente Objekte unter Umständen ein zusätzlicher Durchgang erfolgen oder spezielle Techniken in die Rendering-Pipeline integriert werden müssen. Arm generiert dafür eine Polygonliste, anhand derer entschieden wird, ob eine Berechnung in das klassische Forward Vertex Shading oder in das Deferred Vertex Shading der Pipeline fließt. Der Tiler entscheidet bei Arm, welche Dreiecke zurückgestellt werden und für welche das Shading direkt ausgeführt wird, um exzessives Reshading zu vermeiden, was ineffizient wäre. Die 5. GPU-Architektur arbeitet dabei mit größeren Tiles, damit jedes Dreieck weniger Tiles belegt, damit mehr Dreiecke zurückgestellt werden können und es zu weniger Reshading kommt.
Optimierungen in weiteren Bereichen
Die neue Architektur bringt auch ein überarbeitetes Variable Rate Shading mit höheren Faktoren als 1 pro 4 Pixel, eine schnellere Abfertigung von Aufgaben im Command Stream Front-End (CSF), einen verdoppelten Durchsatz für gewisse Fixed-Function-Blöcke und auch dedizierte Hardware für 2xMSAA mit, damit Entwickler mehr zwischen Qualität und Leistung abwägen können. Damit unterbindet Arm eine Eskalation auf 4xMSAA, wenn eine Anwendung eigentlich nur 2xMSAA anfordert. Die mit der Immortalis-G715 eingeführte Ray Tracing Unit (RTU) kommt jetzt zudem mit ihrer eigenen Power Island, um Leckströme für die meisten Applikationen ohne Raytracing zu reduzieren.
Wann eine GPU Immortalis oder Mali heißt
Wann sich eine der neuen GPUs Immortalis-G720, Mali-G720 oder Mali-G620 nennen darf, ist ausschließlich von der Anzahl der Shader Cores und gewissermaßen auch vom Raytracing abhängig, die Architektur ist für alle Varianten jedoch dieselbe. Eine Immortalis-G720 muss mindestens 10 Shader Cores und Hardware-Raytracing über die RTU unterstützen. Die Anzahl der RTUs wächst erneut mit der Anzahl der Shader Cores, da sich wie bei der letzten Ausbaustufe der Valhall-Architektur jeweils eine im Inner Core jedes Shader Cores befindet. Die Immortalis-G720 skaliert wie Valhall von 10 auf bis zu 16 Shader Cores.
Die kleinere Mali-G720 besitzt dieselbe Architektur der Immortalis-G720, nur eben ohne RTU, und darf sich so von 6 bis 9 Shader Cores nennen. Kommen nur 5 oder weniger Shader Cores zum Einsatz, handelt es sich um eine Mali-G620. Theoretisch können auch Mali-G720 und Mali-G620 mit RTU ausgerüstet werden, hieß es von Arm auf Nachfrage, selbst dann wären es aber keine Immortalis-GPUs, weil sie weniger als 10 Shader Cores besitzen. Der Einsatz der RTU sei laut Arm aber ohnehin nur für größer dimensionierte GPUs sinnvoll.
ComputerBase hat Informationen zu diesem Artikel von Arm im Rahmen einer Veranstaltung des Herstellers in Cambridge unter NDA erhalten. Die Kosten für Anreise, Abreise und Hotel wurden von dem Unternehmen getragen. Eine Einflussnahme des Herstellers oder eine Verpflichtung zur Berichterstattung bestand nicht. Die einzige Vorgabe war der frühestmögliche Veröffentlichungszeitpunkt.