Immortalis-G925, Mali-G725/G625: Arm-GPUs mit bis zu 24 Kernen führen Fragment Prepass aus
Neben den CPU-Kernen erneuert Arm auch das GPU-Portfolio mit der Immortalis-G925, die erneut über dedizierte Raytracing-Beschleuniger verfügt, sowie die kleineren Lösungen Mali-G725 und G625. Die neuen GPUs unterstützen einen Fragment Prepass für effizienteres Rendering, zudem lassen sich 50 Prozent mehr Kerne verbauen.
10 Milliarden Arm-GPUs ausgeliefert
Gaming auf mobilen Endgeräten ist ein riesiger Markt, für den Arm in 2024 mit einem Umsatz in Höhe von 111,4 Milliarden US-Dollar rechnet. 63 Prozent der Umsätze aus den verschiedenen App Stores entstünden durch Spiele, erklärt Arm. Das Unternehmen hat diesen Markt über die letzten Jahre mit kumulativ mehr als 10 Milliarden GPUs beliefert.
Immortalis = Mindestens 10 Kerne + Raytracing
Diesen gigantischen Markt will Arm in nächster Generation mit den GPUs Immortalis-G925, Mali-G725 und Mali-G625 bedienen. Wann eine GPU bei Arm wie heißen darf, richtet sich nach der Anzahl der verbauten Kerne (Shader-Cores) sowie nach der Verfügbarkeit von Hardware-Raytracing. Eine GPU muss Hardware-Raytracing unterstützen und mindestens 10 Kerne bieten, um Immortalis-G925 zu heißen. Die Mali-G725 verzichtet auf Raytracing und bietet 6 bis 9 Kerne, die Mali-G625 kommt auf 1 bis 5 Kerne und ebenfalls ohne Raytracing. Anstelle von 16 Kernen darf die größte GPU jetzt bis zu 24 Kerne nutzen.
2. Jahrgang der 5. Generation GPU-Architektur
Alle neuen GPUs teilen sich dieselbe Architektur, bei der es sich um den 2. Jahrgang der 5. Generation GPU-Architektur handelt. Die 4. Generation lief bis zur Immortalis-G715, Mali-G715 und Mali-G615 im Jahr 2022 und führte Hardware-Raytracing per Ray Tracing Unit (RTU) ein. Die 5. Generation läuteten letztes Jahr Immortalis-G720, Mali-G720 und Mali-G620 ein, deren größte Neuerung das Deferred Vertex Shading (DVS) war.
Eine neue GPU für Spiele sowie AI und ML
Die Immortalis-G925 soll Arms schnellste und effizienteste GPU aller Zeiten sein, was vom Entwickler ausgewiesene Performance-Metriken mit einer 37 Prozent höheren Grafikleistung in Spielen, 36 Prozent schnellerem Inferencing für AI und ML, bis zu 52 Prozent schnellerem Raytracing und um 30 Prozent reduziertem Energieverbrauch untermauern sollen. Beachten muss man dabei allerdings stets, dass Arm in den Angaben bei der neuen Immortalis-G925 immer 14 Kerne nutzt und die GPU mit einer alten Immortalis-G725 mit nur 12 Kernen vergleicht. Hintergrund sei, dass die Effizienzsteigerungen größere GPU-Konfigurationen ermöglichen würden.
Call of Duty läuft 72 Prozent schneller
In einzelnen Anwendungen kann der Vorsprung aber auch deutlich größer oder etwas kleiner ausfallen, wie die von Arm selektierten Spiele Call of Duty Mobile (+72 %), Diablo Immortal (+46 %), Fortnite (+29 %) und The Day After Tomorrow (+39 %) zeigen.
Beschleunigtes AI und ML
Abseits von Spielen sieht Arm die GPUs als effiziente AI- und ML-Beschleuniger, wie die Verarbeitung etwa von FP16 Machine Learning im Vergleich zur Immortalis-G720 mit einem Vorsprung von durchschnittlich 36 Prozent über sechs Anwendungsbeispiele verdeutlicht. Für ML-Workloads kollaboriert Arm mit Unity, um die GPUs für deren ML-Framework Sentis zu optimieren, das nativ FP32 unterstützt und durch die Zusammenarbeit mit Arm um INT8 erweitern wird. Damit könne man einen Zugewinn von bestenfalls 44 Prozent erreichen.
Fragment Prepass für Hidden Surface Removal
Um diese Zugewinne zu erreichen, zieht im 2. Jahrgang der 5. Generation GPU-Architektur ein sogenannter Fragment Prepass als neue Technik für Hidden Surface Removal (HSR) ein. HSR ist eine fundamentale und mit verschiedenen Methoden umgesetzte Technologie in der Computergrafik um zu bestimmen, welche Oberflächen und Teilbereiche von Oberflächen einer bevorstehenden Szene aus der Kameraperspektive überhaupt sichtbar sind, um nur diese Bereiche zu rendern und so Leistung und Effizienz zu steigern.
Geometrie zunächst in den Z-Buffer schreiben
Ein Fragment Prepass wiederum ist ein Vorgang, bei dem zunächst die räumlichen Tiefeninformationen auf der Z-Achse bzw. die Geometrie der bevorstehenden Szene gerendert wird, bevor das eigentliche Rendering der Szene sowie von deren Farben und Beleuchtung ausgeführt wird. Diese Daten werden ausschließlich in den Z-Buffer geschrieben und anschließend im zweiten Durchgang des eigentlichen Renderings dafür genutzt, um Fragmente auszulassen, die für den Anwender überhaupt nicht sichtbar sind, da sie von anderen Objekten verdeckt werden. Das reduziert den Overdraw, steigert die Leistung und führt zu einer effizienteren Nutzung der Shader. Vor allem komplexe Szenen, Deferred Shading, Transparenz und Reflexionen profitieren von diesem Vorgang.
Raytracing-Genauigkeit reduzieren
Verbesserungen beim Raytracing erreicht Arm mit einer neuen Option für Entwickler, die jetzt zwischen eine höheren oder reduzierten Genauigkeit bei dementsprechend geringerer oder höherer Leistung wählen können. Bei gleicher Genauigkeit falle die Raytracing-Leistung dennoch 27 Prozent höher aus, während 3 Prozent weniger Zugriffe auf den Speicher erfolgen. Mit reduzierter Genauigkeit können diese Werte jetzt auf +52 Prozent bzw. +57 Prozent angehoben werden.
Für die neuen GPUs hat Arm auch den Tiler-Durchsatz steigern können, indem Primitive, die sich eine Kante teilen, in der Tiler-Pipeline zusammengeführt („fused“) werden. Primitive sind die grundsätzlichen geometrischen Formen der Computergrafik und umfassen Punkte, Linien, Line Strips und Loops, Dreiecke sowie Strips und Fans.
Execution Engine erhält doppelt so viele CVTs
Die neue Generation führt aber auch Verbesserungen beim Job-Dispatching ein und verdoppelt die Anzahl der CVTs (Convert Unit) in der Execution Engine der GPU. Der Inner-Core jedes Shader-Cores kommt bei Arm auf zwei Execution Engines, die wiederum jeweils zwei Processing-Units mit jeweils mehreren Processing Elements besitzen, die jeweils zwei Funktionsblöcke für FMA und MMUL sowie bislang eine CVT und eine SFU (Special Function Unit) aufnahmen. Die neuen GPUs kommen an dieser Stelle auf zwei CVTs, die einfache Operationen wie Formatkonvertierungen oder Integer-Additionen ausführen, was mit einer 32-Bit- oder zwei 16-Bit-Operationen unterstützt wird.
14 Kerne für High-End-SoCs
Arm geht davon aus, dass bei einem High-End-SoC für ein Top-Smartphone eine Immortalis-G925 mit 14 Kernen zum Einsatz kommen wird, während die CPU sich aus zwei Cortex-X925, vier Cortex-A725 und zwei Cortex-A520 zusammensetzen dürfte, die in der DSU-120 mit 16 MB L3-Cache sitzen und vernetzt werden.
ComputerBase hat Informationen zu diesem Artikel von Arm unter NDA im Rahmen einer Veranstaltung des Herstellers in Austin, Texas erhalten. Die Kosten für An-, Abreise und drei Hotelübernachtungen von dem Unternehmen getragen. Eine Einflussnahme des Herstellers oder eine Verpflichtung zur Berichterstattung bestand nicht. Die einzige Vorgabe aus dem NDA war der frühestmögliche Veröffentlichungszeitpunkt.