News AMD „hUMA“ verbessert Kommunikation zwischen CPU und GPU

Wie ich glaub, schon oft genug gesagt habe, ist AMD &ATi durch ihre Verschmelzung zu ein leistungsstarker und innovatives Unternehmen geworden, so tragt die Firma auch zu jegliche Fortschritte bei die man auf dem Computermarkt sieht. Deswegen hat sich auch HP für die APUs mit FirePro-Einheit entschieden, da sie perfekt für den Desktop-Remotebereich sind und in jeder Weise den Intel-Einheiten in diesen Segment voraus sind, da bringen die neuen Intel HD 5xxx Garnichts. Sprich AMD&ATi sind anpassungsfähig und bieten für fast jede Situation den Endbenutzer oder Käufer die beste Lösung, bei Intel kann man ziemlich lange auf Maßschneiderungen warten, die dann bereits veraltet sind.

Dazu wird sich AMD vom letzten Jahr höchstwahrscheinlich gut erholen, da die ATi-Karten hoch im Kurs sind und jegliche Preisklasse bzw. Leistungsklasse abgedeckt ist. (7730-7990, jede Leistungsklasse ist dabei) Es ist auch eine riesige neue Einnahme-Quelle aufgetan worden durch dem Deal mit Microsoft, Sony, Valve und Nintendo und lässt auf noch bessere Optimierung der Engines von Spielehersteller auf AMD/ATI erhoffen. Da jetzt im Bereich von DirectX11, Steamsoftware-Cooperation, Crytek, FrostBite und ähnliches die Hardware-Plattformen von AMD ausschlaggebend sind und somit Nvidia an Attraktivität für Optimierung verloren hat!

Ein Thema das ich auch hart umkämpft habe ist die Situation im Desktopbereich und im Konsolenbereich, während AMD seine FX und APUs schon mit 8-Kerne ausgestattet hat, lässt sich Intel ziemlich viel Zeit und ist in keinem Falle auf die Situation von Multithreading vorbereitet, wie sich teils bei Crysis 3 gezeigt hat und wahrscheinlich auch bei Battelfield 4. Zurzeit arbeiten die meisten Engines mit nur 4 Kerne, somit ist viel Potenzial dahin, wenn dieses Potenzial das nächste Jahr durch die Entwicklererfahrung mit den 8-Core APUs summiert wird zur jetzigen Leistung, kann auch keiner mehr behaupten die CPUs sind nur gut fürs Rendern und Arbeiten aber nicht fürs Zocken.

Bei Youtube war auch ein Kommentar denn ich zustimmen kann:
, AMD/ATI war technologisch schon immer einen Schritt voraus. Vektorarchitektur, frühere Unterstützung von DirectX Standards, FP64, Tessellation, kleinere Fertigungsstrukturen usw. Und HSA ist ein neuer Meilenstein. von @avynian
 
pipip schrieb:
Lange Rede, kurzer Sinn: hUMA soll es dem Programmierer leichter machen, die GPU miteinzubeziehen. Es wird keine spezielle API wie Direct Compute oder OpenCL benötigt, stattdessen können auf gewöhnliche Hochsprachen wie C++ oder ähnliche zurückgegriffen werden. Und der Nutzer soll dadurch profitieren, dass die Performance im Allgemeinen steigt und es eben vermehrt GPU-beschleunigte Software geben soll.

Hoffentlich, ist es jetzt einiger Maße deutlich, wie sehr AMD dahinter ist, den Programmierer es so einfach wie möglich zu machen.

Im Prinzip haben sie wohl erkannt, dass das Programmierinterface von OpenCL einfach hässlich und gruselig ist. Deshalb wollen sie sich wohl CUDA annähren. Dadurch werden GPU-Code und CPU-Code in den selben Quelltext-Dateien geschrieben. Beim Compilieren wird wahrscheinlich ein spezieller HSA-Compiler alles GPU-spezifische herausziehen, an den entsprechenden Stellen Verweise auf Bibliotheksfunktionen erstellen, und dann den modifizierten Quelltext von einem normalen x86-Cpp-Compiler bearbeiten lassen.

Dies wird auch bei AMD den Nachteil mit sich bringen, dass der Quelltext nicht mehr reines Cpp ist sondern einige GPU-spezifische Erweiterungen besitzt (zB. für Scratchpadspeicher). Auch bezweifle ich die Ansage, dass man keine API mehr benötigt. Denn irgendwie muss man die diversen GPU-spezifischen Hardwarefunktionalitäten, welche von den Standardlibs nicht unterstützt werden, in Funktionen einbauen, wodurch man wiederum eine Bibliothek mit GPU-spezifischen Funktionalitäten besitzt.

Aber insgesamt bin ich froh, dass AMD es auch so macht, da dass gruselige OpenCL dann noch totototer ist. Yip Yip Yip Yip OpenCL ist tot Yip Yip Yip Yip. . .

Da jetzt im Bereich von DirectX11, Steamsoftware-Cooperation, Crytek, FrostBite und ähnliches die Hardware-Plattformen von AMD ausschlaggebend sind und somit Nvidia an Attraktivität für Optimierung verloren hat!
So sehr wie NVIDIA und AMD ihre GPU-Architekturen von Generation zu Generation immer stark umkrempeln, hat AMD wahrscheinlich nur eine Generation dadurch einen Vorteil, da die nächste AMD-GPU-Generation schon wieder zu verschieden von den aktuellen Konsolen-GPUs ist. Ausserdem wird dieser Vorteil wiederum für den Käufer dadurch minimiert, dass sowohl AMD als auch NVIDIA bei grösseren Prestige-Spielen selbst GPU-Programmierer zur Verfügung stellen, welche den GPU-Code auf die Eigenheiten ihrer aktuellen GPUs optimieren.

, AMD/ATI war technologisch schon immer einen Schritt voraus. Vektorarchitektur, frühere Unterstützung von DirectX Standards, FP64, Tessellation, kleinere Fertigungsstrukturen usw. Und HSA ist ein neuer Meilenstein. von @avynian

AMD ist nicht immer einen Schritt voraus. So war die Geforce GTX 2XX afaik die erste GPU mit FP64-Support. In manchen Bereichen ist oder war AMD zwar einen Schritt vor NVIDIA (wie zB. DirectX, Tessellation) , dafür ist oder war es jedoch auch in manchen Bereichen einen Schritt hinter NVIDIA. So hat NVIDIA beispielhaft immer noch extrem viele GPGPU-Features, welche AMD erst jetzt nach Jahren zumindest zum Teil mit HSA einbauen will (zB. Speicherallokation von Code, welcher auf der GPU ausgeführt wird, starten von weiteren Kernelinstanzen von einem Kernel aus). Aber so ist das halt überall beim Wettbewerb in der Hardwarebranche, wenn man die ganze Angelegenheit nicht einseitig sondern differenziert betrachtet: Mal ist wo der eine besser, mal wo der andere. . . . . . .

Ausserdem ist AMD mit den 7XXX Radeons von einer Vektorarchitektur, wie es bei den 6XXX und 5XXX Radeons der Fall war, auf eine Skalararchitektur umgestiegen. Hierbei ist es allerdings interessant anzumerken, dass weder eine Vektorarchitektur noch eine Skalararchitektur besser oder schlechter sind; beide haben ihre Stärken und ihre Schwächen. So haben die Skalararchitekturen wegen der zusätzlichen Kontrolllogik zwar immer eine geringere Rohperformance. Allerdings können sie bei komplexen Code, den man nur schlecht vektorisieren kann, ihre Rohperformance besser ausnutzen, als Vektorarchitekturen. Dafür besitzen Vektorarchitekturen allerdings weniger Kontrolllogik und deshalb auch eine bessere Rohperformance. Deshalb sind sie Skalararchitekturen bei Code, welcher weitestgehend vektorisiert ist, stark überlegen.
 
Zuletzt bearbeitet:
Samsung bastelt auch nicht selbst an ARM design rum (oder?)
Samsung wirbt ja schon, dass über 70% (noch weit mehr) von ihnen selbst produziert wird.
Bei Notebooks bsp, kommt nur noch das Board und der Prozessor (optional noch Grafikkarte) von einem anderen Anbieter. Demnächst, wollen sie für ihre Notebooks auch selbst Mainboards herstellen. Sodass nur mehr wenige Chips von anderen kommen.
Ich bin zuversichtlich, dass sie auch verstärkt selber ARM-Lösungen anbieten, und mit HSA verstärkt einsteigen und forschen werden.
Immerhin verbauen die ja überall ARM Chips. Fernseher, tablates Smartphones, Kühlschränke, allg Haushaltsgeräte, und vieles mehr. Gibt genug Branchen, von denen wir uns nicht bewusst sind, bsp Militär.

Nai
Dafür besitzen Vektorarchitekturen allerdings weniger Kontrolllogik und deshalb auch eine bessere Rohperformance.
Deshalb frage ich mich aber auch oft, im Desktop kann man dankt der Skalararchitektur mehr Potential ausnützen, auch ein Grund wieso AMD von VLIW5 auf VLIW4 umgestiegen ist. Letzteres war soviel ich weiß, was die Rohleistung angeht schwächer, im groß und ganzen wurde aber VLIW5 nur ca 3,5 Einheiten richtig ausgenützt.
Die frage aber, die ich mich stelle, wenn man VLIW5 wie bei der Wii, verbaut, kann man im grassen Gegensatz zum Desktop mehr Performance rausholen ? da man sich ja immer auf den einen und selben Chip konzentriert ? Somit ist trotz VLIW5 eventuell ein Effizienzvorteil gegeben ?
Natürlich ist die GPU der WiiU nicht die stärkste, aber für die gängigsten Games auf HD sollte es ausreichen. Ein A6 3670 mit 600 Mhz, DDR 1600 erlaubt es auch BF 3 auf 720p, und wie gesagt, hier lässt sich nur ein Bruchteil aus VLIW5 auf dem Desktop herausholen.

http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1367308053
1_11-AMD-HSA-hUMA.png

Noch ein schönes Bild von planet3dnow zu hUMA

Ab Kaveri teilen sich CPU- und GPU-Einheit deshalb nicht nur wie bisher den DRAM-Controller, sondern benutzen auch einen einzigen, gemeinsamen Speichercontroller. Bisher gab es noch zwei eigenständige Speichercontroller in jeder APU, jeweils einen für CPU und GPU.
Interessant ist, ob nun auch der Speichercontroller für beide Einheiten, mächtiger wird, sodass auch die CPU davon profitiert. Ob man auch Platz einsparen kann und ob nicht ein Flaschenhals entsteht.
Naja man wird sehen, ob das Ressourcen Teilen hier Vorteilhaft ist, bei den Modul CMT Design, hat es auch seine Nachteile gebracht.

Wobei selbst wenn beide Einheiten sich einen (mächtigen) Speichercontroller teilen gibt es wiederum einige Aufgaben die nicht mehr bewerkstelligt werden müssen:
Bisher musste sich der Programmierer um solche Sachen kümmern bzw. sicherstellen, das die Daten zwischen CPU und GPU hin- und hergeschoben und abgeglichen wurden.
 
Zuletzt bearbeitet:
Eine kleine Verbesserung, die Grafikkarten nehmen von Generation zu Generation eine bestimmte Menge an Leistung zu. Diese ist aber nicht unbedingt lohnend, so werden in Zukunft die Entwickler, durch dem dass sie mit der Plattform der AMD Jaguar(8-Core) und ATi Radeon 7000er Serie arbeiten müssen, da ja die APU der PS4 eine abgespeckte ATi 7870 ist, die Optimierung erstens auf der jetzigen Serie setzen.

Die 8000er Desktop Serie sollte im 4. Quartal des jetzigen Jahres erscheinen, so wird zu mindestens vermutet und die Konsolen haben erst nach einer längeren Zeitspanne die Möglichkeit die Hardware aufzustufen (3 Jahre meistens, dann kommen neuere Versionen einer Konsole). Somit wird die Optimierung stattfinden, die Frage ist nur ob man unbedingt, dann auf die 8000er Serie aufrüstet oder vielleicht die 8000er Serie doch der 7000er Serie in der Architektur sehr nahe steht, somit Optimierungen auf beiden Serien große Auswirkungen hat.

Übrigens es wäre auch eine ziemlich böse Situation für Nvidia, wenn sich auch bei Battelfield 4 die Merkmale einer Optimierung für Multithreading (AMD-FX) und Radeons zeigt, ab da an würde ich mich nochmals bestätigt fühlen dass ein Wandel stattfindet und meine Vorhersage oder bzw. meine Einschätzung der Situation von AMD im Spielebereich voll zutrifft!

Wenn Sony Geld hätte sparen wollen, dann hätten sie sich auch sicher nicht für eine total kranke 8GB GDDR5 UMA RAM Lösung mit 256 Bit Interface entschieden.

Da AMD selbst noch einen hohen Grad an Erfahrung im RAM-Bereich hat und dieser Sektor seit circa einen Jahr wieder voll im Betrieb genommen wurde um SSDs auch selbst zu entwerfen und optimierte Ram-Module der Radeon-Serie, sind bei AMD die Kosten für GDDR5 auf dem selben Preis-Niveau fast wie bei durchschnittlichen DDR3 Ram-Module mit 1866 MHz.
 
Zuletzt bearbeitet:
Die frage aber, die ich mich stelle, wenn man VLIW5 wie bei der Wii, verbaut, kann man im grassen Gegensatz zum Desktop mehr Performance rausholen ? da man sich ja immer auf den einen und selben Chip konzentriert ? Somit ist trotz VLIW5 eventuell ein Effizienzvorteil gegeben ?

Ja man muss halt stärker optimieren. Man muss selbst Vektordatentypen verwenden oder das Programm so strukturieren, damit der Compiler selbst vektorisieren kann. Dadurch hat man ein zusätzliches Performancerisiko, welches man beim Programmieren beachten muss. Da auf dem Desktop die meisten Programmierer allerdings nur einen Code für alle möglichen GPUs anfertigen ohne auf die Eigenheiten der GPUs einzugehen sind Vektorarchitekturen dementsprechend dort im Alltag unterlegen. Hat man aber nur eine GPU, auf der das Programm laufen muss, so bedeutet das Optimieren viel weniger Aufwand, weshalb es wahrscheinlicher ist, dass solche Optimierungen durchgeführt werden.

Btw: Weiss jemand zufällig wofür bzw. wie AMD bei seiner 5D-Architektur den 5ten Rechenkern bei 4er-Vektorregistern ausnutzt? Denn normalerweise erzeugt afaik bei einer Vektoroperation jeder Rechenkern eine Komponente des Ausgaberegisters indem er jeweils eine Komponente der beiden Eingaberegistern bearbeitet. Somit sehe ich innerhalb meines Wissenhorizonts keinen Nutzen für den 5ten Kern, im AMD-Programming Guide steht nichts dazu und Google spuckt auch nichts brauchbares aus.
 
Nai schrieb:
Beim Compilieren wird wahrscheinlich ein spezieller HSA-Compiler alles GPU-spezifische herausziehen, an den entsprechenden Stellen Verweise auf Bibliotheksfunktionen erstellen, und dann den modifizierten Quelltext von einem normalen x86-Cpp-Compiler bearbeiten lassen.

Dies wird auch bei AMD den Nachteil mit sich bringen, dass der Quelltext nicht mehr reines Cpp ist sondern einige GPU-spezifische Erweiterungen besitzt (zB. für Scratchpadspeicher). Auch bezweifle ich die Ansage, dass man keine API mehr benötigt. Denn irgendwie muss man die diversen GPU-spezifischen Hardwarefunktionalitäten, welche von den Standardlibs nicht unterstützt werden, in Funktionen einbauen, wodurch man wiederum eine Bibliothek mit GPU-spezifischen Funktionalitäten besitzt.

Hier wie es läuft:
http://hsafoundation.com/hsa-developer-tools/
Tools Programmers will be able to leverage HSA Runtime to build custom tools at different layers in the stack. HSAIL + AQL for full custom compilers ( GCC, etc) and Virtual Machines ( JVM,etc) , as well as leverage HSA enabled LLVM compiler stack, which generates HSAIL Binaries, for building compilers leveraging their choice in front ends.

HSAIL is HSA Intermediate Language which is the assembly language of HSA. LLVM compiler outputs to HSAIL binary object format which the HSA Finalizer ingests then translate to the native machine code of the Throughput computing unit( GPU, SPU)
 
Btw: Weiss jemand zufällig wofür bzw. wie AMD bei seiner 5D-Architektur den 5ten Rechenkern bei 4er-Vektorregistern ausnutzt?
https://www.computerbase.de/2010-12/test-amd-radeon-hd-6970-und-hd-6950/3/
Während ein Barts Shader-Cluster noch grob gesagt aus fünf einzelnen ALUs besteht, von denen eine (T-Unit) komplexer ist um unter anderem Special-Function-Funktionen wie Sinus- und Kosinus-Berechnungen durchzuführen, gibt es auf dem Cayman nur noch vier identische ALUs – die T-Unit entfällt. Für Special-Function-Berechnungen werden drei ALUs gleichzeitig belegt, die dann im Zusammenschluss an solchen Aufgaben rechnen. In einem solchen Rechenfall ist also nur noch eine ALUs für die normalen Rechenaufgaben übrig.
 
Vietcong schrieb:
Da AMD selbst noch einen hohen Grad an Erfahrung im RAM-Bereich hat und dieser Sektor seit circa einen Jahr wieder voll im Betrieb genommen wurde um SSDs auch selbst zu entwerfen und optimierte Ram-Module der Radeon-Serie, sind bei AMD die Kosten für GDDR5 auf dem selben Preis-Niveau fast wie bei durchschnittlichen DDR3 Ram-Module mit 1866 MHz.

Wie jetzt? Ich dachte der Radeon DDR3 RAM wäre einfach nur umgelablet?
Zu den SSDs gibts da Gerüchte das etwas besseres als ein standard SandForce controller verbaut wird mit micron/Samsung Nand?
 
HaZu schrieb:
Wenn ich mir die news so durch lese Frage ich mich irgendwie warum da vorher noch keiner drauf gekommen ist

sowas gabs alles schon vor zig jahren, so neu ist die idee also gar nicht, nur aufgewärmt ;).
 
Vietcong schrieb:
Da AMD selbst noch einen hohen Grad an Erfahrung im RAM-Bereich hat und dieser Sektor seit circa einen Jahr wieder voll im Betrieb genommen wurde um SSDs auch selbst zu entwerfen und optimierte Ram-Module der Radeon-Serie, sind bei AMD die Kosten für GDDR5 auf dem selben Preis-Niveau fast wie bei durchschnittlichen DDR3 Ram-Module mit 1866 MHz.
Sorry, aber dass musst du mal näher erläutern. Wie können durch den Vertrieb von umgelabelten OEM DIMMs die Kosten für DDR3 Speicher oder gar GDDR5 Speicher sinken?
 
AMD hat schließlich alle Trümpfe in der Hand und auch ein Battlefield wird daran nichts ändern. Schließlich werden die Titel (egal was den PC-Spielern über Tesselation-DX11-Superfeatures erzählt wird) für Konsolen optimiert und die sind dann alle von AMD.

Hmm nur inwiefern unterscheidet sich der Rest der CPU von Intel? Der Befehlssatz ist doch der selbe, und sämtliche extra Featers werden bestimmt in den synthetischen Benchmarks abgeschaltet, dann kann sich AMD die Entwicklung auch schenken. Man schaue sich nur mal die FX Reihe an, die theoretisch in einer Liga mit dem i7 mitspielt, nur dass die Benchmark shalt auf den i7 zugeschnitten sind. Im übrigen nicht ganz zu unrecht, die allgemeine Software ja auch.
 
Zurück
Oben