Täte Qualcomm noch darin gerne sehen.
Jetzt mal abgesehen von der fragwürdigen Grammatik (
):
Das ist gar nicht nötig. ARM ist mit dabei und damit hat sich das Thema in dem Bereich erledigt.
Was ARM in sein Design übernimmt, ist in jedem Chip drin. Wenn ARM sich entscheidet HSA zum Standard für jedes Chip Design zu machen, haben alle kleineren Entwickler den mehr oder weniger zwangsweise mit drin, wenn sie sich nicht entscheiden, das wieder bewusst "herauszuentwickeln" - aber das ergibt ja keinen Sinn. Letztendlich werden also auch nVidia mit ihren Tegra Chips und Apple (die ja gern so tun, als hätten sie den AX Prozessor erfunden) HSA in ihren Chips drin. Ob sie das nun nutzen, steht auf einem anderen Blatt.
Aber mittlerweile wird es schon schwierig sich dem Druck zu entziehen. Mit TI, ARM, AMD und Samsung sind dort echte Schwergewichte drin (und ja - AMD ist ein fundamentales Schwergewicht, solange sie der einzige verbliebene X86 Konkurrent zu Intel sind). Als einen der ganz wichtigen Spieler betrachte ich auch Imagination Technologies - von denen kommt die richtig gute PowerVR Serie und sie sind damit einer der wichtigsten mobilen GPU Entwickler neben Qualcomm, TI und ARM selbst und dem noch in die Oberliga aufsteigenden nVidia).
Was sich da allein für meinen Lieblingsbereich die "echten" Computer -sprich X86- für Möglichkeiten ergeben. Bei AMD wird es bald Wirklichkeit. Da gibt es die sehr brachial starken (im Vergleich zu ARM - wenn auch zu Intel tendenziell merklich schwächeren) X86 CPU Kerne, die komplizierte Berechnungen mit hohem Leistungsbedarf (Rechenleistung und Strom) bearbeiten werden. Dazu die wirklich guten AMD GPUs (auf lange Sicht sehe ich die oberhalb von nVidia) für diverse parallele Aufgaben. Und der Clou: Es wird On-Die noch eine ARM CPU unbekannter Bauart (vielleicht ein schneller Dualcore oder sowas) geben. Mittlerweile sind diese ARM GPUs stark genug um potentiell den gesamten Aufwand des OS und der Verwaltungsdienste zu schultern. Ein guter Teil dieser vielen vielen Windows Hintergrundprozesse (bei mir sind es gerade 63 - und es werden eher immer mehr als weniger) könnte bei entsprechender Unterstützung schon heute problemlos auf dem ARM laufen. Dann wird auf der CPU viel Leistung für wirkliche Berechnungen frei. ARM Kerne schaffen es auf absehbare Zeit den gesamten I/O Verkehr samt Datenträgerzugriffen sowie das gesamte OS und einfache Anwendungen sehr sehr sparsam zu schultern. Denkbar wäre es genauso noch eine dieser typischen "ARM GPUs" mit auf das Die zu bringen. Diese brauchen nur lächerlich wenig Chipfläche und nehmen im Bereich von unter einem Watt Strom auf. Mit dieser GPU könnte dann auch wieder alles gemacht werden, was sich im Bereich OS oder 2D abspielt. Und um beim beliebten Beispiel Spiele zu bleiben: Diese GPUs sind auch bald stark genug um als eine Art Co-Prozessor für die GPU zu dienen. Ich denke die Dinger sind schon in der Lage solche Sachen wie Post-Processing AA zu schaffen. Die ARM GPU könnte dann als nachträglichen Effekt so etwas wie TXAA berechnen und es würde wieder etwas Leistung auf der GPU frei. Wie man das alles verbindet, sinnvoll berechnet und verwaltet und es letztendlich im Chip integriert ist die Aufgabe der HSA Foundation. Schätze mal, dass der "Uncore" Bereich in Zukunft dadurch potentiell noch wachsen wird um das alles zu ermöglichen.
Der Unterschied wäre ja nur, dass HSA noch schneller und besser in Qualcomm Chips integriert werden kann.
Würde mich nicht wundern, wenn Qualcomm auch bald einsteigt. Die haben eigene GPUs (die für Mobilgeräte verdammt gut sind) und verdammt gute CPU Designs (Krait!). Wenn sich HSA durchsetzt, können die es sich nicht leisten HSA nicht zu verwenden, da dann auch immer wieder ein Teil des SoCs nichts tut.
Es wird wohl so sein, dass nicht parallelisierbare Aufgaben auf Prozessoren laufen werden, deren IPC und Takt immer weiter steigt (ich denke mal so sehr viel mehr als Quadcores werden wir auf Dauer nicht in Mobilgeräten sehen) und alles, was sich nur ansatzweise irgendwie parallelisieren lässt, wird über die "GPU" laufen - wobei diese getrennten Begriffe wohl obsolet werden.
Hoffe jedenfalls, dass HSA einschlägt wie eine Bombe, da es der erste echte und gute (für den Kunden gut meine ich - CUDA ist so manches - aber das nicht!) Ansatz ist, der einen Lösung für die vorstehende Stagnation anbietet. Irgendwann sind wir so gut wie am Ende der Chipfertigung angekommen - es ist ja schon ein Indiz, dass Intel gewisse Probleme mit dem komplexen Phi hat und die "echten" CPUs in 22nm ordentlich rausgeschoben hat. Sollten Chips dann doch mal die ominösen Strukturbreiten von merklich unter 10nm erreichen, geht es zwangsläufig nicht mehr weiter. Und ich habe schon heute ernsthafte Zweifel, ob so etwas wie 7nm noch wirtschaftlich ist (die Grenze von 120, 90 und 65nm, von der man früher sagte es ist "unmöglich" diese zu durchbrechen, war nur eine Grenze der Vorstellungskraft. Die täuscht uns gern mal - die Physik hingegen lässt sich auch von Intel nicht überlisten). Würde man auf der sturen aktuellen Bahn bleiben, bliebe irgendwann nichts anderes mehr übrig, als die Chips in annähernd gleicher Struktur (vielleicht gibt es noch mini Schritte wie 8 auf 7,5nm) mit jeder Generation etwas größer zu machen, bis man irgendwann bei den "magischen" 500m² ankommt und den Rest nur über die Architektur zu machen. Damit kann man vielleicht ein paar Jahre schinden - aber ewig geht es nicht so weiter. GPUs hingegen bieten heute schon (theoretische) Leistungen im Bereich von Racks mit 4 8-Kern Sandy Bridge E CPUs. Und dass ich das theoretisch dazu schreiben musste, liegt auch nur daran, dass aktuelle Software das noch nicht vernünftig abgreifen kann.
Aber sogar heute: Was ist denn der bessere Ansatz? Ein Rack mit 4 CPUs, die 600W TDP (4*150W)+Kleinkram wie RAM und Chipsätze oder eine GPU mit vielleicht 300W TDP und selber Leistung auf wenig Raum?
Bei der Diskussion muss man aber auch im Auge behalten, dass nicht alles beliebig parallelisierbar ist.
Das ist aber nun auch wieder nicht das Problem. Einzelne CPU Kerne werden auch weiterhin ordentliche Leistungssprünge hinlegen. Wenn man wirklich nur das nötigste auf der CPU macht und absolut alles andere (wirklich alles, da dann mehr Ressourcen für diese "Ein-Thread-Berechnungen" frei sind) auf die ungleich schnellere GPU auslagert, wird das ordentlich Leistung bringen.
Und es ist ja auch nicht unmöglich. Ich erinnere an die Einführung diverser Co. Prozessoren in der Computer Historie. Selbst die heute absolut unverzichtbare FPU war mal nur ein Co. Prozessor, der außerhalb lag. Dazu die GPUs, die erst merklich nach den "CPUs" aufkamen und auch nur sehr spezielle Sachen berechnet haben. Es gab diese ganzen Schritte der Lastverteilung schon. Und die kann man auch wiederholen. Der Schritt, der jetzt ansteht mag ungleich komplizierter sein - aber unser Wissen im Bereich von Logikschaltkreisen bewegt sich auch in ganz anderen Sphären als damals.
Bin also sehr sehr optimistisch und freue mich auf die Zukunft (wenigstens in dem Bereich - in vielen anderen macht sie mir Sorgen)