News HSA-Entwicklerplattformen ab Anfang 2014

Volker

Ost 1
Teammitglied
Registriert
Juni 2001
Beiträge
18.786
AMD hat zur Eröffnung der APU13 bekannt gegeben, dass die initiierte HSA Foundation stetig wachse. Neben weiteren Partnern kündigte der Zusammenschluss der Firmen an, dass ab Anfang 2014 die ersten Entwicklerplattformen bereitstehen sollen.

Zur News: HSA-Entwicklerplattformen ab Anfang 2014
 
Wie war das damals ? Die APU-Foundation ist nur eine Modeerscheinung.

Mit 34 Unternehmen Unternehmen, davon
Founders : AMD, ARM, imagination, Mediatek (Chinas großer Handy Chip Riese) Qualcomm Samsung, Texas Instruments
Promoters: LG Electronics und dann noch unmengen an namhafte Supporters wie Sony, ST Ericsson, ubuntu ect. Im mobilen Sektor at least, könnte sich HSA tatsächlich bald durchsetzen.
 
Zuletzt bearbeitet:
pipip schrieb:
Wie war das damals ? Die APU-Foundation ist nur eine Modeerscheinung.
Weiß nicht, ob das damals gesagt wurde. Aber erst mal muss die Foundation liefern. Bisher hat nur AMD was handfestes, oder?
 
Cr4y schrieb:
Weiß nicht, ob das damals gesagt wurde. Aber erst mal muss die Foundation liefern. Bisher hat nur AMD was handfestes, oder?

Also unterstreichst du den Satz, HSA Foundation ist eine Modeerscheinung.
Aber ja ich gebe dir recht, AMD muss auch was handfestes liefern.
 
Zuletzt bearbeitet:
Ist finde es schlimm dieses „jammern auf hohen Niveau“ da werden irgendwelche Zahlen aus dem Zusammenhang gerissen, genannt und auf einmal ist jeder ein Experte - omg.

Viel wichtiger ist es, dass AMD ein Konzept hat, Integration der Grafikeinheit, Verschmelzungsprozeß GPU CPU, ist sehr weit vorangeschritten, Sinnvolle –verständliche- Erweiterungen, hier sei nur der Gemeinsamer Adressraum genannt, sowohl auf der Befehlsebene als auch bei der Konzeption.

Die Vorteile werden in der und auch mit der Software gemacht und das wiederum entscheiden wir die Nutzer.

Sicherlich ist es richtig, dass AMD eingeschränkt bei den Herstellungsprozess ist, aber es ist nicht "aller Tage Abend" …

Klar, dass Intel und co. alles daran setzten werden, AMD schlecht zu machen, die werden nichts auslassen - aber es ist nicht mehr so wie früher, ein neuer Spieler ist auch noch da ARM Architektur :)

Intel hat nichts mehr vernünftiges zusammen gebracht die letzten 2 Jahre, Prozessoren nach gut dünken, Segmentierung ad absudrum geführt, kaum einer blickt da mehr durch, demnächst werden bestimmte Funktionen nur noch Vormittags, andere nur Nachmittags und die „besonderen“ am Sonntag laufen und nur der „dumme“ Kunde bezahlt, und bezahlt und bezahlt…

Nicht umsonnst versucht gerade jetzt Intel sein ganzes PR-Management auszuwechseln.

AMD hat ein stück Arbeit eingebracht, vor allem Denkarbeit und nun ist es an uns, den Usern, was wir daras machen :)

ops... falscher tread :D na ja passt auch hier ...
 
Zuletzt bearbeitet:
Nu aber mal Butter bei die Fische für die AMD Fans hier ;)

Wo ist jetzt der deutliche Vorteil einer HSA hUMA CPU gegenüber einem Intel ?
Wenn ich den Computer starte , Browser öffne ect. , was macht HSA und hUMA da besser als ein Intel ?
Mit ein bischen Videokodierung können die bei AMD niemand hinterm Ofen hervorlocken, das interessiert keinen gewöhnlichen APU Käufer. Selbst ein Intel steht in diesem Anwendungsbereich konkurenzfähig da..
 
Voyager10 schrieb:
Nu aber mal Butter bei die Fische für die AMD Fans hier ;)

Ja, da bin ich der selben Meinung.

Die wenigsten Programmierer verwenden solche Dinge. Die wenigsten programmieren für Multi-Cores, noch weniger programmieren skalierbar für Multi-Cores, noch weniger verwenden SIMD Befehle und kein Schwein verwendet HSA- & HUMA.
Ich meine HSA ist ja ganz nett, aber es wird den gleichen Verbreitungsgrad finden wie CUDA & OpenCL. Ergo für den Endverbraucher ziemlich uninteressant.
 
Headcool schrieb:
.... Die wenigsten programmieren für Multi-Cores, noch weniger programmieren skalierbar für Multi-Cores, noch weniger verwenden SIMD Befehle und kein Schwein verwendet HSA- & HUMA....

Worauf den bitte auch? Die Unterstützung dafür kommt mit dem Kaveri und in Ansätzen bereits im Kabini, was das heute bringt wird wohl kaum schon jemand sagen können. Es ist ein Zukunftskonzept, wobei die Leistung der Grafikeinheit nicht brach liegt sondern der CPU mehr oder weniger zur Verfügung steht. heute sehen wir maximal Anfänge über Beschleunigung von Flash und Video etc. und da sehen wir sicherlich noch keine Unterschiede zu Intel die in Ihren GPU Einheiten OpenCL und DirectX genauso einbauen. Und das die wenigsten für Multi-Core programmieren dürfte sich schon geändert haben und noch deutlicher ändern.
 
Im endeffekt ist es der direkte "Angriff" aud das Koncept von MS und deren API - DirectX um bei einem Beispiel zu bleiben - Bildschirmdarstellung - Grafik - vereinfacht ausgedrückt, alle Speicherrelevanten aufgaben werden vereinfacht, Memory switching wird komplet entfallen - das wiederung gibt Speicherbandbreite frei die andeweitig genutzt werdan kann nicht zu letzt ein weiteres dominantes Feld wird von MS losgelöst Direct x API - Der Unterschied ist ca. so als wenn du über einen Interpreter gehst oder Maschinennahe programierst, Faktor 1.000 ist keine Seltenheit. Die Verzahnung von CPU und GPU bei der Verarbeitung wird sich in allen Ebenen auswirken und ja der Code wird angepasst werden müssen :)

Da aber MS in der Zukunft mit sicherheit am Gewichtung verlieren wird, egal ob Linux oder anderes System hervorkommt, wird dies sehr wohl ein Aspekt sein, Effektivität.

Weiterer Punkt wird sein, die Wärmeentwicklung wird sinken, da weniger Transistoren gebraucht werden das wiederum kann entweder in höhere Geschwindigkeit umgesetzt werden oder Mehr Funktionen intergriert werden.

Das einzige wo AMD in die Puschen kommen mus ist die Fertigung, das Design und die Idee dahinter ist GUT :)


update: schaut doch gar nicht so schlecht aus :D

http://www.pcgameshardware.de/CPU-H...0K-Kaveri-APU-Battlefield-4-gebencht-1097035/
 
Zuletzt bearbeitet:
mhd_ec_alex schrieb:
Worauf den bitte auch? Die Unterstützung dafür kommt mit dem Kaveri und in Ansätzen bereits im Kabini, was das heute bringt wird wohl kaum schon jemand sagen können. Es ist ein Zukunftskonzept, wobei die Leistung der Grafikeinheit nicht brach liegt sondern der CPU mehr oder weniger zur Verfügung steht. heute sehen wir maximal Anfänge über Beschleunigung von Flash und Video etc. und da sehen wir sicherlich noch keine Unterschiede zu Intel die in Ihren GPU Einheiten OpenCL und DirectX genauso einbauen. Und das die wenigsten für Multi-Core programmieren dürfte sich schon geändert haben und noch deutlicher ändern.

Ist völlig egal ob das ein Zukunftskonzept ist oder nicht. Multi-Core-CPUs gibt es seit Jahren, SIMD noch länger. Das ändert nichts daran, dass Performance (leider) für viele Programmierer komplett irrelevant ist. Man sieht das schön an den Android Apps. Fast jedes neue Android Device hat einen Quadcore, dennoch verwenden nur ca 10% aller Android Apps mehr als einen Core.

lol-manNr.2 schrieb:
@headcool

du hast das Konzept von hsa nicht verstanden

Ich denke das Gleiche von dir.
 
Zuletzt bearbeitet:
anonymous_user schrieb:
Habt ihr wieder den Titel und Inhalt nicht gelesen?



Also wie bitte schön soll jetzt schon irgendein Programmierer hUMA und HSA ausnutzen?
Ihr seid ja echt ein lustiger Haufen...

Ergänzung:
Oracle ist dem HSA Konsortium als Contributor beigetreten!
http://www.planet3dnow.de/cms/5581-oracle-tritt-hsa-konsortium-bei/

Sagt auch niemand.
Ich sage aber, dass sich heute nur sehr wenige Programmierer mit Optimierungen beschäftigen. Optimierungen die weitaus mehr Performance bringen als huma und hsa. Dementsprechend wird es auch nur sehr wenige Programierer geben die sowas implementieren, v.a wenn es sich um Technologien handelt, die nur auf AMD Plattformen funktionieren.

Btw.: Eigentlich sollten die entsprechenden Entwicklerwerkzeuge schon lange vor Release der Hardware bereitstehen. Man kann schließlich auch schon heute AVX512 Code programmieren & testen obwohl Broadwell noch fast ein Jahr auf seinen Release warten lässt.
 
Woher weißt du denn wieviel Performance hUMA und HSA bringen sollen? Da müssen wir aufjedenfall erstmal abwarten. Und hUMA ist auch keine Optimierung in der hinsicht die Programmierer Anwenden müssen, sondern eine vereinfachung des Codes und des Umgangs mit Speicher. Durch hUMA müssen ja dann nichtmehr Speicherbereiche hin und hergeschoben werden weil die CPU&GPU den gleichen Speicherbereich nutzen.

Und Programmierer werden sich momentan zwangsweise damit beschäftigen. Im Grunde alle die sich mit der Programmierung für XBox One und PS4 beschäftigen, die beide schon Grundlegende HSA Features beherrschen. Und die können ihr Wissen dann auch auf den PC Übertragen, wofür ja Mantle wiederum zuständig sein wird.

Außerdem Funktioniert ja HSA nicht nur auf AMD Plattformen, dafür ist ja die HSA Foundation, jeder der dort angehörig ist, hat je nach "Membership" mehr oder weniger Mitbestimmungsrecht. Da sind mittlerweile abgesehen von Nvidia und Intel alle Branchen Größen Vertreten.
Um mal ein paar zu nennen die zu Founders gehören (höchstes Mitbestimmungsrecht): ARM, Samsung, Texas Instruments, Imagination, Qualcomm, Mediatek.


Und AVX512 lässt sich mit dem Umfang von HSA nichtmal im Ansatz vergleichen.
Es werden schon seit längerer Zeit viele Vorkehrungen getroffen für HSA. Deshalb gibt es ja bald Mantle, nächstes Jahr die HSA Entwicklerplattform, PGI ist wohl in Partnerschaft mit AMD an einem Compiler der ohne großes zutun die HSA Erweiterungen nutzt, und Java soll darum erweitert werden:
Our work with the HSA Foundation will help provide Java developers with the ability to quickly leverage GPU acceleration, and explore how the Java Virtual Machine (JVM), as well as the Java language and APIs, might be enhanced to allow applications to take advantage of heterogeneous compute.
Sagt der Vice President of Development Nandini Ramani von Oracle.

AVX512 kann man sich eher wie die kleinste Untermenge von HSA vorstellen. Ein ganz kleines teilchen von HSA.
 
Zuletzt bearbeitet:
anonymous_user schrieb:
Woher weißt du denn wieviel Performance hUMA und HSA bringen sollen? Da müssen wir aufjedenfall erstmal abwarten. Und hUMA ist auch keine Optimierung in der hinsicht die Programmierer Anwenden müssen, sondern eine vereinfachung des Codes und des Umgangs mit Speicher. Durch hUMA müssen ja dann nichtmehr Speicherbereiche hin und hergeschoben werden weil die CPU&GPU den gleichen Speicherbereich nutzen

Natürlich muss man die genaue Performance abwarten. Aber eine grobe Einschätzung kann man dennoch vornehmen.

Die Programmierer haben vor kurzem einen Vergleich von plain C-Code und AVX2 optimierten Code veröffentlicht. Durchschnittliche Verbesserung: ~15(nicht %, sonder Faktor!). Wenn man nach Optimierungspotential sucht dann ist SIMD der Ort wo man sie findet.

Auch durch Multicore-optimierung sollte man einen netten Faktor von ca. 90%* der Kernanzahl mitnehmen können. Bei einem Quadcore sind das immerhin 360%.

Wieviel huma bringt kann man leicht abschätzen. Man sieht sich einfach an wieviel % der Zeit bei einer grafikintensiven bzw. GPGPU-Anwendung für das Kopieren von CPU zu GPU und umgekehrt "verschwendet" wird. Wenn 50% der Zeit dafür draufgehen würde, dann würde die Anwendung doppelt so schnell werden. Unglücklicherweise für huma wird bei weitem nicht soviel Zeit für sowas verschwendet. Sieht man auch daran, dass PCIe3 im vgl. zu PCIe2 nicht viel Performance für Grafikkarten gebracht hat obwohl sich der Durchsatz verdoppelt hat. Dementsprechend niedrig ist auch der dafür zu erwartende Performanceschub für huma.

Für hsa sieht es sogar noch schlimmer aus. HSA ist nichts anderes als vereinfachtes GPGPU für die APU. GPGPU würde sich am meisten dort lohnen, wo starke Grafikkarten verbaut werden. Dort hat es sich aber auch nicht wirklich durchgesetzt. Schon gar nicht im Konsumentenbereich. Wenn die Softwareentwickler nicht bereit sind am Desktopmarkt GPGPU zu verwenden, werden sie es im Bereich der APUs noch weniger tun.

anonymous_user schrieb:
Und Programmierer werden sich momentan zwangsweise damit beschäftigen. Im Grunde alle die sich mit der Programmierung für XBox One und PS4 beschäftigen, die beide schon Grundlegende HSA Features beherrschen. Und die können ihr Wissen dann auch auf den PC Übertragen, wofür ja Mantle wiederum zuständig sein wird.

Auf Konsolen laufen Grafikintensive Anwendungen. Glaubst es ist intelligent der GPU die eh schon voll ausgelastet ist noch GPGPU Aufgaben aufzuhalsen?

anonymous_user schrieb:
Außerdem Funktioniert ja HSA nicht nur auf AMD Plattformen, dafür ist ja die HSA Foundation, jeder der dort angehörig ist, hat je nach "Membership" mehr oder weniger Mitbestimmungsrecht. Da sind mittlerweile abgesehen von Nvidia und Intel alle Branchen Größen Vertreten.
Um mal ein paar zu nennen die zu Founders gehören (höchstes Mitbestimmungsrecht): ARM, Samsung, Texas Instruments, Imagination, Qualcomm, Mediatek.

Momentan sind nur Produkte von AMD mit HSA angekündigt. Und von der ganzen ARM-Delegation halte ich auch nichts. Vor 2 Jahren war ARM x86 in Sachen Energieeffizienz weit überlegen. Heutzutage nichtmehr. Wie kann man in nur 2 Jahren so einen Vorteil einfach verlieren?

Die letzte Spitzenidee von ARM in Sachen heterogener Prozessorarchitektur namens "big.little" ist ja einfach so geplatzt. Im Endeffekt haben die ARM-Lizenznehmer die nicht darauf gesetzt haben wie Qualcomm die größten Gewinne verbucht.

anonymous_user schrieb:
Und AVX512 lässt sich mit dem Umfang von HSA nichtmal im Ansatz vergleichen.
Es werden schon seit längerer Zeit viele Vorkehrungen getroffen für HSA. Deshalb gibt es ja bald Mantle, nächstes Jahr die HSA Entwicklerplattform, PGI ist wohl in Partnerschaft mit AMD an einem Compiler der ohne großes zutun die HSA Erweiterungen nutzt, und Java soll darum erweitert werden:

Sagt der Vice President of Development Nandini Ramani von Oracle.

Immer diese Mär vom allmächtigen Compiler. Um HSA automatisch ausnützen zu können müsste der Compiler irgendwelche Code Fragmente stark parallelisieren können. Wenn das gehen würde, könnte er sie auch schwach parallelisieren um sie MultiCore tauglich zu machen. Alle Technologie in diesem Bereich sind seit Jahren im Anfangsstadium und das wird sich so schnell auch nicht ändern. Und wer bitte benutzt den PGI Compiler?

Und in Java zu optimieren ist inetwa so als ob man den Ozean leertrinken möchte - sinnlos. Java ist ein einziger großer Flaschenhals.

anonymous_user schrieb:
AVX512 kann man sich eher wie die kleinste Untermenge von HSA vorstellen. Ein ganz kleines teilchen von HSA.

Also wenn ich dieses Kommentar lese frage ich mich wirklich wieviel Ahnung du davon hast wovon du sprichst.
AVX512 als Untermenge von HSA? Wie kann denn eine Befehlssatzerweiterung Untermenge eines Standarts für reibungslose Zusammenarbeit zwischen CPU und GPU(nichts anderes ist HSA) sein?

Und um konkrete Zahlen bezüglich des Umfangs zu nennen: Die HSA Programmers Reference Manual hat ~350 Seiten. Die Intel Architecture Instruction Set Extensions Programming Reference hat ~930 Seiten, davon ca. 800 für AVX512.

Du kannst auch davon ausgehen, dass AVX512 eine weitere Verdopplung des Integer und FP- Throughput zur Folge haben wird, also mehr als man von HSA jemals sehen wird.
 
Headcool schrieb:
Wieviel huma bringt kann man leicht abschätzen. Man sieht sich einfach an wieviel % der Zeit bei einer grafikintensiven bzw. GPGPU-Anwendung für das Kopieren von CPU zu GPU und umgekehrt "verschwendet" wird. Wenn 50% der Zeit dafür draufgehen würde, dann würde die Anwendung doppelt so schnell werden. Unglücklicherweise für huma wird bei weitem nicht soviel Zeit für sowas verschwendet. Sieht man auch daran, dass PCIe3 im vgl. zu PCIe2 nicht viel Performance für Grafikkarten gebracht hat obwohl sich der Durchsatz verdoppelt hat. Dementsprechend niedrig ist auch der dafür zu erwartende Performanceschub für huma.
Das habe ich doch schon in meinem letzten Post erklärt...
hUMA ist in der hinsicht keine Optimierung. Immernoch: hUMA erspart dem Programmierer jeden Vorgang des hin und her Kopierens von Speicherbereichen. Da wird nichts zusätzlich im Code benötigt, sondern weggelassen!
Und was soll denn bitte der Hinweis dazu dass PCIe 3.0 keinen Performance Vorteil bringt? Wir reden hier immer noch von HSA, nochmal als erklärung von was wir hier reden:
Die Heterogenous System Architecture (kurz HSA, ehemals Fusion System Architecture) ist ein von AMD entwickelte Prozessorkonzept, um Haupt- und Grafikprozessor möglichst effizient auf einem Computerchip (Die) zu vereinen und dadurch das Ausführen von spezialisierten Programmen zu beschleunigen.
http://de.wikipedia.org/wiki/Heterogeneous_System_Architecture
Dein Vergleich mit PCIe2 vs. PCIe3 hat also rein garkeinen Wert um daraus irgendwelche Schlüsse zu ziehen die man auf APU's Anwenden kann.


Headcool schrieb:
Für hsa sieht es sogar noch schlimmer aus. HSA ist nichts anderes als vereinfachtes GPGPU für die APU. GPGPU würde sich am meisten dort lohnen, wo starke Grafikkarten verbaut werden. Dort hat es sich aber auch nicht wirklich durchgesetzt. Schon gar nicht im Konsumentenbereich. Wenn die Softwareentwickler nicht bereit sind am Desktopmarkt GPGPU zu verwenden, werden sie es im Bereich der APUs noch weniger tun.
Und auch das ist mal wieder Apfel & Birnen... Ein teil von HSA ist u.a. hUMA, womit schon der ganze Absatz wiederlegt ist.
Aber rate doch mal, vielleicht ist ja die HSA Entwicklerplattform genau dafür gedacht u.a. den Entwicklern die Nutzung der GPU durch eben solche Dinge wie hUMA einfacher zu machen! Das ist das Typische Henne Ei Problem. Wäre deine Aussage zutreffend, würden wir heute noch Rechenschieber benutzen, die waren zu der Zeit schließlich für jeden Verständlich und Zugänglich.


Headcool schrieb:
Auf Konsolen laufen Grafikintensive Anwendungen. Glaubst es ist intelligent der GPU die eh schon voll ausgelastet ist noch GPGPU Aufgaben aufzuhalsen?
Und schon wieder die Leier von GPGPU. Das die GPU eventuell durch weniger nötige Speicheroperationen und LowLevel Optimierungen wieder Luft nach oben hat ist nicht möglich? Und es geht bei HSA immernoch nicht nur um GPGPU, andere Szenarien seitens AMD sehen nämlich vor eine Aufgabe auf CPU und GPU gleichzeitig zu beschleunigen.
Davon ab, der Wunsch von Dice und EA(die auch schon 15 Titel angekündigt haben) nach Mantle zeigt wohl ganz eindeutig dass da noch einiges geht.


Headcool schrieb:
Momentan sind nur Produkte von AMD mit HSA angekündigt. Und von der ganzen ARM-Delegation halte ich auch nichts.
Ja momentan gibt es nur Produkte von AMD, aber dass die von mir oben genannten "Founder" Firmen jeweils der HSA Foundation 125.000$ im Jahr bezahlen liegt sicherlich nicht daran dass die unglaublich gerne Inhaltslose AMD Vorträge anhören und in alldem keinen Sinn sehen. Früher oder später werden die HSA Paradigmen selber Implementieren, oder AMD HSA Produkte nutzen.


Headcool schrieb:
Vor 2 Jahren war ARM x86 in Sachen Energieeffizienz weit überlegen. Heutzutage nichtmehr. Wie kann man in nur 2 Jahren so einen Vorteil einfach verlieren?

Die letzte Spitzenidee von ARM in Sachen heterogener Prozessorarchitektur namens "big.little" ist ja einfach so geplatzt. Im Endeffekt haben die ARM-Lizenznehmer die nicht darauf gesetzt haben wie Qualcomm die größten Gewinne verbucht.
Den Vorteil hat man nicht verloren, nur Fertigt Intel seine Chips schneller in kleineren Strukturen. Intels neuster ATOM kann dem Apple A7 nichtmal im Ansatz das fürchten lehren. Einerseits weil Apple gute Chipdesigner übernommen hat in den letzten Jahren, und anderseits weil der A7 seine 64Bit ausspielen kann im Vergleich zu Intel mit Windows Tablets oder Android Smartphones. Das 5S ist in fast allen Disziplinen schneller als Baytrail. Stromverbrauch liegt gleich auf, und das bei 28nm A7 vs. 22nm Bay Trail.

Und die letzte Spitzenidee wurde garnicht in die Tonne gekloppt, nur ist erstmal die Entwicklung von ARMv8 SoC's für alle beteiligten erstmal Interessanter. Ohne zusätzlichen Verbrauch bei Wechsel von 32nm auf 28nm verdoppelt sich die Rechenleistung bei Entsprechendem 64Bit OS.


Headcool schrieb:
Immer diese Mär vom allmächtigen Compiler. Um HSA automatisch ausnützen zu können müsste der Compiler irgendwelche Code Fragmente stark parallelisieren können. Wenn das gehen würde, könnte er sie auch schwach parallelisieren um sie MultiCore tauglich zu machen. Alle Technologie in diesem Bereich sind seit Jahren im Anfangsstadium und das wird sich so schnell auch nicht ändern. Und wer bitte benutzt den PGI Compiler?
Du betrachtest dass alles einfach zu Schwarz & Weiß. Wenn die Möglichkeit besteht, kann man auf der APU auch einfach auf beiden Einheiten beschleunigen anstatt nur CPU oder GPU. Davon ab soll wohl der Standard Compiler LLVM werden/sein.


Headcool schrieb:
Und in Java zu optimieren ist inetwa so als ob man den Ozean leertrinken möchte - sinnlos. Java ist ein einziger großer Flaschenhals.
Mann muss Java nicht mögen, aber die meistgenutzte Programmiersprache HSA Tauglich zu machen kann in jedem Fall nur Sinnvoll sein.


Headcool schrieb:
Also wenn ich dieses Kommentar lese frage ich mich wirklich wieviel Ahnung du davon hast wovon du sprichst.
AVX512 als Untermenge von HSA? Wie kann denn eine Befehlssatzerweiterung Untermenge eines Standarts für reibungslose Zusammenarbeit zwischen CPU und GPU(nichts anderes ist HSA) sein?
Das brauchste mir nicht sagen, du vergleichst eine einzelne Befehlssatzerweiterung mit ganzen Hardware Standards und Programmier Paradigmen. Und nebenbei Diskutierst du über HSA, hast das Konzept aber allem Anschein nach garnicht verstanden.
Ich hab auch garnicht bezweifelt das AVX512 in irgendeiner weise Nutzlos ist oder wenig bringen würde. Aber HSA, das ein Konzept ist wie die Hardware zu sein hat, die wiederum aus CPU&GPU besteht, die wiederum aus einzelnen Registern Besteht, die wiederum für Unterschiedliche Befehlssatzerweiterungen genutzt werden wie eben AVX512, sollte doch einleuchten? Und da haben wir nicht mal die Software Seite Berücksichtigt, die u.a. Compiler & Programmiersprachen Anpassungen, Integration/Entwicklung unterschiedlicher API's und Schlussendlich der Entwicklerplattform als Gesamtes, benötigt.

Und zu den Reference Programming Manuals: Wie schon gesagt, die AMD Entwicklerplattform ist noch nicht beendet, Einsicht in alle Dokumente zu HSA haben wir wahrscheinlich (im moment noch) garnicht. In dem von dir genannten Dokument geht es nämlich nur um die dort genannten HSA Teile, nur ist das leider nicht alles. Und in dem Intel Dokument geht es "nur" bis Seite 100 um AVX512, die Restlichen Seiten drehen sich um alle Art AVX und SSE Befehle soweit ich das gesehen habe. Und das Inhaltsverzeichnis dessen scheint mir da auch recht zu geben.


Zum Rest: Abwarten und Tee trinken. Mutmaßungen was wieviel bringt ist zum jetzigen Zeitpunkt viel zu gewagt. Und selbst wenn Int und Float Throughput verdoppelt werden, die muss man erstmal auf die Straße bringen.
 
Zuletzt bearbeitet:
anonymous_user schrieb:
Das habe ich doch schon in meinem letzten Post erklärt...
hUMA ist in der hinsicht keine Optimierung. Immernoch: hUMA erspart dem Programmierer jeden Vorgang des hin und her Kopierens von Speicherbereichen. Da wird nichts zusätzlich im Code benötigt, sondern weggelassen!
Und was soll denn bitte der Hinweis dazu dass PCIe 3.0 keinen Performance Vorteil bringt? Wir reden hier immer noch von HSA, nochmal als erklärung von was wir hier reden:

huma ist eine Optimierung. Eine die nicht "automatisch" verwendet wird. Da muss zuerst jemand hergehen und die entsprechende API wie D3D, OGL, OCL anpassen(sodass entsprechender Code zum Kopieren weggelassen wird). Soweit ich weiß nimmt MS keine Dinge in seinen Standart auf, die nur ein Hersteller beherrscht und in OGL, OCL habe ich sowas auch noch nicht gesehen. Da könnte AMD höchstens eine Extension schreiben, welche aber nicht automatisch genutzt wird.
Daher macht auch Mantle Sinn.

anonymous_user schrieb:
http://de.wikipedia.org/wiki/Heterogeneous_System_Architecture
Dein Vergleich mit PCIe2 vs. PCIe3 hat also rein garkeinen Wert um daraus irgendwelche Schlüsse zu ziehen die man auf APU's Anwenden kann.

Wir reden hier von HSA, ja. Und ich bin mir im Klaren darüber dass in einer APU kein PCIe verläuft. Aber das Problem, dass Speicher von CPU zur GPU kopiert werden muss besteht sowohl in einer APU als auch in einem getrennten System. In einer APU wird von RAM nach RAM kopiert, in einem getrennten System von RAM nach VRAM. Wenn jetzt die Verdopplung dieser Geschwindigkeit in einem getrennten System(Wechsel von PCIe2.0 auf PCIe3.0) keine Performance bringt ist der Kopiervorgang kein Flaschenhals, was natürlich auch für das System mit APU gilt. Logischerweise hat es keine großen positiven Performanceauswirkungen, wenn man etwas optimiert, das kein Flaschenhals ist.

anonymous_user schrieb:
Und auch das ist mal wieder Apfel & Birnen... Ein teil von HSA ist u.a. hUMA, womit schon der ganze Absatz wiederlegt ist.
Aber rate doch mal, vielleicht ist ja die HSA Entwicklerplattform genau dafür gedacht u.a. den Entwicklern die Nutzung der GPU durch eben solche Dinge wie hUMA einfacher zu machen! Das ist das Typische Henne Ei Problem. Wäre deine Aussage zutreffend, würden wir heute noch Rechenschieber benutzen, die waren zu der Zeit schließlich für jeden Verständlich und Zugänglich.

Mag sein dass huma Teil von HSA ist, aber da huma auch ohne HSA möglich wäre, kann man schlecht den huma Performanceschub zum HSA Performanceschub dazuzählen.
Und ja durch huma wird GPGPU einfacher. Aber leider nicht viel einfacher, sondern nur minimal, da man nach wie vor Funktionen schreiben muss die hochparallelisierbar sind. Etwas, das normale Softwareentwickler einfach nicht machen.
Und wenn man die theorethische Performance perfekter Software mit typischer Performance reeler Software im Laufe der Zeit vergleicht, wird man bemerken, dass noch nie so ineffizient programmiert wird wie heute. Sieht man auch schön an häufig verwendeten Programmiersprachen: Assembly -> Fortran -> C -> C++ -> Java -> HTML5?
Das liegt auch nicht am Henne-Ei Problem, sondern ganz einfach daran, dass Performance ziemlich billig ist. Deswegen haben solche Technologien wie GPGPU & Co im Consumer Bereich sehr wenig Erfolg. Nur im HPC Bereich sieht es besser aus, aber die verwenden keine APUs.

anonymous_user schrieb:
Und schon wieder die Leier von GPGPU. Das die GPU eventuell durch weniger nötige Speicheroperationen und LowLevel Optimierungen wieder Luft nach oben hat ist nicht möglich? Und es geht bei HSA immernoch nicht nur um GPGPU, andere Szenarien seitens AMD sehen nämlich vor eine Aufgabe auf CPU und GPU gleichzeitig zu beschleunigen.
Davon ab, der Wunsch von Dice und EA(die auch schon 15 Titel angekündigt haben) nach Mantle zeigt wohl ganz eindeutig dass da noch einiges geht.

Der Hauptzweck von HSA ist GPGPU. Der Hauptzweck von huma ist sich Kopieroperation zu sparen. Aber wie oben schon erwähnt wird das nicht viel bringen da es kein Flaschenhals ist. Dementsprechend hat die GPU auch nicht viel mehr Zeit als vorher.
Typischerweise ist die GPU eher der Flaschenhals als die CPU, weswegen man immer noch keine GPGPU Aufgaben der Grafikkarte überlassen sollte, trotz HSA.

anonymous_user schrieb:
Ja momentan gibt es nur Produkte von AMD, aber dass die von mir oben genannten "Founder" Firmen jeweils der HSA Foundation 125.000$ im Jahr bezahlen liegt sicherlich nicht daran dass die unglaublich gerne Inhaltslose AMD Vorträge anhören und in alldem keinen Sinn sehen. Früher oder später werden die HSA Paradigmen selber Implementieren, oder AMD HSA Produkte nutzen.

Für solche Unternehmen sind das Peanuts. Soviel verdient wahrescheinlich der durchschnittlich US-Mitarbeiter. Ich denke eher die springen auf den Zug auf um zu schauen wo er hin fährt.


anonymous_user schrieb:
Den Vorteil hat man nicht verloren, nur Fertigt Intel seine Chips schneller in kleineren Strukturen. Intels neuster ATOM kann dem Apple A7 nichtmal im Ansatz das fürchten lehren. Einerseits weil Apple gute Chipdesigner übernommen hat in den letzten Jahren, und anderseits weil der A7 seine 64Bit ausspielen kann im Vergleich zu Intel mit Windows Tablets oder Android Smartphones. Das 5S ist in fast allen Disziplinen schneller als Baytrail. Stromverbrauch liegt gleich auf, und das bei 28nm A7 vs. 22nm Bay Trail.

Ich nehme an du beziehst dich auf den Anandtech Test. Der bestätigt dein Aussage auf den ersten Blick. Auf den zweiten widerlegt er sie aber. In diesem Test werden hauptsächlich Benchmarkes verwendet die nur einen bis zwei Kerne unterstützen(Geekbench ist eine Ausnahme). Je nach Benchmark ist der A7 vorne oder der Baytrail. Da der A7 ein Dualcore ist, ist er zu 50% bzw. zu 100% ausgelastet. Der Baytrail dagegen nur zu 25% bzw. 50%. Unter Vollast verbraucht der A7 etwas weniger als der Baytrail. Da der Baytrail aber nur halb so stark ausgelastet ist wie der A7 impliziert das, dass der Baytrail wesentlich weniger Energie verbraucht und so effizienter ist. Und bei optimierten Apps ist der Baytrail dann doppelt so schnell.
Bei der GPU ist der A7 natürlich besser. Auf der anderen Seite gibt es keine Android-Spiele, die man mit Baytrail nicht auf max spielen könnte, weswegen das auch nicht wirklich so relevant ist wie es gerne dargestellt wird.

anonymous_user schrieb:
Und die letzte Spitzenidee wurde garnicht in die Tonne gekloppt, nur ist erstmal die Entwicklung von ARMv8 SoC's für alle beteiligten erstmal Interessanter. Ohne zusätzlichen Verbrauch bei Wechsel von 32nm auf 28nm verdoppelt sich die Rechenleistung bei Entsprechendem 64Bit OS.

Qualcomm hat gesagt, dass sie big.little nicht verwenden werden. Und damit hatten sie im Vgl zum Tegra4 und Exynos Octa jede Menge Design Wins.

anonymous_user schrieb:
Du betrachtest dass alles einfach zu Schwarz & Weiß. Wenn die Möglichkeit besteht, kann man auf der APU auch einfach auf beiden Einheiten beschleunigen anstatt nur CPU oder GPU. Davon ab soll wohl der Standard Compiler LLVM werden/sein.

Du kannst mir glauben, dass es heute unter normalen Umständen nicht möglich ist ein Programm automatisch zu parallelisieren. Und angesichts der Komplexität in dem Bereich und der Tatsache, dass man vor algorithmisch unlösbaren Problemen steht wird das auch noch Jahrzehnte dauern.

anonymous_user schrieb:
Mann muss Java nicht mögen, aber die meistgenutzte Programmiersprache HSA Tauglich zu machen kann in jedem Fall nur Sinnvoll sein.

Da es nicht automatisch gehen wird, darf dann ein Java Programmierer GPGPU verwenden. Ein sehr schöner Zielgruppenfail.

anonymous_user schrieb:
Das brauchste mir nicht sagen, du vergleichst eine einzelne Befehlssatzerweiterung mit ganzen Hardware Standards und Programmier Paradigmen. Und nebenbei Diskutierst du über HSA, hast das Konzept aber allem Anschein nach garnicht verstanden.
Ich hab auch garnicht bezweifelt das AVX512 in irgendeiner weise Nutzlos ist oder wenig bringen würde. Aber HSA, das ein Konzept ist wie die Hardware zu sein hat, die wiederum aus CPU&GPU besteht, die wiederum aus einzelnen Registern Besteht, die wiederum für Unterschiedliche Befehlssatzerweiterungen genutzt werden wie eben AVX512, sollte doch einleuchten? Und da haben wir nicht mal die Software Seite Berücksichtigt, die u.a. Compiler & Programmiersprachen Anpassungen, Integration/Entwicklung unterschiedlicher API's und Schlussendlich der Entwicklerplattform als Gesamtes, benötigt.

Nein, du hast das Konzept nicht verstanden. HSA referenziert zwar die CPU und die GPU, beinhaltet sie aber nicht. HSA ist nur der Teil in CPU&GPU der dafür sorgt dass keine Fehler entstehen wenn CPU & GPU auf die gleichen Daten zugreifen. Also bspw. um False Sharing zu vermeiden.
Und bezüglich Umfang: HSA muss sich auf kleinen dies für mobile SoCs unterbringen lassen, AVX512 wird für Jahre nur auf den großen dies für HPC, Server und Desktops zu finden sein. Der Grund liegt einfach im viel höheren Flächenbedarf.

anonymous_user schrieb:
Und zu den Reference Programming Manuals: Wie schon gesagt, die AMD Entwicklerplattform ist noch nicht beendet, Einsicht in alle Dokumente zu HSA haben wir wahrscheinlich (im moment noch) garnicht. In dem von dir genannten Dokument geht es nämlich nur um die dort genannten HSA Teile, nur ist das leider nicht alles. Und in dem Intel Dokument geht es "nur" bis Seite 100 um AVX512, die Restlichen Seiten drehen sich um alle Art AVX und SSE Befehle soweit ich das gesehen habe. Und das Inhaltsverzeichnis dessen scheint mir da auch recht zu geben.

AMD sollte seine Hardware schon fast fertig haben. Da noch die Spezikationen zu ändern ist sogut wie unmöglich.
Bezüglich des Intel Dokuments: Das hast du falsch gesehen. Das ganze Dokument beinhaltet nur zukünftige Befehlssätze. Und Kapitel 5 das von Seite 100 bis 800 reicht beinhaltet ausschließlich AVX512 Befehle.
Um das in Relation zu stellen: Momentanige x86 Referenz beinhaltet 1700 Seiten für GeneralPurpose, x87, MMX, SSEx, AVX(2), TSX. Da sieht man stark der Befehlsatz wächst.

anonymous_user schrieb:
Zum Rest: Abwarten und Tee trinken. Mutmaßungen was wieviel bringt ist zum jetzigen Zeitpunkt viel zu gewagt. Und selbst wenn Int und Float Throughput verdoppelt werden, die muss man erstmal auf die Straße bringen.

Gerade bei SIMD lässt sich der Durchsatz einfach und verlässlich vorraussagen, da die dazu benötigten Informationen offen sind.
Und bisher ist jede Befehlssatzerweiterung auf der Straße gelandet.
 
Headcool schrieb:
huma ist eine Optimierung. Eine die nicht "automatisch" verwendet wird. Da muss zuerst jemand hergehen und die entsprechende API wie D3D, OGL, OCL anpassen(sodass entsprechender Code zum Kopieren weggelassen wird).
Dann sprichst du aber von einer anderen Optimierung als am Anfang der Diskussion. Der Programmierer von "Software XY" nimmt eine Bestimmte API/Compiler und lässt Code einfach weg. Der muss sich nichtmehr mit AMD's HSA auseinandersetzen auf der ebene. AMD und entsprechende Partner haben vorher die (Programmier) Arbeit schon gemacht. Es ist also wenn auf der ebene der API/Prog.-Sprachen/Compiler Optimierungs bedarf nötig. Deshalb macht der Vergleich mit AVX512 auch keinen Sinn. Ohne bestimmte Funktionen/werte kannst aus AVX512 ja gar keinen Vorteil ziehen.

Headcool schrieb:
Soweit ich weiß nimmt MS keine Dinge in seinen Standart auf, die nur ein Hersteller beherrscht und in OGL, OCL habe ich sowas auch noch nicht gesehen.
You can begin developing application today for HSA via OpenCL and C++AMP, this application will automatically take advantage of the infrastructure when HSA enabled device come to market.
HSA is not an alternative to OpenCL. HSA benefits OpenCL by removing memory copies, bringing low latency dispatch, and improving memory model and pointers shared between the CPU and GPU.
http://hsafoundation.com/f-a-q/

Headcool schrieb:
Wir reden hier von HSA, ja. Und ich bin mir im Klaren darüber dass in einer APU kein PCIe verläuft. Aber das Problem, dass Speicher von CPU zur GPU kopiert werden muss besteht sowohl in einer APU als auch in einem getrennten System. In einer APU wird von RAM nach RAM kopiert, in einem getrennten System von RAM nach VRAM. Wenn jetzt die Verdopplung dieser Geschwindigkeit in einem getrennten System(Wechsel von PCIe2.0 auf PCIe3.0) keine Performance bringt ist der Kopiervorgang kein Flaschenhals, was natürlich auch für das System mit APU gilt.
Also bitte ;)
1. Der Sinn GDDR5 Speicher mit 256-512Bit der je nach Taktrate so zwischen 100 bis über 200 GByte/s erreicht und über PCIe 2.0 x16 mit 8 GByte/s (in beide Richtungen) für externen Zugriff angebunden ist mit DDR3 1600 der maximal 25,6 GByte/s erreicht zu vergleichen erschließt sich mir nicht.
2. Teilt sich die GPU den ganzen Spaß auch noch mit der CPU, die "normale Grafikkarte" hat die Ressourcen aber für sich alleine zur Verfügung.
3. Gab es schon Tests in denen der Speichertakt bei APU Systemen erhöht wurde, wodurch die Gesamt Performance leicht gestiegen ist. Wie soll dort also kein Flaschenhals vorliegen? Wenn nun zukünftige APU's den gleichen Speicher verwenden, die GPU&CPU teile aber an Performance zulegen der Flaschenhals größer werden sollte.
4. Wenn heutiger Speicher kein Flaschenhals ist, wieso Microns, Intels und HPs Initiative DDR Speichersystem Nachfolger zu Entwickeln?
(bspw. HMC)


Headcool schrieb:
Mag sein dass huma Teil von HSA ist, aber da huma auch ohne HSA möglich wäre, kann man schlecht den huma Performanceschub zum HSA Performanceschub dazuzählen.
Und ja durch huma wird GPGPU einfacher. Aber leider nicht viel einfacher, sondern nur minimal, da man nach wie vor Funktionen schreiben muss die hochparallelisierbar sind. Etwas, das normale Softwareentwickler einfach nicht machen.
Und es ist immer noch Falsch HSA nur auf GPGPU zu beschränken, nimm dich doch mal dem HSA Konzept an anstatt Sachen zu behaupten die so nicht stimmen. AMD hat einen Windows 8 JPEG Dekoder gezeigt, der CPU+GPU teil von Kaveri nutzt, und halb solange brauch wie der Windows eigene. Und auch da kann ich nur sagen, warte erstmal die HSA Entwicklerplattform ab, benutze jene, dann kannst du aussagen darüber machen was Sache ist und was nicht, anstatt vermutungen Aufzustellen, die auf teilweise falschen Annahmen Fußen.


Headcool schrieb:
Und wenn man die theorethische Performance perfekter Software mit typischer Performance reeler Software im Laufe der Zeit vergleicht, wird man bemerken, dass noch nie so ineffizient programmiert wird wie heute. Sieht man auch schön an häufig verwendeten Programmiersprachen: Assembly -> Fortran -> C -> C++ -> Java -> HTML5?
Ja, und warum nutzt man solche Programmiersprachen? Weil die jeweilige Person lange nicht soviel wissen benötigt wie bei der vorherigen Sprache und jeder Fall schon "einfach Abstrahiert" ist(API Bauteile von Java). Das gleiche trifft aber genau so auf x86 zu. Ist nicht am Effizientesten, sondern am meisten "Kompatibel" und deckt einiges ab.


Headcool schrieb:
Der Hauptzweck von HSA ist GPGPU. Der Hauptzweck von huma ist sich Kopieroperation zu sparen. Aber wie oben schon erwähnt wird das nicht viel bringen da es kein Flaschenhals ist. Dementsprechend hat die GPU auch nicht viel mehr Zeit als vorher.
Nein, gesamt Betrachtet geht es um die Effiziente Verschmelzung von allen Einheiten in der APU, und das Aufgaben Sinnvoll abgearbeitet werden. Heute hat man eher das Problem, entweder ein Programm lässt sich garnicht oder nur mit Hindernissen auf der GPU Berechnen(teils Probleme mit Parallelisierung) oder aber da Programmiert jemand mit dem Ziel etwas NUR auf der GPU Auszuführen. Der Ideale weg ist aber, das die APU alles auf der Einheit Ausführt, auf der es am Besten möglich ist. Ein hindernis dabei ist ja durch hUMA bald beseitigt. Innerhalb eines Programm(ablaufs) können CPU und GPU dann auf die gleiche Adresse zugreifen und Schreiben. GCN war mit der Möglichkeit auf der GPU C++AMP und OpenCL Schnittstellen zu nutzen der erste Schritt.
HSA Foundation members are building a heterogeneous compute software ecosystem which is rooted on open royalty free industry standards. We are looking to bring about applications that blend scalar processing on the CPU, parallel processing on the GPU, and optimized processing of DSP via high bandwidth shared memory access with greater application performance at low power consumption. HSA Foundation is defining key interfaces and for parallel computation utilizing CPU, GPU, DSP’s and other programmable and fixed function devices, which will support a diverse set of high-level programming languages creating the next foundation in general purpose computing.
http://hsafoundation.com/

Headcool schrieb:
Nein, du hast das Konzept nicht verstanden. HSA referenziert zwar die CPU und die GPU, beinhaltet sie aber nicht. HSA ist nur der Teil in CPU&GPU der dafür sorgt dass keine Fehler entstehen wenn CPU & GPU auf die gleichen Daten zugreifen. Also bspw. um False Sharing zu vermeiden.
Und bezüglich Umfang: HSA muss sich auf kleinen dies für mobile SoCs unterbringen lassen, AVX512 wird für Jahre nur auf den großen dies für HPC, Server und Desktops zu finden sein. Der Grund liegt einfach im viel höheren Flächenbedarf.
Nein, HSA ist das ganze Konzept. Darauf wurde die Hardware Angepasst, wobei hUMA der teil ist der sich um die von dir Angesprochenen Speicherprobleme kümmert, und nicht HSA Allgemein. HSA Allgemein sind Hardware und Software Spezifikationen/Standards/Paradigmen.
Daraus Resultierten Hardware Seitig die GCN(1.0/1.1/2.0) Ausbaustufen und Bald die erste richtige "vollwertige" HSA Apu Kaveri.
Software Seitig: HSA Entwicklerplattform, die Vermutlich auch Bolt, HSAIL, Standard Compiler usw. beinhalten. Mantle ist eher als Teilergebnis von HSA anzusehen.

BTW: HSA kommt garnicht auf die kleinen Dies von Mobile SoC's. Die News gab es auch hier bei CB. (Beema&Mullins)

Headcool schrieb:
AMD sollte seine Hardware schon fast fertig haben. Da noch die Spezikationen zu ändern ist sogut wie unmöglich.
Bezüglich des Intel Dokuments: Das hast du falsch gesehen. Das ganze Dokument beinhaltet nur zukünftige Befehlssätze. Und Kapitel 5 das von Seite 100 bis 800 reicht beinhaltet ausschließlich AVX512 Befehle.
Ich meinte auch die Software, nicht die Hardware. Die sollte nächsten Monat versendet werden. Die Softwareseitige Entwicklerplattform wird denke ich mal momentan noch mit den Kaveri ENG Samples "getestet", würde dann auch Zeitlich passen, Januar solls Kaveri im Handel geben, und Entwicklerplattform auch ab nächstes Jahr. Und vermutlich erst dann bekommt man auch die Vollständige Dokumentation usw. Wer weiß was die HSA Foundation Mitglieder jetzt schon zur Verfügung hat.

Und das Intel Dokument: Soweit ich das sehe ist ab Seite 100 von SSE, AVX128, AVX256 und AVX512 die Rede.
 
Zuletzt bearbeitet:
Zurück
Oben