@[F]L4SH:
Das zweierlei Maß entsteht großteils anscheinend bei den Lesern
.
AVX2 hat bei Haswell viel gebracht weil die APUs und FPUs über die Tick/Tock Zyklen daraufhin angepasst wurden und ich bezweifle, dass es bei AMD im Bereich der Floatingpointoperationen die selben relativen Zuwachs wie bei Haswell geben wird. Wobei ich meine Vermutung damit begründet habe, dass die FPUs der aktuellen AMD CPUs einfach nicht all zu leistungsfähig sind und es kurz vor Zen unwahrscheinlich ist, die FPUs entsprechend umfangreich zu überarbeiten. Wobei die FPUs nicht dadurch leistungsfähiger werden, dass neue Befehle unterstützt werden. Bei Zen erwarte ich dafür größere Sprünge, nur um Zen geht es noch nicht
.
Entsprechend sind da nicht zwei Maße, sondern eine sehr einfache Abschätzung aufgrund bekannter Sachverhalte. Inwieweit die Integerleistung die von AVX2 auch berührt wird skalieren wird, dazu erlaube ich mir keine Aussage.
Zudem habe ich auch an keiner Stelle HSA so verdammt wie du es mir in die Schuhe schieben willst (und soooo übel verklausuliert schreibe ich nicht). Ich gestehe HSA als solches in der Theorie ein hohes Potential zu, jedoch mit klaren Einschränkungen in der Praxis. Derzeit ist es einfach vergleichsweise viel Aufwand HSA Funktionalität zu nutzen, das ganze funktioniert einfach derzeit nicht ohne gezielt daraufhin zu arbeiten und läuft im PC nur auf einer sehr kleinen Anzahl an Systemen und auf Servern eigentlich überhaupt nicht (schlicht und ergreifend weil AMD in der Sparte keine attraktiven Angebote hat).
Wobei die meisten durchaus real vorhanden Demos zu HSA in Form von Benchmarks oftmals methodische Fehler aufweisen.
Das QuickSync total toll ist habe ich nicht geschrieben. Ich habe die div. Hardwareencoder für Videos als Vergleich herangezogen. Eben weil diese Videoencoder zwar verflixt schnell sind (lässt sich mit Benchmarks entsprechend nachweisen), diese Geschwindigkeit bei den meisten Umsetzungen jedoch eine schlechtere Qualität als Softwareencoder bei selber Bitrate liefern oder aber für eine gleiche Qualität eine höhere Bitrate benötigen. Ich hoffe du stimmst mir zu, dass unter dieser Vorraussetzung ein Vergleich der reinen Geschwindigkeit beim Encoding sinnlos ist, da das Ergebnis nicht gleichwertig ist. Diese Betrachtung sparen sich viele OpenCL/HSA Benchmarks jedoch komplett. Da wird gebencht ohne nachvollziehbare Kontrolle, ob diese Benchmarks überhaupt als Vergleich taugen.
Wenn wir schon dabei sind, eine Sache an der Intel arbeitet und die Bestandteil von HSA ist, ist ZeroCopy (nur ohne den HSA "Rattenschwanz"). Bei Intel schaut es so aus, als wäre dies nutzbar ohne zusätzlichen Aufwand zu betreiben. Damit kann man diesen Vorteil nahezu komplett mitnehmen indem man übliche Compiler nutzt. Der zusätzliche Aufwand beim Entwickeln ist also nahezu 0. An der Stelle kann man also ohne Mehraufwand für eine weit verbreitete Hardwareplattform entwickeln -> sinnvoll
So und damit der Post nicht mit "pro Intel" endet und das nicht wieder falsch verstanden werden kann. Klar HSA als Abstrationsschicht um die Funktionalität hardwareübergreifend zwischen x86, ARM und im Zweifelsfall noch anderen ist total klasse. Super Ansatz, gute Idee, in dieser Beziehung besser als Intels Insellösung!