burnbabyburn2 schrieb:
ändert aber nichts dass in den meisten Benchmarks die ich gesehen haben GPUs schneller waren als Xeon Phis
Der einzige Benchmark, der schlussendlich auf den fertigen Systemen einmal läuft ist LINPACK, aber auch nur, um sich ggf. in die Top500-Liste eintragen zu lassen. Danach sieht das System andere Workloads, die mit LINPACK noch soviel zu tun haben, wie Currywurst Pommes und gesunde Ernährung.
Die Technologie wird letztlich danach ausgewählt, wo die größten Chancen bestehen, dass die eigenen Applikationen oder die der Kunden auf möglichst breiter Basis eine hohe Performance liefern und der manuelle und extrem kostenintensive Optimierungsaufwand möglichst klein gehalten wird.
In den letzten Jahren gab es da folgendes zur Auswahl:
1) x86 only (massen von Xeon E5-CPUs über Infiniband oder vergleichbaren Interconnects)
2) x86 + Xeon Phi (KNC) + Infiniband
3) x86 + GPU-Beschleuningung (meistens Nvidia Tesla) + Infiniband
4) BlueGene + GPU-Beschleunigung (meistens Nvidia Tesla) + Infiniband
5) SPARC / Custom DSP / etc.
jetzt kommen
7) Xeon Phi KNL only + OmniPath / Infiniband EDR
8) Xeon E5 + Xeon Phi KNL + OmniPath / Infiniband / Shasta (Cray)
9) Xeon E5 + GPU + NVlink
10) irgendwann vielleicht auch mal POWER8/9 + GPU + NVLink / IB EDR
dazu
Intel hat mit dem Xeon Phi halt mehrere große Vorteile:
a) wessen HPC-Code aktuell rein auf x86 basiert, kommt relativ schnell in den Genuss eines kräftigen Performance-Schubs. Von x86 zu x86 + AVX-512 ist der Weg deutlicher kürzer als bei x86 zu CUDA oder OpenCL
b) bestehende Systeme mit Knights Corner können ggf. einfach durch Knights Landing Karten ersetzt werden. Auch hier ist zwar ein wenig Anpassung notwendig, da die Vektor-Einheit der P54C Kerne nicht binärkompatibel ist aber auch da dürfte Intel die passenden Softwaretools und Entwicklerressourcen bereitstellen, um das Problem zu lösen
c) entfällt bei neuen System nach Wunsch die Host-CPU (Option 7), die ggf. einfach zu Teilen brach liegt, weil eigentlich nur als PCIe-Root missbraucht.
d) bis zu 384 GB an zusätzlichem Systemspeicher direkt an der CPU. Gehen die 16 GB MCDRAM aus, geht die Bandbreite mit 100 statt 500 GB/s zwar deutlich in den Keller, dafür ist aber kein mühsamer Umweg über PCIe notwendig
___
Nebenbei bemerkt ist es schon erstaunlich, dass die TDP mit 245 Watt für das Topmodell doch noch halbwegs moderat. Dafür liegt die Performance mit 3,456 TFLOPs @DP (ohne Turbo) sogar ein kleines Stückchen über der lange Zeit erwarteten 3 TFLOP/s Marke, die auf allen Folien immer zu sehen waren.
Allerdings scheint der 14 nm Prozess nach wie vor so anfällig zu sein, dass selbst ein Ausschuss von 4 defekten Kernen (72 statt 76) nicht ausreichend ist, um eine entsprechende Stückzahl aus den Wafern zu pressen.
___
zu AMD: eigentlich schon verwunderlich, warum man dort nicht einfach mal den Sprung gewagt hat:
64 Cats Cores
2048 GCNs
HBM Speicher
Die Technologie war die letzten Jahre dafür ja grundsätzlich "da". Ist im Prinzip ja nix weiter als eine aufgebohrte Konsolen-Lösung.
So wird eine mögliche Greenland APU zwar vielleicht ganz nett sein aber wenn überhaupt erst 2017/2018 auf den Markt kommen und damit reichlich zu spät. Zu diesem Zeitpunkt werden Nvidia und Intel ihre Position vermutlich soweit gefestigt haben, dass da vermutlich kaum etwas zu holen sein wird.