@Gohst: Grunsätzlich stimme ich dir zu, dass viel Leistung verschenkt wird, weil viel notwendige Optimierung nicht stattfindet (z.B. bei alten Fortran Codes). AVX512 ist trotzdem recht nützlich, z.B. weil für sehr oft benötigte Matrixmultiplikationen Bibliotheken verwendet werden, z.B. Intels MKL. Damit profitiert man direkt von AVX512. Ähnlich z.B. bei anderen Algorithmen aus der linearen Algebra (BLAS) oder auch bei FFTs.
Bzgl. NUMA:
Der Infinity-Fabric erschwert das Programmieren. Effektiv ist ein 2-Sockel AMD Epyc 64-Kern System ein 8-fach NUMA System. Der Grund für diese Betrachtung ist die relativ niedrige Bandbreite durch die Infinity Fabric (und auch die höheren Latenzen). Das sollte besonders bei klar Speicherlimiterten Algorithmen zuschlagen, z.B. der Lattice-Boltzmann Methode. Hier muss man wesentlich stärker darauf achten als bei Intel CPUs, dass der Speicher auf dem richtigen lokalen Bereich (hinter dem Controller des eigenen Dies) liegt. Ähnliche Probleme gab's auch schon mit AMD Orochi (2x4 Module Bulldozer), der auch ein Multi-Chip-Modul war.
Es gibt auch noch ganz andere Faktoren, z.B. das Wissenschaftler in dem Bereich hohe Leistungen berichten müssen, und zwar in FLOPS, das ist dank AVX512 wesentlich einfacher. Und der politische Faktor: Ein Upgrade auf eine Architektur mit der gleichen Pro-Kern Leistung wie Haswell dürfte schwierig sein, besonderes wenn das Basissystem schon (größtenteils) Haswell ist.
Nachtrag: Und Intel hat einen integrierten Interconnect, Intel dürfte besser verfügbar sein. Manche Codes im HPC nutzen tatsächlich den Intel Compiler. Die meisten Programmierer sind mit Intel Hardware vertraut und nicht mit AMD Hardware. Das Vertrauen in das AMD Ecosystem dürfte auch geringer sein, z.B. bzgl. Prozessorbugs... kommen schon einige Punkte für Intel zusammen.