Inzwischen haben Sie vielleicht eine triumphale Ankündigung des US-Energieministeriums erwartet, dass der Supercomputer Frontier, der bis Ende 2021 als erstes US-System der Exascale-Klasse installiert werden soll, mit allen Systemen in Betrieb genommen wurde. Das DOE (dessen Oak Ridge National Laboratory Frontier beherbergen wird) verzichtet jedoch ab sofort auf eine "Mission accomplished"-Ankündigung und hat stattdessen eine eher formelle Erklärung zum Status von Frontier abgegeben. Die Gerüchte, die in der HPC-Gemeinschaft kursieren und die von Schwierigkeiten in den letzten Phasen der Frontier-Systemintegration und Feinabstimmung berichten, bleiben unbehandelt.
Hier die offizielle Erklärung zum Stand von Frontier, herausgegeben von Mike Bernhardt, Kommunikationsleiter für das Exascale Computing Project des DOE: "Die Partner des ORNL im Exascale-Projekt, HPE und AMD, haben das neue Frontier-System vor dem für diesen Herbst geplanten Termin an das ORNL geliefert. Die Installation und Integration von Frontier, ein massiver, komplexer Aufwand, ist jetzt im Gange, und der derzeitige Fortschritt deutet darauf hin, dass alles auf dem richtigen Weg ist, um Frontier den Nutzern für die offene Wissenschaft im nächsten Jahr zur Verfügung zu stellen - wie erwartet."
Allerdings kursieren in der HPC-Gemeinde auch Gerüchte, dass Frontier noch nicht so weit ist, wie man gehofft hatte. Es heißt zwar, dass Frontier bei einigen Codes beeindruckende Leistungen zeigt, aber es heißt auch, dass die Slingshot-Verbindung, die den riesigen HPE-Cluster zusammenhalten soll, Probleme bereitet. Wo genau die Probleme liegen, ist unklar, aber es gibt Spekulationen, dass sie mit der Integration des HPE Cray-basierten Slingshot mit den AMD EPYC CPUs und Radeon Instinct GPUs zusammenhängen, die Frontier antreiben werden. Es ist möglich, dass das DOE beschlossen hat, die Bekanntgabe der Inbetriebnahme des ersten Exascale-Systems des Landes zu verschieben, bis die gemunkelten Probleme mit den Verbindungen gelöst sind.
insideHPC hat HPE und AMD um eine Stellungnahme zu den Slingshot-Gerüchten gebeten, aber noch keine Antwort erhalten. Wir werden diese Geschichte bei Bedarf aktualisieren.
Hier könnten semantische Probleme im Spiel sein: Es ist leicht, Begriffe wie "geliefert", "eingesetzt", "installiert", "aufgestellt" und andere Begriffe, die den Status eines neuen Systems beschreiben, zu verwechseln. Das DOE hat immer wieder erklärt, dass Frontier bis zum Jahresende in Oak Ridge installiert sein und den Benutzern im nächsten Jahr zur Verfügung stehen würde. Und das DOE und die Oak Ridge Leadership Computing Facility haben ihre Erfolge bei der Vorbereitung der OLCF-Anlage auf Frontier hervorgehoben, z. B. durch die Auszeichnung der Leiter der Installationsteams mit dem ORNL Director's Award (siehe Frontier Exascale Install Teams Win ORNL Director's Award, 10. Dezember 2021) und Berichte über die immense Infrastruktur, die für die Unterbringung von Frontier erforderlich ist (siehe A Look Inside the US's 1st Exascale Supercomputer Facility, 30. September 2021).
Nach all dem ist es wichtig und fair festzustellen, dass Frontier das Supercomputing in unbekannte Gewässer vorantreibt und dass diejenigen, die mit der Bereitstellung eines Systems beauftragt sind, das eine Milliarde Milliarden Berechnungen pro Sekunde ausführen kann, sich mit der Komplexität der Systemintegration auseinandersetzen müssen (siehe Getting to Exascale: Nothing Is Easy, 18. Oktober 2020), und zwar in einem noch nie dagewesenen Umfang.