Intel zur SC23: SuperMUC-Ausbau in Deutschland, Aurora mit Handbremse
SuperMUC-NG Phase 2 heißt der neue schnelle Ausbau am LRZ, der auf Intel Sapphire Rapids und Ponte Vecchio basiert. Dieser ist auf dem Papier einen Bruchteil kleiner als Dawn aus Großbritannien, der vor einer Woche angekündigt wurde und nun im Detail vorliegt. Aurora kleckert indes zum Start.
Wenn Intel zur wichtigsten Supercomputer-Messe des Jahres nicht mit dem eigentlich wichtigsten System anfängt, erahnt man schon, dass dies wohl noch nicht fertig ist. Und so präsentierte Intel unter NDA vorab lieber erst einmal die kleineren Erfolge wie Dawn in Großbritannien oder SuperMUC-NG Phase 2 in Deutschland, die einsatzbereit sind.
Beide Systeme sind dabei ziemlich ähnlich, aber doch anders. Sapphire Rapids aufseiten der CPU und Ponte Vecchio aufseiten der GPU bilden die Basis. Beim englischen Dawn sind es 512 Prozessoren und 1.024 GPUs in 256 Nodes von Dell, beim deutschen SuperMUC-NG Phase 2 hingegen 240 Nodes der Serie Lenovo ThinkSystem SD650-I V3 Neptune DWC mit insgesamt 480 Prozessoren und 960 GPUs. Beim System für Deutschland werben Intel und der Betreiber mit der europäischen Fertigung, die Systeme baut Lenovo in Ungarn und fliegt sie nicht um die halbe Welt. Dawn hingegen wird beworben, dass es keine vier Wochen gedauert hat, das System zu bauen – die Hardware gibt es bei Dell nun eben von der Stange.
Beim Fabric und Storage unterscheiden sich beide Systeme dann aber deutlich, dies ist dem Einsatzzweck geschuldet: Dawn geht auf massive Bandbreite und hohe Kapazität, der deutsche Rechner auf das Distributed Asynchronous Object Storage (DAOS). 42 zusätzliche Nodes basieren hier auf Ice Lake und Optane Memory (PDF-Dokument zur Technik).
Und Aurora? Noch immer nicht fertig!
Vor vier Monaten wurde der Supercomputer Aurora im Punkte der Hardware fertiggestellt, dann dauert es jedoch sechs bis neun Monate, eh alles auch wirklich läuft, erklärte Intel im Pressegespräch vorab. Deshalb werde es keinen vollständigen Lauf des Systems geben, wenngleich alles möglich gemacht wurde, um zumindest einen „partial run“ zu ermöglichen. Diese Ergebnisse stehen jedoch bis 21:30 Uhr deutscher Zeit unter NDA.
Ende 2023 aber noch immer keinen vollständigen Lauf des Systems präsentieren zu können, ist trotzdem ein erneuter Rückschlag, den vor allem auch Intel als ihr selbst gewähltes Vorzeigeprojekt im HPC-Bereich hier letztlich ausbaden muss. Im April 2015 schon öffentlichkeitswirksam gestartet und später überarbeitet, ist nun wohl erst 2024 ein Ende beim Thema erreicht, satte neun Jahre nach dem Start. Natürlich hat das System nun nichts mehr mit der Ausgangsplanung zu tun, da Intel zuvor geplante Hardware schlichtweg nicht liefern konnte respektive wollte, da sie wenig konkurrenzfähig war. Das neue System ist dies, mit jedem Monat Verschiebung aber auch stetig weniger.
Die sprichwörtlichen fünf Minuten Ruhm an der Spitze könnte es nun im schlimmsten Fall für Intel gar nicht mehr geben, sie können nur hoffen, dass AMD und HPE mit El Capitan nicht rechtzeitig für die nächste Top500-Liste im Mai 2024 fertig werden. Der Aufbau läuft seit dem Sommer dieses Jahres, die offizielle Indienststellung ist für Ende 2024 angepeilt.
Was Aurora alles können soll, legt Intel anhand erster Daten aus den Tests dar. Von den über 10.600 Nodes kommen dabei mal nur einige Dutzend, aber auch schonmal 1.500 Nodes zum Einsatz. In den ausgewählten Tests schlägt sich der Neuling natürlich gut, diese Tests dürften wie üblich aber exakt auf diese Hardware ausgelegt sein und deshalb so gut dastehen. Dabei schießt Intel auch schon gegen Frontier, den amtierenden Spitzenreiter der Top500.
Große Stücke hält Intel dabei natürlich von Ponte Vecchio alias Data Center Max GPU, wenngleich sie der Produktlinie schon wieder das Wasser abgegraben haben. Und während die neuen Xeon-CPUs durchaus ihre Abnehmer finden, sind es bei Ponte Vecchio kaum eine Handvoll. Die Konkurrenz eilt hier ohnehin weiter nach vorn, Nvidia stellt heute H200 vor, GH200 feiert große Erfolge und AMDs neue Instinct-MI300-Familie legt auch gerade los. Bei Intel sollen ab 2024 Gaudi3 und ab 2025 Falcon Shores die Arbeit in dem Segment übernehmen – Neuigkeiten zu dem Thema gab es heute keine zu vermelden.
ComputerBase hat Informationen zu diesem Artikel von Intel unter NDA erhalten. Die einzige Vorgabe war der frühestmögliche Veröffentlichungszeitpunkt.