News Intels HPC-Chips: Ponte Vecchio tritt unrühmlich ab, Falcon Shores mit 1,5 kW

Volker

Ost 1
Teammitglied
Registriert
Juni 2001
Beiträge
18.714
Intels Ponte Vecchio war ein Flop und tritt nun schnell ab. Intel lenkt voll auf Gaudi3 und den Nachfolger Falcon Shores um. Beide sollen viel schneller sein, allerdings auch bei deutlich höherer Leistungsaufnahme: Auf die rund 700 Watt von Ponte Vecchio folgen bis zu 1.000 Watt bei Gaudi3 und 1.500 Watt bei Falcon Shores.

Zur News: Intels HPC-Chips: Ponte Vecchio tritt unrühmlich ab, Falcon Shores mit 1,5 kW
 
  • Gefällt mir
Reaktionen: SweetOhm, PietVanOwl, BrollyLSSJ und 2 andere
1 kW? Mordsgaudi.
Mit 1,5 kW dann auch 'ne teure Heizung.

Kenne mich nicht aus, wie ist bei solchen Systemen die Performance/Watt einzuschätzen?
 
  • Gefällt mir
Reaktionen: Makso und Yogi666
Kommt sehr auf die Leistung im Vergleich an. AMD epyc Server verbrauchen auch um die 500W,
Ich lehne mich aber Mal weit aus dem Fenster und vermute, dass AMD weiterhin effizienter ist
 
Wird wahrscheinlich auch eher gegen Rubin statt Blackwell in den Ring steigen müssen.
 
sNo0k schrieb:
1 kW? Mordsgaudi.
Mit 1,5 kW dann auch 'ne teure Heizung.

Kenne mich nicht aus, wie ist bei solchen Systemen die Performance/Watt einzuschätzen?
Ist immer noch ganz gut. Der Verbrauch pro "Chip" steigt zwar in den letzten Jahren in dem Bereich massiv an, aber wir reden halt auch nicht mehr von einzelnen Chips, sondern das werden alles große Chiplet-Designs, dadurch können die halt größer werden und größere Chips können dann auch mehr Strom verbrauchen, haben ja vereinfacht gesagt einfach mehr Fläche. Trotzdem gilt auch hier (genau wie bei jeder 0815 Desktop GPU): Weniger elektrische Leistung reinzuballern würde die Effizienz steigern. Aber die Optimierung findet hier letztlich statt auf die Total Cost of Ownership - also Anschaffungskosten plus Betriebskosten über die Nutzungsdauer. Da die Teile teuer sind, ist es auch akzeptabel, die oberhalb ihres Sweet Spots zu betreiben, um die "TCO pro Rechenleistung" "Rechenleistung pro TCO" zu erhöhen
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: E1M1:Hangar
stefan92x schrieb:
Da die Teile teuer sind, ist es auch akzeptabel, die oberhalb ihres Sweet Spots zu betreiben, um die "TCO pro Rechenleistung" zu erhöhen
Das klingt für mich betriebswirtschaftlich unsinnig. Du meist sicher dass aufgrund des hohen Anschaffungspreises durch Betrieb außerhalb des Sweetspots (d.h. erhöhte Leistungsaufnahme) die TCO pro Rechenleistung trotzdem noch optimiert (sprich gesenkt) werden kann. Ansonsten hätte man ja (als Kunde) das Schlechteste aus beiden Welten.

Kurzum: Solange der die Energiekostensteigerung relativ zum Gesamtanschaffungs- bzw. Paketpreis gering bleibt kann unter dem Strich die "TCO/Flop" noch sinken.
 
  • Gefällt mir
Reaktionen: stefan92x
Äh ja, hast natürlich recht. "Rechenleistung pro TCO" habe ich gemeint aber es irgendwie verdreht.
 
  • Gefällt mir
Reaktionen: SpartanerTom
sNo0k schrieb:
Kenne mich nicht aus, wie ist bei solchen Systemen die Performance/Watt einzuschätzen?
Gibt eine passende News zu Aurora, dem System mit Ponte Vecchio:

Aurora ist im Vergleich zu Frontier ineffizient​

Leistung ist dabei aber nicht alles. Aurora hat für die 1,012 ExaFLOPs 38,7 Megawatt Leistung aufgenommen, während Frontier für mehr Performance nur 22,8 Megawatt nutzt. Unterm Strich ist Aurora also nur halb so effizient wie Frontier. Das ist heutzutage für ein neues System eine eher unrühmliche Vorstellung, zumal der Chef der Argonne Labs auch direkt betont, dass die „Power Wall“ die größte Herausforderung für alle kommenden Systeme ist: Leistung einfach über die Leistungsaufnahme zu steigern, ist weder sinnvoll noch erstrebenswert, denn schon heute kommt die regionale Infrastruktur an ihre Grenzen, wenn es um die Stromversorgung von Rechenzentren geschweige denn Supercomputern geht.
https://www.computerbase.de/2024-05...t-wenigstens-der-schnellste-ai-supercomputer/
 
  • Gefällt mir
Reaktionen: sNo0k
Jedes Watt an Mehrverbrauch ohne vergleichbaren Mehrgewinn an Leistung ist ein No-Go.
Was hier viele vergessen, was im RZ für Wärme sorgt muss auch wieder gekühlt werden.
Und das ist jetzt nur eine sehr einfache Betrachtung.

Was spricht also aktuell dafür sich für das Intel Produkt zu entscheiden?
Nichts, außer man nutzt es aus Gaudi :evillol:
 
  • Gefällt mir
Reaktionen: Unnu
Salutos schrieb:
Was spricht also aktuell dafür sich für das Intel Produkt zu entscheiden?
Nichts, außer man nutzt es aus Gaudi :evillol:
Also Gaudi3 scheint aktuell doch durchaus konkurrenzfähig zu sein. Ponte Vecchio war halt ein Rohrkrepierer und daher ist kein Wunder, dass der jetzt abgekündigt wird.
 
Askat86 schrieb:
Kommt sehr auf die Leistung im Vergleich an. AMD epyc Server verbrauchen auch um die 500W,
Ich lehne mich aber Mal weit aus dem Fenster und vermute, dass AMD weiterhin effizienter ist
Mit EPYC liegst Du ziemlich daneben. Da vergleichst Du auch Äpfel und Birnen.

Man verwendet fuer diese Anwendungen GPUs weil diese viel effizienter sind als CPUs.

Wenn Du Äpfel mit Äpfel vergleichst, also Ponte Vecchio mit Nvidia H100 oder der AMD MI300X dürfte Intel in der Tat nicht gut ausschauen.
 
  • Gefällt mir
Reaktionen: TechFA
Um fair zu bleiben müsste man mit AMDs MI250 vergleichen. MI300 ist ja deutlich moderner und wäre eher der natürliche Gegenspieler für Rialto Bridge (ups...) und Gaudi 3 (wo Intel wohl nicht sooo schlecht im Vergleich abschneidet)
 
Man vergleicht nun Mal die aktuellen Produkte.

Es ist nun Mal das Problem wenn ein Produkt um Jahre verschoben wird...
 
Aktuell hat Intel nunmal gar kein aktuelles HPC Produkt, wenn sie Ponte Vecchio auch nicht mehr verkaufen. Das Teil ist Geschichte und gehört somit schon in einen historischen Kontext. Aber du hast natürlich recht, es ist ein Problem wenn Intel diesen Markt (schon wieder!) für eine Weile aufgeben muss. Wir hatten die gleiche Situation ja schon, als Xeon Phi abgekündigt wurde, aber Ponte Vecchio als Nachfolger noch länger auf sich warten ließ.
 
  • Gefällt mir
Reaktionen: TechFA
Wer kauft sich mit diesen Daten heute ein HPC-System auf der Basis von Ponte Vecchio?

Niemand. Also ist das Konzentrieren auf Gaudi die richtige Entscheidung. Den Nischenmarkt HPC nicht zu besetzen ist kein Beinbruch, hier wird ohnehin nur ein winziger Bruchteil des AI Markts abgesetzt.

Aurora ist wegen der schlechten Effizienz schon veraltet. Noch bevor das System überhaupt in Betrieb genommen wurde.

Ich frage mich wie sinnvoll es sein kann, die anderen bereits bestellten Systeme überhaupt noch zu bauen.
 
Und es wäre so einfach, Watt/Leistung vorschreiben und jedes Jahr reduzieren. Und solche Heizungen könnte man auch einfach erstmal verbieten...stattdessen wird dem Bürger das Geld aus der Tasche gegriffen und gegängelt.

Das Wichtige wäre doch denen, die Geld erwirtschaften, Vorgaben zu machen.
 
@Piak Und wer definiert was hier "Leistung" ist? Gerade in HPC ist das ja unter Umständen doch spezieller auf den Anwendungsfall zugeschnitten.

Ich glaube nicht, dass das in diesem Fall eine sinnvolle Stellschraube wäre. Und bei vielen Ausschreibungen öffentlicher Gelder steht ja heute schon Effizienz im Vordergrund. Siehe gerade auch die vielen europäischen Neuzugänge im Green500.

Ich bin der Meinung man kann auch ohne Verbote Anreize schaffen. Zumindest in den Gebieten auf die man Einfluss hat.
 
Welche "Leistung" könnte denn relevant sein? FP64 Vektor? FP4 Matrix? Int16? Oder welche Gewichtung davon? Und wie misst du die tatsächlich erbrachte Leistung zuverlässig? Allein schon die Linpack-Runs für die top500 sind enorm aufwändig, wie viele verschiedene Testläufe willst du auf einem Cluster denn machen, um diese jeweilige Leistung nachzuweisen?

Und immer dran denken: Die Effizienz steigt tatsächlich von Generation zu Generation, die absolute Rechenleistung (und damit der Stromverbrauch) aber noch mehr. Moderne 750W-Module sind allesamt effizienter als alte 300W-Karten
 
@Piak was willst Du regeln was sich automatisch regelt?

Bei Serverprodukten ist die Effizienz eines der wichtigsten Kriterien. Sie schlaegt 2 Mal in der TCO auf, einmal als direkten Energiekosten und dann als Kuehlkosten.
 
  • Gefällt mir
Reaktionen: Unnu und Nagilum99
Artikel-Update: Intel hat gegenüber ComputerBase ein Statement abgegeben, welches die Ausrichtung bestätigt:

Intel schrieb:
To meet the growing demand for enterprise AI, we are focused on fulfilling the rapid expansion of the Intel Gaudi AI accelerator -- capitalizing on its proven performance edge and competitive pricing. Intel Xeon remains the host CPU choice for HPC solutions along with our Max GPU available on Intel Developer Cloud. This approach will pave the path for developer and ecosystem readiness for Falcon Shores, our next-generation GPU for AI and HPC which will leverage the Xe IP architecture that is foundational to the Max Series GPU.

Durch die Blume bestätigte man gegenüber der Redaktion auch die Version mit rund 1.500 Watt von Falcon Shores, da Intel in dem Zusammenhang darauf hinweist, dass hierbei das Ethernet, so wie bei Gaudi-Lösungen üblich, bereits inkludiert ist. Dieses fehlt bei den Verbrauchswerten zu Blackwell in der Regel und dürfte je nach Auslastung mit locker rund 200 Watt zusätzlich zu Buche schlagen. Unterm Strich will Intel damit sagen, dass beide also in einer ähnlichen Liga spielen.
 
  • Gefällt mir
Reaktionen: PietVanOwl, bad_sign und konkretor
Zurück
Oben