Austausch unter IT-Professionals - Erfahrungen, Tipps, Fachsimpelei

Skysnake schrieb:
Ultra Ethernet kommt nicht aus der HPC Ecke sondern aus dem Cloud bzw AI/ML Bereich weil sie großen Player nVidia nicht als einzigen Netzwerk Lieferant wollen der Ihnen das Geld aus der Tasche zieht.
Oh, ist der Zug nicht längst abgefahren Richtung nVidia? Ansonsten hab ich die Entstehung nicht nachvollzogen. Auf der Website des Ultra Ethernet Consortiums steht das:

Our Mission

Deliver an Ethernet based open, interoperable, high performance, full-communications stack architecture to meet the growing network demands of AI & HPC at scale
Da werden AI und HPC in einem Atemzug genannt. Kann also ganz falsch nicht sein.
 
Solche Anforderungen sind ja auch wirklich nichts alltaegliches.
Unser neuer Core hat zwar 400G Interfaces, aber aktuell stecken zum groessten Teil nur 100G Transceiver/DACs drin. Nur die Stackinglinks haben wir gleich mit 400G gemacht, aber zu den Distributionsswitchen gehen wir mit 2x 100G, und die Server sind jeweils mit 2x 10G angeschlossen.

Evil E-Lex schrieb:
Oh, ist der Zug nicht längst abgefahren Richtung nVidia?
AMD steckt da ueber Zukauf auch mit drin:
https://www.computerbase.de/news/wi...net-adapter-fuer-neue-instinct-systeme.89924/
 
  • Gefällt mir
Reaktionen: Skysnake und Evil E-Lex
Danke! Das ist soweit außerhalb meiner Blase, da lese ich nicht mal die News. Aus weiter Ferne betrachtet sah ich für mich bislang so aus, als bahnte sich da ein neues Monopol an.
 
Evil E-Lex schrieb:
Oh, ist der Zug nicht längst abgefahren Richtung nVidia? Ansonsten hab ich die Entstehung nicht nachvollzogen. Auf der Website des Ultra Ethernet Consortiums steht das:

Da werden AI und HPC in einem Atemzug genannt. Kann also ganz falsch nicht sein.
Klar, die haben HPC AUCH mit im target market, aber ob HPC Kunden das auch haben wollen ist ne GANZ andere Geschichte. Getrieben wird das rein aus der Ecke der Cloud/AI/ML Kunden. HPC schaut sich das an.

Ok HPE macht mit ihrem Slingshot wohl auch mit, da ist aber nicht so ganz klar wie weit da die Kompatibilität wirklich geht. Die haben ja doch einige Ähnlichkeiten zu UltraEthernet.

Ranayna schrieb:
Solche Anforderungen sind ja auch wirklich nichts alltaegliches.
Kann ich nichts zu sagen. In meinem Bereich ist 100G+ absoluter Standard pro Server.

Evil E-Lex schrieb:
Danke! Das ist soweit außerhalb meiner Blase, da lese ich nicht mal die News. Aus weiter Ferne betrachtet sah ich für mich bislang so aus, als bahnte sich da ein neues Monopol an.
Ist ja auch absolut so das sich da ein Monopol anbahnt. Die großen Player haben nur absolut keinen Bock drauf und versuchen sich wo nur möglich dagegen zu wehren weil Sie wissen das Ihnen sonst auf lange Sicht die Hosen runtergezogen werden...

Wie gesagt gibt es da ja auch wohl durchaus Stress ob nVidia nicht unzulässig die Kunden bevorteilt hat bezüglich Lieferzeit wenn Sie neben den GPUs auch noch das Netzwerk von Ihnen gekauft haben.

Da wird mit harten Bandagen gekämpft da es schnell um dutzende wenn nicht hunderte von Millionen geht.

Mordi schrieb:
Aber von den Kollegen ausm Hosting höre ich dass die sehr zufrieden sind mit Nvidia Mallanox Hardware.
Nvidia Mellanox Hardware gibt es nicht. Es gibt von denen Ethernet und Infiniband Hardware. Das muss man strickt trennen.

Zumindest mit Infiniband hatte ich in den letzten Jahren mehr als genug Stress.....

Man muss hier auch immer aufpassen wie sehr man das Netzwerk ausreizt. Wenn es nur irgendwie funktionieren muss und man pro Knoten noch Redundante Verbindungen hat dann ist das ne ganz andere Sache als wenn ich auf die Werte aus den Werbeslides bestehe und auch im realen Betrieb zu 90%+ sehen will.
 
  • Gefällt mir
Reaktionen: Evil E-Lex
Btw ich bin jetzt durch die letzten 2 Monate. HPC redit durch. Das lesen war oft mit Schmerz verbunden. Kann man sich glaube ich wirklich sparen.

Ich glaub ich bin einfach ein zu großer HPC Nerd das ich gar nicht mehr sehe wie abgefahren selbst das Zeug ist das ich jetzt mache....

Ich bin halt auch ein echter Verfechter von CoDesign. Also das man als SW Entwickler auch die ISA usw wirklich kennt aber auch als Hardware Designer weiß was User/Programmierer mit der Hardware denn so machen.
 
@Skysnake
Ja, das ist immer so, die Spezialisierung kommt einem gar nicht so speziell vor, wenn man das alltäglich aus Leidenschaft angeht.
Ich bin mir noch nicht mal 100% sicher, was ihr die ganze Zeit genau mit 100G oder 400G meint 😅
(Netzwerkbandbreite, oder?)

Und CoDesign ist immer zu begrüßen, ob im beruflichen oder privaten Bereich, allzu oft stößt man an Tellerränder...
 
Ja genau mit 100G bzw 400G sind die Link Bandbreiten und Gigabit/s gemeint.

Das wird nächstes Jahr wohl auf 800G ansteigen und bis 2027 spätestens 2028 würde ich mal mit 1600G rechnen.

Wie es danach weitergeht ist für mich noch nicht ganz klar. Vernünftigerweise eigentlich nur noch mit Fibre on Chip. Bzw CoPackaging wie in den aktuellsten Switchen mit den höchsten Bandbreiten.

Dann sehe ich aber auch keine größeren Probleme in 3200G oder 12800G.

Jetzt reine Spekulation meinerseits ohne NDA Material.

Ich sehe ab dem Moment wo fire on Chip kommt eigentlich auch keine echte Rechtfertigung mehr für lokalen RAM. Ok ok vielleicht noch für 64GB oder so per eDRAM für low latency quasi als riesiger L4. Aber nicht mehr für klassischen System Memory. Da will ich dann doch lieber nen paar hundert TB an CXL Memory Pool sehen mit QoS.

Ich könnte mich fa schon ne schon Racklösung mit 128 CPUs a 256-512 cores und zusammen 65-128TB an DDR 6 oder 7 Memory vorstellen. Also jetzt so als "kleine" Lösung.

Wo ich mir nur noch nicht so wirklich sicher bin ist ob man das als sharded Memory System in einem OS betreiben will oder mit vielen Kernels.

Ein einzelnes OS wäre nice aber irgendwie habe ich da bezüglich Skalierung meine Bedenken.

Power Pro Rack dann so um die 200kW oder so. Gerne auch mit GPUs gemischt mit selben 1kW Sockel.
 
  • Gefällt mir
Reaktionen: konkretor und Spike S.
Hast du schon CXL Hardware in der Hand gehabt? Das würde mich ja mal Jucken aber bisher hatte keiner der üblichen verdächtigen mal RAM Erweiterungen die man sich mal hätte ausborgen können geschweige denn Erfahrungsberichte.
 
Alter.... Ja, du hast sehr spezielle Vorstellungen 😅
Aber es muss ja immer weiter gehen...höher, schneller, weiter.
 
holdes schrieb:
Hast du schon CXL Hardware in der Hand gehabt? Das würde mich ja mal Jucken aber bisher hatte keiner der üblichen verdächtigen mal RAM Erweiterungen die man sich mal hätte ausborgen können geschweige denn Erfahrungsberichte.
Jaein. Ich habe CXL fähige HW in Massen aber keine CXL Devices....

Ich hatte aber schon live die Hardware mir MemVerge gesehen und mich mit denen unterhalten. Einen PoC hatte ich aber noch nicht.

Aktuell sehe ich da aber auch noch nicht so wirklich einen attraktiven Preis das der Return of Investment sich ergeben würde.

da gibt es bei meinen Systemen noch ein paar low hanging fruits die man zuerst abgrasen kann.

für Login und Bigmem Knoten wäre es aber eventuell wirklich eine Überlegung für den nächsten Rebuuld in 2-3 Jahren eine Idee.

64GB Dimms sind echt sacke teuer. Vor allem wenn man 24 stück pro System braucht. Da wäre es wirklich ne überlegung wert.

Die ganze Integration kostet aber halt auch Unmengen an Ressourcen und aktuell fehlen mir noch die Daten bezüglich den Details in der HW Nutzung. Das wird sich im kommenden Jahr dann hoffentlich ändern. Dann kann man auch besser entscheiden welche CPU man sich gönnt.

Spike S. schrieb:
Alter.... Ja, du hast sehr spezielle Vorstellungen 😅
Aber es muss ja immer weiter gehen...höher, schneller, weiter.
Naja, an den Themen habe ich an sich schon vor 10 Jahren gearbeitet.

Damals hieß das halt noch HybridMemory Cube. Da hatte ich mir angeschaut wie man diesen als Network attached Memory betreiben kann in einem 2 Mesh wobei dann auch noch non Volatilität Memory dabei war für höhere Speicherdichten.

Das ist halt irgendwie auch das Krasse. Themen an denen ich vor 10 Jahren gearbeitet habe kommen jetzt so ganz langsam auf den Markt bzw sehen wir vielleicht in den nächsten 5-10 Jahren dann wirklich am Markt....

Und dann gibt es noch Themen mit denen ich mich angefangen habe zu beschäftigen da reden wir mal von 10-20 Jahren. Je nachdem wie sich Quantencomputer durchsetzen.

Irgendwie total Banane 😀
 
  • Gefällt mir
Reaktionen: Spike S. und holdes
64GB Module gehen noch, die Preise für DDR5-ECC ab 96GB oder 128GB sind dagegen komplett pervers :D.
 
Ah Moment mal. Kann sein dass das doch sogar 128GB Module sind.... 1.5TB kommen mir ein bißchen "wenig" vor.

Das System ist noch recht neu. Da sitzen die Spezifikationen noch nicht so richtig 😅
 
Denke ich auch, selbst bei meinem Threadripper hier kann ich bis derzeit 4TB sofern man passende Module kauft und dafür Organe verkauft :D.
 
Hab mal nachgeschaut. Sind wir die großen d
DIMMs und keine 64er. Gibt leider kaum Systeme mit 2x24 Dimm Slots....

Dann könnte .An mit den "billigen" 64 DIMMs klarkommen.

Aber wie auch immer. Genau in dem Anwendungsfall sehe ich dann schon den Sinn für CXL Speicher den man zwischen Knoten teilt. Der gesamte Speicher wird ja normal nicht benötigt aber eben mehr als bei den normal bestückten Knoten. Wenn man da einfach normale Knoten kaufen könnte und mit CXL Memory dynamisch erweitern wäre das schon ziemlich cool.

man hat da ja auch nicht so viele Systeme. Vielleicht 16-64 Stück. Da würde sich das durchaus lohnen.

Aber genau dafür will ich über das nächste Jahr hinweg die Memory Performance aufzeichnen genau wie die Speicherauslastung.

Am Ende muss aber halt der ROI stimmen und das kann ich zumindest aktuell noch nicht abschätzen.
 
  • Gefällt mir
Reaktionen: konkretor und holdes
  • Gefällt mir
Reaktionen: Spike S. und Rickmer
Also das was du da machst ist ja jetzt auch wirklich noch viel mehr Nische als das was ich mache 😀
 
  • Gefällt mir
Reaktionen: Spike S.
Zurück
Oben