textract schrieb:Gerade Nvidia-GPU basierende Systeme wurden die letzten Jahre sehr häufig mit IBM-Hardware gebaut, was ganz einfach daran liegt, dass Nvidia häufig für ihre High-End Modelle die Treiber nur für Power entwickelt hatte. Das hatte auch einen bestimmten Grund: Power 8 und Power 9 haben NVLink mittels integriertem Protokoll nativ unterstützt und die Karten haben keine PCI-e Lanes verwendet. Damit konnte man viele Grafikkarten und trotzdem gleichzeitig noch Netzwerk-/FC-/Interconnect- und andere Erweiterungskarten, wie bspw. mit P4 kompatiblen Chips ausgestattete Karten betreiben.
Ja gab mal eine Zeit vor ein paar Jahren als Power9 mit NVLink ganz beliebt war, vor allem wegen ein paar großen HPC design wins. IBM hat damals groß "Large Model Support" für Deep Learning Modelle angekündigt, mit der Idee über den Interconnect schnell Daten on Demand auf VRAM zu kopieren. Wirklich durchgesetzt hat sich das aber nicht, der Tensorflow Fork von IBM mit der Unterstützung ist mittlerweile seit einem Jahr nicht geupdated und 4 Versionen behind und auch in Pytorch ist die Funktionalität nicht Upstream. Die Power9 Systeme sind immer noch nicht updated mit A100 Karten, es gibt keine HPC wins und Nvidia Referenz Designs setzen alle auf reine PCIe Architekturen zwischen GPUs und Host / Netzwerk mit teilweise vielen PCIe Switches.
Gegenüber modernen A100 + Epyc Rome Systemen sind die 'alten' Power9 Systeme leider eher langsam und aufgrund der anderen Architektur halt auch echt nervig mit zu arbeiten.