tomgit schrieb:
Hawk, das unbenannte AMD-System, auch Cray haben GPU-Cluster-Kapazitäten. Und das kommende Hunter-System wird wohl ein GPU-Cluster-System werden, entsprechend wird man Kenntnisse benötigen, sofern sie nicht bereits vorhanden sind.
Sie haben die Kompetenz noch nicht, brauchen sie aber. Aber um einen Schritt spezifischer hier zu sein. Ein GPU HPC-Cluster hat andere Nutzungspattern als ein KI Trainingscluster. HPC ist viel granulärer, während KI von wenigen großen Jobs welche die gesamte Maschine, und vor allem die Netzwerkbandbreite voll belegen.
Das war auch bei Hawk das Hauptproblem vom HLRS. Das Netzwerk hat die Maschine über lange Zeit extrem instabil gemacht. Gift für ein KI-Training welches Monate an Stabilität braucht.
tomgit schrieb:
Aleph Alpha betreibt in Bayern einen eigenen Server, wahrscheinlich wird das (auch im Hinblick auf „Nachhaltigkeit“) kein reiner CPU-Server sein. Die Kenntnisse werden dort wohl in einem gewissen Umfang selbst vorhanden sein.
Das besagte Cluster ist meines Wissens nach um die 1000 H100 groß. Das reicht bei weitem nicht aus.
Zudem, viele Probleme beim richtigen Clusterbetrieb treten erst bei den großen Skalen auf wenn das Netzwerk richtig belastet wird. Ein Wissen welches sie noch nicht haben können. Es gibt viele Startups mit >= 1000 H100 Clustern. Nur werden diese normalerweise von Coreweave betrieben im Namen der Startups welche davon auch wirklich Ahnung haben. Die Zeit Dir dieses Wissen anzueignen hat man als Startup einfach nicht.
I.e. Kompetenz die wiederum nicht bei Aleph Alpha liegt.
Um meine Bedenken Mal bündig auf den Punkt zu bringen:
- Aleph Alpha hat keinerlei Kompetenz "Frontier"-Models wie Llama etc. selbst zu bauen, und lässt auch seit bald 2 Jahren jeglichen Versuch dies zu tun nicht erkennen. Entweder ihnen fehlt es an Richtung oder sie haben elementare Fehler in ihrem Trainingscode, ihrem Datenmix, oder noch schlechter ihnen fehlt es an den guten Leuten welche wirklich die Details dieser Modelle verstehen.
- Das Kernproblem von InflectionAI warum sie am Ende ihr Cluster + Geld zurückgegeben haben, und sich von Microsoft haben anheuern lassen war, dass sie nicht die richtig guten Leute kriegen konnten, und somit keinen Weg sahen bei den modernen Modellen mitzuhalten. Aleph Alpha genießt hier einen noch schlechteren Ruf, und ist in der KI-Szene komplett absent.
- Ihr Funding ist auf das Bauen von Frontiermodellen / Foundation Models ausgerichtet, welches zuvor auch der Pitch von Aleph Alpha war. Dem liegen gewissen Gewinnerwartungen zu Grunde, als auch Ausgabenerwartungen. I.e. >10M Euro teure Trainingsruns. Sie ziehen sich jetzt hiervon zurück. Das Geld was man braucht als Startup um spezialisierte Modelle zu bauen ist weitaus kleiner. Was macht man jetzt mit dem vielen Geld? In Teilen zurückgeben? Weil die Gewinnerwartungen von den ersten Runden werden sie nie erfüllen können.
- Es gibt bereits Startups welche von Anfang an auf spezialisierte Modelle ausgerichtet waren. Zwar hat Aleph Alpha gute Verbindungen, aber das wird sie nicht lange über Wasser halten können.
- Die wirkliche Baseline ab der Du heute als Firma mit KI-Modellen Geld verdienen kannst wird von Llama 3.1 gesetzt, i.e. dem besten Open Source Modell von Meta. Von dieser Baseline ist Aleph Alpha weit weg, und mit ihren Modellen werden sie kein Geld verdienen können as is. Was auch die Strategie von Meta, Google und Co. zu sein scheint.
Getrennt davon, was ich an dem Ganzen am meisten schade finde ist es dass es sehr viele Deutsche gibt die in KI extrem kompetent sind, jedoch alle für ausländische Firmen arbeiten, und/oder direkt gleich komplett im Ausland tätig sind. Falls Aleph Alpha untergehen sollte, wird dies die Funding-Umgebung auf Jahre hinweg zerstören während gleichzeitig in Frankreich, und vor allem in den USA und China Nägel mit Köpfen gemacht werden. I.e. Zeit welche eigentlich nicht existiert wenn man hier auch nur ein Wort mitreden will.
Die jetzige Umgebung ist bereits schon nicht gut genug um nach Deutschland zurückzukommen.