Convert schrieb:
Was soll den an einem Die-Shrink auf einen etablierten Prozess und eventuell noch den Umstieg von HBM2e auf HBM3 nicht gelingen?
AFAIK hat Falcon Shores ein HBM3 interface. Was soll ein Redesign von N5 auf N4P bringen?
Ganz schwere Frage:
- Investiert man die Ressourcen in eine nicht wettbewerbsfähige Archtiktur, um wenn die Umbauarbeiten fertig sind mit der getunten veralteten nicht wettbewerbsfähigen Architektur gegen die nächste Generation der Konkurrenz anzutreten?
- Oder steckt man Zeit und Ressourcen in die nächste Generation und ist vielleicht endlich Mal rechtzeitig fertig?
Convert schrieb:
Es muss ja nicht der selbe "Buisness Goal" sein. Man hätte doch bei gelingen von Falcon Shores diesen im absoluten High-End platzieren können, den Gaudi 4 dann leicht darunter.
Aktuell verlangt der Data Center AI-Markt nichts außer das absolute High End.
Zwei verschiedene Architekturen für dasselbe Marktsegment zu entwickeln ist Unsinn. Zwei Dies aus derselben Architektur abzuleiten ist viel billiger. So wie es Nvidia bei den Gaming GPU macht.
Und mit den Kosten, die zwei Hardwarearchitekturen im Softwarestack verursachen, fangen wir gar nicht erst an.
Convert schrieb:
Einen Plan B sollte man natürlich vor dem Point of No return starten, sonst ist es kein Plan B.
Bei der Produktentwicklung ist mehrere Projekte für dasselbe Ziel zu haben, ein teurer und sehr gefährlicher*) Spaß. Es gibt nur ganz wenige Umstände bei denen es überhaupt vertretbar ist. In der Regel läuft es darauf hinaus, dass alle Projekte ihr Ziel verfehlen, weil keines so unterstützt wird, wie es notwendig gewesen wäre. Auf gut Deutsch, man hat sich verzettelt.
Bevor wir hier weiter eine luftleere Debatte führen, schauen wir uns Mal die Data Center Silicon Roadmap vom März 2023 an:
https://www.anandtech.com/show/1879...n-track-emerald-in-q423-sierra-forest-in-h124
Intel hatte Plan A, Plan B und Plan C. Keiner war wirklich erfolgreich. Das ist das folgerichtige Ergebnis, wenn man zu viele Projekte hat.
Im Mai 2023 sah das ganze so aus:
https://www.hpcwire.com/2023/05/22/...ata-Center-silicon-roadmap_May-2023_1235x.png
Im Mai 2023 hat Intel (Sandra Rivera) endlich aufgeräumt und den Irrsinn beendet, viele Projekte parallel zu haben. Das Problem dabei ist, dass dies viel früher hätte Geschehen müssen. Im Mai 2023 war Falcon Shores schon weit fortgeschritten, so dass Falcon Shores kaum davon profitiert hat. Erst bei Jaguar Shores kann sich die Konzentration der Ressourcen auswirken.
Die Graphic suggeriert, dass Habana Labs Gaudi und die Intel Data Center GPU series zusammengeführt werden soll. Aber die alte Roadmap zeigt, dass Falcon Shores die Fortführung der Intel Data Center GPUs ist. Dass die federführenden Leute bei Habana Labs inzwischen Intel verlassen haben unterstreicht dies zusätzlich. Und lässt befürchten dass Jaguar Shores auch nur eine Fortführung der Intel Data Center GPUs ist. D. h, es ist zu befürchten, dass fließt nur wenig Know How von Habana Labs in Jaguar Shores einfließt.
Spätestens letztes Jahr war klar, dass es Falcon Shore nicht einfach haben wird.
1500 W sind ein Brett.
Alleine der Umstand, dass sich Sandra Riviera entschieden hat CEO bei Altera zu werden anstatt weiterhin Chef von DCAI zu bleiben, ist ein ganz dickes Warnsignal.
Und an dieser Stelle noch Mal der Hinweis, Nvidia hat gesagt sie wollen jedes Jahr eine neue GPU-Generation auf den Markt bringen. Das hat sich bisher noch nicht wirklich gezeigt aber es wird kommen.
Convert schrieb:
Ein Plan B reduziert das Risiko von Plan A.
Nein.
Du kannst argumentieren, dass zwei Lose zu haben die Gesamt-Chance auf Erfolg erhöhen. Aber die Wahrscheinlichkeit dass Los A gewinnt hängt nicht von Los B ab.
Convert schrieb:
Wegen eines Plan Bs, kann man beim Plan A mutiger sein, weil man den Bedenkenträgern sagen kann, dass zur Not wir noch Plan B haben.
Was Du schreibst bedeutet, dass das Risiko von Plan A steigt. Was den Bedenkenträgern erst recht Munition gibt dieses "undurchführbare" Projekt zu sabotieren.
Wenn ein Unternehmen Plan A und Plan B umsetzten will, benötigt es 2 Projektteams und auch ansonsten doppelte Entwicklungsressourcen. Hat man die Ressourcen um 2 konkurrierende Projekte mit letzter Konsequenz durchzuziehen? Kann man die zwei konkurrierenden Produkte im Markt überhaupt platzieren? Wie verhindert man, dass man die Kunden verwirrt und die deshalb zur Konkurrenz gehen?
Es ist offensichtlich, dass die Szenarien weitem überwiegen, bei denen die Erfolgschance von Projekt A durch das Ausführen von B verringert wird. Alleine schon zu viele Projekte zu starten und diese dann nicht optimal umsetzen zu können, gilt als schwerer strategischer Fehler von Unternehmen. Stichwort Gießkannenprinzip.
Und nun eine ganz verrückte Idee. Wenn ein Unternehmen die Ressourcen für zwei Produktentwicklungen hat, wieso entwickelt es dann nicht zwei Produkte für zwei unterschiedliche Marktsegmente. Dadurch hat man ein erheblich höheres Potential.
Es ist übrigens grotesk, dass wir über diesen Plan B Unsinn gerade in einem Thread über AI-Beschleuniger diskutieren. Der aktuelle Marktführer arbeitet seit 25 Jahren konsequent an seiner Architektur. Es gab bei Nvidia nie einen Plan B und den wird es nicht geben solange Jensen Huang etwas zu sagen hat.
Convert schrieb:
Und wie du selber nun gemerkt hast, gab es schon erfolgreiche Plan Bs oder nach deiner Zählung sogar Plan C.
Nur weil es einmal gut gegangen ist, bedeutet es nicht, dass es heute sinnvoll ist. Und wie es die Intel data Center Roadmaps offen legen, war Plan A, Plan B und Plan C gleichzeitig auszuführen ein wichtiger Faktor warum Intel überhaupt in diese Misere bei den Data Center Beschleunigern geraten ist.
Intel war sehr erfolgreich darin auf der Basis von X86 Plattformen für Client und für Server aufzubauen. Das waren enorm große Märkte und weil Intel praktisch die ganze Plattform ausrüstete, ist enorm viel Geld in die Kassen von Intel gesprudelt und Intel hat traumhafte Renditen erwirtschaftet. Die Firmen, die das wirtschaftliche Risiko getragen haben, bekamen ein paar Brotkrumen ab.
Aber schon in den 1990er Jahren versuchte Intel in neue Märkte einzudringen. Die Zukäufe, die Intels Abdeckung in der X86-Plattform erhöht haben, waren erfolgreich. Und was sonst noch? Intel hat Milliarden ausgegeben, um in anderen Märkten Fuss zu fassen. Kannst Du mir etwas nennen, bei dem Intel nachhaltig erfolgreich war?
Also bleibt als einziges großes Erfolgserlebnis eine neue Prozessorarchitektur im Kerngeschäft eingeführt zu haben. Und bei diesem Erfolg hat auch der Konkurrent durch 3 vergeigte Projekte fleißig mitgeholfen. Du kannst Dir einreden, dass 2005 bei Intel noch alles in Ordnung war, die Fakten sprechen dagegen.
Natürlich ging es geschäftlich für Intel noch lange Berg auf. Intel hatte alle anderen CPU-Anbieter im Markt für PC-CPUs in kleine Nischen verdrängt. Bis 2011 ist der PC Mart stetig gewachsen:
https://www.statista.com/statistics/273495/global-shipments-of-personal-computers-since-2006/
Auch der Markt für X86 Server CPUs ist noch einige Jahre gewachsen, auch das hat viel Geld in die Kassen von Intel gespült.
Convert schrieb:
Klar wäre ein monolithischer Chip, der größer ist als N48 möglich. Aber was ist dann der Grund, warum AMD N41, N42 hat fallen lassen und stattdessen den N48, einen verdoppelten N44 hat auflegen lassen?
Wenn ich mir die bisherigen Chipletlösungen von AMD anschaue, dann verstehe ich nicht wozu AMD 3 verschiedene GCDs auflegen sollte. Mit der Geschichte von 9 Shader Engines beim Topmodell, wird es offensichtlich, dass da etwas nicht passt.
Wieso könnte AMD die Dies Navi 41, Navi 42 und Navi 43 gecancelt haben?
- AMD beschließt RDNA und UDNA wieder zusammenzuführen. und streicht RDNA4 auf ein Notprogramm zusammen. Damit werden Ressourcen frei um UDNA schnellst möglich fertig zu stellen.
- AMD erkennt im Laufe der RDNA4 Entwicklung, dass die Raytracing Leistung erhöht werden muss. Die Änderungen verzögern das Projekt und deshalb bleibt nur die Zeit den kleinsten Die zu entwicklen und dieses Design zu verdoppeln.
- AMD erkennt im Laufe der RDNA4 Entwicklung, dass die AI Leistung erhöht werden muss. Die Änderungen verzögern das Projekt und deshalb bleibt nur die Zeit den kleinsten Die zu entwickeln und dieses Design zu verdoppeln.
- AMD erkennt im Zuge der Fehlersuche bei RDNA3, dass auch RDNA4 betroffen ist. Die Korrekturen verzögern das Projekt und deshalb bleibt nur die Zeit den kleinsten Die zu entwickeln und dieses Design zu verdoppeln.
- ...
Es gibt viele Möglichkeiten und es ist wahrscheinlich, dass außenstehende es nie erfahren. Also können wir nur mutmaßen.
Convert schrieb:
Den monolithische N48 hätte man ja nicht gebraucht, wenn schon N42 monolithisch gewesen wäre.
Aus einer Multichipletarchitektur und einem GCD mit 48 CUs hätte AMD 3 CPUs im Vollausbau mit 48, 96 und 144 CUs ableiten können.
Ich könnte mir dazwischen noch einen monolithische Die bzw Navi32 Nachfolger mit 64 CUs vorstellen (72 wäre genau in der Mitte, würde aber 18 CUs je SE bedeuten).
Und was soll der 3. Die sein?
Convert schrieb:
Bei Multichip-Variante gibt es einige Erklärungsversuche:
1. Multichip-Varianten N41, N42 waren nicht so gut in Simulationen, wie erhoft.
2. Multichip hätte die Advanced Packaging Resoursen gebraucht, die man lieber den AI-Chips A300X zugeschoben hat.
Ich persönlich gehe von Punkt zwei aus.
Wenn man die Geschichte mit den Multi Chiplets glaubt, ist Punkt 2 sehr wahrscheinlich.
Die Urheber dieser Chiplet-Geschichte erzählen eine ganz wilde Story. Die Architektur hätte wie gewüscht funktioniert aber AMD hätte alles eingestampft, weil AMD die Die-Größe von BG202 erfahren hat und befürchtet hätte die RTX5900 nicht zu schlagen.