News Zu viel fehlerhafter HBM: Nvidia nimmt nur noch getestete Chips von Zulieferern ab

SVΞN schrieb:
Ich hätte gedacht, dass das bei einem so komplexen Speicherprodukt wie HBM es ist, der Standard sei. Man(n) lernt halt nie aus.

Ja die Speicherhersteller kommen als aus DRAM- und NAND-Bereich. Da kosten alle Chips nichtmal nen Cent, da wäre testen viel zu teuer, zeitaufwändig usw. Da wird alles zu Anfang einmal getestet und eingestellt, dann Stichproben natürlich auch immer, das wars. Nun wird es halt komplexer, das einfache funktioniert bei HBM dann nicht mehr, zu komplex ist es geworden. Könnte bei den 300-Layer-NAND dann aber auch bald fällig werden .. na irgend ein BWLer wird schon rechnen^^
 
  • Gefällt mir
Reaktionen: Kitsune-Senpai, BorstiNumberOne, chaopanda und 3 andere
Volker schrieb:
Wenn da am Ende mal nen Chip defekt ist, dann haust halt das Modul, welches 50 Cent in der Produktion kostet, weg
Ich würde tatsächlich noch einen drauflegen und für meinen Fall sagen dass wir selbst hier eine Prüfung machen einfach weil auch Centbeträge sich auf summieren. Bei uns ist die prüftaktung auch weit unter einer Sekunde sodass man dutzende Parameter+ Abmessungen und Bilder in verschiedenen Spektren erhält sodass das kein Problem darstellt das einfach hinzustellen.

Da ist das geld für den Tester schnell wieder drinnen nachdem man selbst bei 99,9x % yield den Ausfall des Endproduktes Einspart.

ElliotAlderson schrieb:
@PS828 dir ist klar, dass das spätestens beim Test der Graka auffällt? Die erreichen also nicht den Endkunden.

Das würde ich so nicht unterschreiben weil das fehlen jeder Kontrolle auch schleichende Probleme unsichtbar macht. Demnach kann ich nicht wissen ob die chips was taugen. Nicht alle fallen direkt aus die sind einfach von Haus aus schlecht aber funktionieren zunächst.

Hätte man eine ordentliche FMEA gemacht würde das klappen. Und wenn ich ehrlich bin hätte ich das von den überbezahlten Kollegen bei Nvidia auch erwartet dass einem das nicht so egal ist wie es lange zeit schien ;)
 
  • Gefällt mir
Reaktionen: Kitsune-Senpai, SweetOhm, BrollyLSSJ und 3 andere
Auch wenn hier alle groß tönen:
NVIDIA Berechnungen vor einiger Zeit haben wohl ergeben, dass dieser Weg der wirtschaftlichste ist. Dann hat man sich wohl geirrt und bessert nun nach.

In den Augen der Techniker ganz schlimm und nicht nachvollziehbar, aber wohl hatten die Berechnungen genug Leute überzeugt.
 
Es dürfte ja wohl klar sein, dass die Qualitätskontrolle nicht sonderlich ernst genommen wird, wenn man sich u.a auch das Problem mit dem 12VHPWR / 12V-2x6 Stecker anschaut.
 
  • Gefällt mir
Reaktionen: Kitsune-Senpai und OldZocKerGuy
Das ist bitter mit Nvidia! Als nächste schaue ich mir bei Sapphire 9070 Karte an(hoffentlich gute Qualität). Diese Kabelbrandgeschichte bei Nvidia spare ich mir.
 
  • Gefällt mir
Reaktionen: Kitsune-Senpai, Wowka_24 und SweetOhm
PS828 schrieb:
Das würde ich so nicht unterschreiben weil das fehlen jeder Kontrolle auch schleichende Probleme unsichtbar macht. Demnach kann ich nicht wissen ob die chips was taugen.
Es fehlt aber nicht jede Kontrolle, die Chips werden nur nicht vorm Einbau gecheckt, sondern erst hinterher als ganzes.

Ich hab da nicht so viel Ahnung von, allerdings kann ich mir nicht vorstellen das irgendjemand sämtliche Bauteile einzeln testen, bevor er die selbst verbaut. Da wird sich mit Sicherheit immer auf den Lieferanten verlassen.
 
Zuletzt bearbeitet:
PS828 schrieb:
Da stellen sich mir die Nackenhaare auf wenn ich daran denke wie es eine gute Idee sein kann bei einem Produkt der Margenklasse Gelddruckmaschine auf eine 100% Eingangskontrolle der chips zu verzichten
Ach Gottchen, das ist bei Videospeicher völlig normal in der Industrie und man kontrolliert erst separat, wenn es Auffälligkeiten gibt und das wird nun gemacht, alles andere wäre schlicht zu teuer.
So ist das Endprodukt eben bei Nvidia defekt. Das kommt überhaupt nicht zum Kunden.
PS828 schrieb:
Seit dem Stecker weiß man ja dass Nvidia es nicht so hat mit Grundlagen der technischen Produktion und Spezifikation aber das ist selbst für mich überraschend wie man aus purer Faulheit, Spardruck oder beidem sich solchen Risiken aussetzt und im Zweifelsfall höhere Retouren in Kauf nimmt
Geschichten aus dem Paulanergarten. Aber kommen immer gut an, obwohl sie falsch sind.
20 Likes. Top!
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: KlaasKersting
aklaa schrieb:
Diese Kabelbrandgeschichte bei Nvidia spare ich mir.
Na ja. Bei den kleineren Modellen dürfte der Stecker in der Regel nicht schmelzen. :D Zumindest nicht so gravierend wie bei RTX4090/5090FE.:lol:
 
  • Gefällt mir
Reaktionen: Kitsune-Senpai und aklaa
DaDare schrieb:
Lieferant liefert das, was vertraglich bestellt worden ist. Möchte man eine 100 % Prüfung der Chips haben, darf man die 100 % Prüfung der Chips bezahlen.
Wir kennen weder die Fehlerquote noch was im Vertrag drinnen steht. Aber warum macht Nvidia die Meldung öffentlich? Um Druck auf den Lieferanten auszuüben.

Wozu überhaupt Ausgangsprüfungen von Endkunden-Produkten? Gibt doch eh Gewährleistung... naja so einfach ist das nicht. Die Reputation ist spätestens beim Aktienkurs den Anlegern/Gesellschaftern nicht mehr egal.

HBM3 kostet >100 Dollar pro GB. 188 GB auf einer H100 Karte... sind alleine >18.000 Dollar
Wir reden da nicht von ein paar Cent ^^

Edit: Es geht hier um HBM Speicher, das hat nichts mit RTX5000 zu tun.
 
  • Gefällt mir
Reaktionen: Kitsune-Senpai
Che-Tah schrieb:
Wir kennen weder die Fehlerquote noch was im Vertrag drinnen steht. Aber warum macht Nvidia die Meldung öffentlich? Um Druck auf den Lieferanten auszuüben.
Letzteres glaube ich auch. Es beschädigt aber dennoch die eigene Reputation. Die Norm ist, dass alles gebinned wird, damit eben die Speerspitze auch nur das Beste vom bestem erhält.
Che-Tah schrieb:
Wozu überhaupt Ausgangsprüfungen von Endkunden-Produkten? Gibt doch eh Gewährleistung... naja so einfach ist das nicht. Die Reputation ist spätestens beim Aktienkurs den Anlegern/Gesellschaftern nicht mehr egal.
Und dieser Bericht greift sowohl die Reputation bei Endkunden als auch bei Profikunden an.
Che-Tah schrieb:
HBM3 kostet >100 Dollar pro GB. 188 GB auf einer H100 Karte... sind alleine >18.000 Dollar
Wir reden da nicht von ein paar Cent ^^
Ja, es ist unglaublich, in welche schwindelerregenden Höhen mittlerweile die Kosten bei den jüngeren HBM-Iterationen vorgedrungen sind.
 
  • Gefällt mir
Reaktionen: Kitsune-Senpai, peru3232 und Flutefox
Quidproquo77 schrieb:
Geschichten aus dem Paulanergarten. Aber kommen immer gut an, obwohl sie falsch sind.
20 Likes. Top!
Nvidiahate kommt in diesem Forum immer gut an, da spielt es dann auch keine Rolle, ob es wahr ist. Selbst die Moderation macht da mit. Im Kommentarbereich des Tests der RTX 5070 TI liest man die krudesten Verschwörungstheorien.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: KlaasKersting
ElliotAlderson schrieb:
Nvidiahate kommt in diesem Forum immer gut an, da spielt es dann auch keine Rolle, ob es wahr ist. Selbst die Moderation macht da mit. Im Test der RTX 5070 TI liest man die krudesten Verschwörungstheorien.
Wozu bist du dann hier? Auf einer Website wie du sie beschreibst würde ich weder verweilen noch mich registrieren.
 
  • Gefällt mir
Reaktionen: SweetOhm
Quidproquo77 schrieb:
Kennst du die Zahlen wie teuer es ist, das alles separat zu kontrollieren? Wohl kaum.
Ich sprach von den Systemen die ich spezifiziere und die sich in unserem Umfeld im 24h Einsatz befinden. Ja sogar inhouse hier gebaut werden.

Also ja ich kenne die kosten, kontexte und relevanz später. Die Einzelteile kosten wenige cent, die yields sind fast perfekt und doch sparen sie uns hunderttausende Euro pro Monat. Das kann und werde ich auf diesen Fall hier anwenden aus dem einfachen Grund dass es sich selbst hier extrem schnell rechnet obwohl unsere Produkte nicht Tausende Euro kosten. Man wirft die am ende doch eher ungerne weg nur weil eins der vielen teile nicht funktioniert ;)

Aber klar kann man wie @ElliotAlderson sagte es erstmal drauf kleben und dann Testen. Ist dann halt aber auch Mist und die Tatsache dass man jetzt erst schmerzgetrieben eine anständige Prüfung implementiert sagt mir alles was ich dazu wissen muss da ich die selben Diskussionen mit Vorgesetzten über Kosten nutzen hatte und habe.

Es ist kompletter Blödsinn bei einem so komplizierten gesamtprodukt sich vorher nicht jedes Teil anzuschauen wenn es einfach möglich ist. Denn schlimmstenfalls zerstört das von dir so schön relativierte Centprodukt das viele tausend Euro teure Endprodukt und man kann alles abschreiben bevor es auch nur in den Verkauf ging. Wie man da zu dem Schluss kommen kann dass sich das nicht lohnt ist mir komplett unmöglich nachzuvollziehen.

Glaub jedenfalls was du willst. Ich halte jedem den Spiegel vor für den Blödsinn den er verzapft. Jeder 20 Mann Zulieferer oder unsere liebe trillion dollar company hier.

Im übrigen ist es gerade bei weiten reisen zwischen den Standorten, also Lieferungen per Schiff und oder Flugzeug, sogar üblich eine Eingangskontrolle zu machen obwohl eine Ausgangskontrolle gemacht wurde. Denn wer weiß schon was unterwegs gewesen ist. Idealweise wird da sogar eine Datenbankschnittstelle mit Id für jedes Einzelteil mit 100% Tracking umgesetzt sodass man jeden Fehler schnell findet bevor es in der Produktion landet.

Aber nichtmal so ein Datenaustausch schien ja stattzufinden. Dein erwähntes vertrauen in den Zulieferer ist sehr blauäugig und in der Halbleiterindustrie nichtmal zwischen Standorten des gleichen Unternehmens die Regel. Specs sind schön und gut und was feines zum in die Kamera halten, aber das wesen solcher Produkte verhindert in der Realität dass man wie in anderen Industrien einfach nur Stichproben nimmt.

Das mag bei Speicherbausteinen selbst im genannten Maßstab nicht gemacht worden sein (und ich weiß dass du das versuchen wirst aus dem Kontext zu reißen deshalb bin ich jetzt ganz klar an dieser Stelle) dies liegt aber an der klasse von Produkt und nicht am Produkt selbst. Wie @Volker oben sagte, einen cent RAM riegel wegwerfen kann eher Argumentiert werden als wenn ich riskiere mit eben diesen billig chips ein ganzes GPU PCB sammt chip unbrauchbar zu machen, sei es durch Initialausfall oder durch Degradation. (Degradation ist noch ein Thema warum eben solche Kontrollen relevant sind da nur so sichergestellt werden kann dass frühzeitige Ausfälle nicht passieren) und hier liegt das eigentliche versagen. Die Arroganz Nvidias und seiner Zulieferer dass es ohne geht. Das ist es was letztendlich so viel schaden verursacht hat dass sie eingreifen und nicht nur die Dinge richtig machen sondern es auch offen zugeben.

Und deshalb ist sehr wahrscheinlich etwas dran an der Sache wenn ich sage dass dort auf mehreren Ebenen langezeit weggeschaut und unnötig Inventar weggeschmissen worden ist.
 
  • Gefällt mir
Reaktionen: BorstiNumberOne, chaopanda, SweetOhm und 6 andere
CDLABSRadonP... schrieb:
Die Norm ist, dass alles gebinned wird, damit eben die Speerspitze auch nur das Beste vom bestem erhält.
Es gibt aber gar kein Binning, es gibt keine Speerspitze. Es gibt den B200-Chip. Das wars. Mehr fertigt Nvidia nicht mit HBM3.
 
Quidproquo77 schrieb:
... alles andere wäre schlicht zu teuer.
Zu teuer? Dir ist schon klar in was für einer Klasse von Produkt HBM Speicher verbaut wird oder? Das bisschen Testaufwand würde in irgendeinem Posten untergehen und am Ende wahrscheinlich sogar die Profitabilität erhöhen, weil weniger fertige Produkte aussortiert werden müssen.
 
  • Gefällt mir
Reaktionen: chaopanda, SweetOhm und PS828
Quidproquo77 schrieb:
So ist das Endprodukt eben bei Nvidia defekt. Das kommt überhaupt nicht zum Kunden.

glaubst du - ist ja nicht so das es den DoA gibt, ne?

Wenn der Fehler nur in einigen Situationen auftritt, der bei der Endkontrolle, WENN es eine geben sollte, nicht direkt auftritt sondern erst wenn z.B. eine gewisse Wärme in den Karten ist, dann gelangt der zum Kunden!

Die Prüfung vor dem Zusammenbau würde aber die Chance erhöhen, gerade solche Fehler aufzufinden, weil die thermische Belastung höher ist und die Chips schneller auf Betriebstemperatur kommen aufgrund ihrer geringen Eigenmasse, die erwärmt werden kann.

Apropos Endkontrolle, wenn es diese geben sollte, du glaubst doch nicht, das NV jedes EndProdukt stundenlang testet. Das wäre viel zu komplex. Der Eingangstest einzelner Chips hingegen ist wesentlich schneller, da man die Testbearbeitungsmuster schnell und effizent automatisiert durcharbeiten kann.
Und das das erst jetzt bei NV angekommen ist, ist einfach nur traurig aus Kundensicht, denn dann weiß man an welcher Stelle man dort steht.
 
  • Gefällt mir
Reaktionen: SweetOhm und PS828
Schinken42 schrieb:
Wozu bist du dann hier? Auf einer Website wie du sie beschreibst würde ich weder verweilen noch mich registrieren.
Um Kontra zugeben.

CDLABSRadonP... schrieb:
Im Test? Oder im Kommentarbereich?
Im Kommentarbereich natürlich. Die Tests von CB sind 1A.

Sebbi schrieb:
glaubst du - ist ja nicht so das es den DoA gibt, ne?
Die gibt es immer, völlig unabhängig vom HBM. Hier wird mal wieder unnötigerweise ein Fass aufgemacht mit kruden Behauptungen ohne zu wissen, ob es wirklich so ist.
 
Zuletzt bearbeitet:
ElliotAlderson schrieb:
@PS828 dir ist klar, dass das spätestens beim Test der Graka auffällt? Die erreichen also nicht den Endkunden.
Ist das so?
Meines Wissens nach sind genau dafür gewisse Funktionen in der Hard- und Software zuständig, kleine Fehler haben viele RAMs.
Wir haben vor einigen Jahren mal Wochen, wenn nicht sogar Monate damit verbracht Speicher zu testen, bevor dieser in einen Supercomputer im Science Cluster gewandert ist.
 
  • Gefällt mir
Reaktionen: SweetOhm und Sebbi
R4yd3N schrieb:
Wenn du einzelne Bauteile für Monate testest und es kommt raus, dass 100 % oder 99,999 % fehlerfrei sind, dann stellst du es ein, weil es wohl sinnlos ist, dort anzusetzen - der Artikel sagt ja, dass das in der Industrie bei bestimmten Teilen wohl normal war. Endkontrolle reicht aus, um die Einzelfälle aufzudecken.

Vorher war das Verhältnis wohl umgedreht. Jetzt:
Kosten jedes Bauteil zu testen < Kosten bei der Endkontrolle mehr wegzuwerfen
 
Zurück
Oben