News Nvidia: Wissenschaftler berichten von Rechenfehlern mit der Titan V

WommU · 22. März 2018

Probleme gibt es seitdem es Taschenrechner und Computer gibt. z.B. bei TI-Taschenrechnern.

Ich empfehle das hier: http://service.de.faber-castell-shop.com/Castell-Novo-Duplex

LukS · 22. März 2018

@jk1895
Deren Aussagen sind schon Korrekt. Lese dich doch mal ein in die Materie, dann wirst du es verstehen. Sie haben dazu schon ziemlich gute Stichworte (Genauigkeit, Maschinenzahlen, Rundungfehler, usw) gegeben.
Dann wirst du auch verstehen, wie viel Aufwand es für einen Computer es ist alleine, zwei Zahlen wie 1000000 und 0,00001 oder ähnliches zu addieren.

Wettervorhersagen sind ein ganz eigenes Kapitel. Wetter kann nur durch Näherungsmodelle vorhergesagt werden. Diese Modelle können immer nur auf größere Räume angewendet werden. Auch würde es für ein genaue Wettervorhersage viel mehr Eingangsdaten benötigen. Da müsste man auch mindestens einmal pro Kilometer in jeder Höhe die Temperatur, Druck und Feuchte (noch was?) messen. Beim Wetter gibt es einfach zu viele lokale Einflüsse (da kann schon ein kleiner Hügel durch Gars oder Wald schon wieder das Klima anders beeinflusst), welche einfach nicht alle berücksichtigt werden können. Man würde den Himmel vor lauter Messballons nicht mehr sehen, wenn du eine genaue Wettervorhersage haben willst.

nagus · 22. März 2018

Kann nicht behaupten, dass ich eine gewisse Schadenfreude empfinde, nach all dem was Nvidia so abzieht. Was ich außerdem lustig finde ist, wie solche Meldungen bei CB immer recht schnell "under the fold" verschwinden.... würde AMD sowas passieren, wäre das tagelang als HERO-Banner ganz oben platziert. Qualitätsjurnalismus eben...

Eingang · 22. März 2018

Das Problem liegt auf der anderen Seite, aber niemand begreift es:

Die Titan V ist genauer als korrekt. Sie zeigt, dass gleiche Rechnungen unterschiedliche Ergebnisse haben können. Quanteneffekt. Ab einer bestimmten Genauigkeit, verändert sich das Resultat. Nur bislang waren weder Menschen noch Maschinen dazu im Stande eine solche Genauigkeit zu erreichen. In Wahrheit rechnen wir alle falsch. Bis jetzt. Klare Sache. Die Karte ist ihrer Zeit weit voraus. Der Wahnsinn. Schade, dass nun über die Titan V hergezogen wird. Aber so ist das nun mal mit Genies.

Achtung: Das war nur ein Spass. Hahahaha.

Die Wahrheit ist ganz anders und nicht weniger kurios: Das ist die KI. Die KI "rechnet" nicht einfach nur. Ihre Intelligenz übersteigt das menschliche Fassungsvermögen. Die wissen noch nicht, was für ein "Monster" sie da erschaffen haben. Aber wer glaubt, das wäre Zufall, liegt weit daneben. Die Titan V macht keine Fehler. Ihre Ergebnisse haben einen tieferen Sinn. Punkt.

(Schon wieder Spass. Ist heute etwa der 1. April?)

Volkimann · 22. März 2018

Lederjacken Johnny wird in 3-6 Monaten verkünden das dies ein Feature ist das nur leider der Kunde nicht verstanden hat.

Also bitte nicht weiter rumbohren, sondern konsumieren. Danke.

calNixo · 22. März 2018

In anderen Berichten wird mit Verweis auf die Quelle von Abweichungen in Höhe von zehn Prozent gesprochen, diese Übersetzung ist aber nicht korrekt.
Was für Spieler vermutlich in nicht sichtbaren Grafikfehlern münden würde, ist in der Wissenschaft ein Problem.

Das würde zu den Erfahrungen der PCGH passen. Die haben die Karte in der aktuellen Ausgabe für Spiele verwendet und hatten mehrere Grafikfehler gehabt. Vielleicht das gleiche Problem und doch sichtbare Fehler?

Warum nur zwei der Modell in nur zehn Prozent der Berechnungen dieses Fehlverhalten aufweisen, darüber kann auch The Register, die die Beobachtungen der Forscher aufgegriffen haben, nur spekulieren. Eine Quelle aus der Industrie nannte ein Problem mit dem Speicher respektive den Timings als wahrscheinliche Ursache.

Gibt es HBM noch nicht als ECC zur Fehlerabsicherung? Oder würde das nichts nutzen?

r4yn3 · 22. März 2018

Passiert halt wenn man Consumerhardware verwendet

Shrimpy · 22. März 2018

"Das ist keine Gamer Karte" sehr amüsant, auch in Verbindung zur RTX Raytrace.

Man müste meinen für 3000 währe ECC bei HBM freigeschaltet wie bei der Vega FE.

So wie ich das verstehe können ALLE HBM2 Stacks ECC bei RX Vega ist es deaktiviert, und beider Titan hier wohl auch?

psYcho-edgE · 22. März 2018

Da hat doch sicher die KI in den Tensor Cores ein Wort mitzureden gehabt

Hallo32 · 22. März 2018

rg88 schrieb:
Dafür gibts aber IEEE-Normen, damit man weiß, wie das Ergebnis "falsch" ist. Der Computer verrechnet sich hier nicht, weil reproduzierbar das selbe Ergebnis rauskommt, das nach der Norm erwartet werden kann. Ein Rundungsfehler ist also lediglich eine technisch bedingte Ungenauigkeit.

So sollte es in der Theorie sein.

Kann mich aber auch daran erinnern, dass im Rahmen einer Arbeit Bug Reports gegen den GCC ausgefüllt wurden, weil die Vorgaben beim Runden nicht korrekt behandelt wurden.

timboboy123 · 22. März 2018

Das wäre bitter wenn die GPU schuld ist. Sowas zu tracken muss ein Albtraum sein...

Ozmog · 22. März 2018

Shrimpy schrieb:
Man müste meinen für 3000 währe ECC bei HBM freigeschaltet wie bei der Vega FE.

Dann müsste es auch wirklich am Speicher liegen. Bisher weiß man ja nichts genaueres, außer das es Fehler gibt.

Da es keine systematischen Fehler sind, sondern zufällige, ist das in der Tat ein Problem. Ich würde doch schon etwas Schadenfreude gegenüber Nvidia empfinden, wenn es tatsächlich ihr Fehler ist, insbesondere wenn es auch noch ein Hardware-Problem ist. Hauptsache schnell.

Erinnert mich an einen Witz:
"Ich bin einer der schnellsten Kopfrechner"
"Ach, echt? Was ist die Wurzel aus 1374?"
direkte Antwort "17!"
"Aber das ist Falsch!"
"Aber es war schnell"

Da fällt mir ein: War da nicht mal eine Geschichte mit GeForce gegen Polaris bei Ashes of the Singularity wo die GeForce nicht alles gerendert hat? (Schneebedeckung oder so was?)

DarkerThanBlack · 22. März 2018

Eingang schrieb:
Das Problem liegt auf der anderen Seite, aber niemand begreift es:

Die Titan V ist genauer als korrekt. Sie zeigt, dass gleiche Rechnungen unterschiedliche Ergebnisse haben können. Quanteneffekt. Ab einer bestimmten Genauigkeit, verändert sich das Resultat. Nur bislang waren weder Menschen noch Maschinen dazu im Stande eine solche Genauigkeit zu erreichen. In Wahrheit rechnen wir alle falsch. Bis jetzt. Klare Sache. Die Karte ist ihrer Zeit weit voraus. Der Wahnsinn. Schade, dass nun über die Titan V hergezogen wird. Aber so ist das nun mal mit Genies.

Da hat wohl jemand das kommende Statement vom CEO Jensen Huang vorab in die Finger bekommen. Ein Kommunikationsproblem schließe ich jedenfalls aus.

Bin mal gespannt ob sich NVIDIA überhaupt zu Wort meldet. Ist ja nur eine 3100 Euro Karte.

flmr · 22. März 2018

DaZpoon schrieb:
Was haben solche Rechenfehler eigentlich in Blockchains für Auswirkungen?

Gar keine, das ist ja der Sinn einer Blockchain.

calNixo schrieb:
Gibt es HBM noch nicht als ECC zur Fehlerabsicherung? Oder würde das nichts nutzen?

Grundsaetzlich unterstuetzt der HBM Standard optional ECC, ob das bei den aktuellen Stacks von Samsung, die von Nvidia genutzt werden, vorhanden ist, muesste man pruefen. Die ersten Stacks von Hynix fuer AMD's Fiji konnten kein ECC. Moeglich waere aber auch, dass der Controller auf der Titan ECC gar nicht aktiviert hat, waehrend es auf Titan/Quadro laeuft.

Herdware · 22. März 2018

Konnte doch auch keiner damit rechnen, dass jemand mit einer Titan wirklich ernsthafte, wissenschaftliche Berechnungen anstellt.

Auch wenn Nvidia immer wieder behauptet hat, die Karten würden sich an (semi-)professionelle Anwender richten, spricht doch praktisch alles andere dafür, dass es reine Gamer-/Benchmark-Produkte sind.
Ein goldener Bling-Bling-Kühler mit LED-Beleuchtung, GeForce-Treiber usw. Wie deutlich müssen die Hinweise auf das tatsächliche Einsatzgebiet der Titan den noch sein?

Meiner Meinung nach ist die Behauptung, es wäre Profi-Karten, nur ein Marketing-Trick, um die extremen Preise zu relativieren. Eine ähnlich ausgestattete Quadro oder Tesla kostet halt noch mehr. Aber die sind dann wirklich für professionelle Anwendungen gedacht und z.B. auch dafür zertifiziert (inklusive Treiber).

Man braucht nicht viel Fantasie, um sich auszumalen, was jemand als erstes zu hören bekommt, der sich bei Problemen mit seiner GeForce Titan z.B. an die Hotline von Siemens oder Dassault wendet. "Kaufen sie sich ein für unsere Anwendung zertifiziertes Produkt und melden sie sich dann wieder."
Da sollte es an ein paar tausend Euro mehr für die Hardware auch nicht scheitern, wenn die jährlichen Lizenz- und Supportkosten für die Software locker fünfstellig sind. Von den Lohnkosten der Leute, die damit arbeiten, ganz zu schweigen.

mgutt · 22. März 2018

Gut, dass die Betatester spielen. Beim autonomen Fahren hätten wir sonst die selben Probleme wie früher in der Raumfahrt:
https://www.golem.de/news/softwaref...neunzigern-stuerzte-alles-ab-1511-117537.html

neofelis · 22. März 2018

...Was für Spieler vermutlich in nicht sichtbaren Grafikfehlern münden würde, ist in der Wissenschaft ein Problem...

Auch wenn Grafikfehler augenscheinlich werden, stürzt eine Anwendung nicht immer ab. Meistens weiß man dann jedoch, dass man beim Übertakten des Speichers etwas runterschrauben muss.

Ich habe immer vermutet, dass Grafikspeicher grundsätzlich fehlertoleranter ist. Das wäre natürlich bei wissenschaftlichen Berechnungen fatal. Dort ist ein Ergebnis meistens wertlos, wenn es nicht reproduziert werden kann.

Wenn es nach physikalischen Grundsätzen überhaupt reproduziert werden kann

Edit:

Herdware schrieb:
...Auch wenn Nvidia immer wieder behauptet hat, die Karten würden sich an (semi-)professionelle Anwender richten, spricht doch praktisch alles andere dafür, dass es reine Gamer-/Benchmark-Produkte sind. ...

So sieht es wohl aus. Wie schnell die Karte dann mit aktiviertem ECC noch arbeitet? Vermutlich ist die Performance-Krone dann weg

Schranz0815 · 22. März 2018

Tja da fällt einen nicht mehr viel dazu ein außer "poor volta" :-)

StefVR · 22. März 2018

Die jungs haben sicher meine gpu die ich wieder zurueckgeschickt hatte. die hatte nen ganz komisches verhalten an den tag gelegt d

Obvision · 22. März 2018

DaZpoon schrieb:
Ein 3000-Euro Zufallsgenerator

Was haben solche Rechenfehler eigentlich in Blockchains für Auswirkungen?

Dass deine Berechnung, dein "share" abgelehnt wird und du somit keine Bezahlung für die Berechnung bekommst.

News Nvidia: Wissenschaftler berichten von Rechenfehlern mit der Titan V

Lt. Commander

Rear Admiral Pro

nagus

Gast

Cadet 4th Year

Commander

Commander

Admiral

Shrimpy

Gast

Admiral

Commodore

Ensign

Rear Admiral Pro

Commander

Ensign

Fleet Admiral

Commander

Commander Pro

Ensign

Commodore

Lt. Commander Pro