Nvidia: Wissenschaftler berichten von Rechenfehlern mit der Titan V
In spezifischen wissenschaftlichen Anwendungen soll Nvidias 3.000-Euro-Grafikkarte Titan V sich mitunter verrechnen. Das berichten Forscher auf Basis ihrer eigenen Erfahrungen. Die genauen Hintergründe sind aber noch ungeklärt. Neben der Hardware kann auch Software die Ursache sein. Nvidia lehnte einen Kommentar bisher ab.
Zweimal ohne Befund, zweimal mit 10-Prozent-Fehlerrate
Aufgefallen sein soll das Problem bei der Simulation einer Interaktion zwischen Proteinen und Enzymen. Vier Nvidia Titan V zeigten dabei nicht immer dasselbe Ergebnis. Während zwei Titan V immer korrekt rechneten, lieferten die zwei anderen Modelle in zehn Prozent der Fälle nicht das richtige Resultat. In anderen Berichten wird mit Verweis auf die Quelle von Abweichungen in Höhe von zehn Prozent gesprochen, diese Übersetzung ist aber nicht korrekt.
After repeated tests on four of the top-of-the-line GPUs, he found two gave numerical errors about 10 per cent of the time.
Was für Spieler vermutlich in nicht sichtbaren Grafikfehlern münden würde, ist in der Wissenschaft ein Problem. Dabei ist die Titan V primär für den professionellen und damit auch den wissenschaftlichen Einsatz gedacht. Nvidia betont stets, dass das Flaggschiff außerhalb der Tesla-Serie auf Basis der Volta-Architektur keine Gaming-Grafikkarte ist und hat sie auch nicht an Redaktionen verteilt. Der echte Gaming-Nachfolger von Pascal soll erst im zweiten Halbjahr 2018 vermutlich unter dem Codenamen Turing erscheinen.
Hardware, Firmware, Software?
Warum nur zwei der Modelle in nur zehn Prozent der Berechnungen dieses Fehlverhalten aufweisen, darüber kann auch The Register, die die Beobachtungen der Forscher aufgegriffen haben, nur spekulieren. Eine Quelle aus der Industrie nannte ein Problem mit dem Speicher respektive den Timings als wahrscheinliche Ursache. Bei der Titan V ist der HBM2 mit 850 MHz getaktet, eventuell zu hoch, schlussfolgert The Register. Fehler könnten die Folge sein. Dass das Problem nicht auf allen Modellen zutage tritt, wäre damit auf Schwankungen in der Qualität der Komponenten zurückzuführen.
Auch ältere Modelle von Nvidia hätten bereits Probleme bei der Genauigkeit in wissenschaftlichen Anwendungen gehabt, heißt es weiter. Sie wurden sowohl in der GeForce- als auch in der Titan-Familie aber über einen Patch softwareseitig behoben. In diesem Punkt beruft sich The Register allerdings abermals auf Quellen in der Industrie, handfeste Hinweise darauf finden sich öffentlich aber nicht mehr.
Auch die Anwendung kann die Ursache sein
Außer Acht lässt The Register, dass die Probleme auch auf die Software selber zurückzuführen sein könnten. Ein solches Problem ereilte Nutzer im Jahr 2015 zum Beispiel in der auf Machine Learning ausgelegten Bibliothek Theano. Nach deren Update waren alle Berechnungen korrekt.
Wie The Register unter Berufung auf die Wissenschaftler berichtet, ist Nvidia über das Problem informiert. Einen öffentlichen Kommentar hat der Konzern bisher abgelehnt. Nvidias Öffentlichkeitsarbeit steht derzeit durch das GPP bereits auf dem Prüfstand.