Leserartikel [Tutorial] GPU Diagnose und Reparatur step by step

Tutorial zur Step by Step Diagnose und Reparatur -> Inno3D 9800GT

Ich dachte, ich nehme euch heute nochmal schrittweise mit, wie ich bei Repairs vorgehe. Ich wollte das eigentlich erst in meinem Repair-Blog hier auf CB (siehe Signatur) posten, aber das wäre ein bisschen viel geworden. Hier kann ich auch gezielter Fragen beantworten. Ich denke mal, das Unterforum ist dafür okay. :)
Die Vorgehensweise ist bei aktueller Hardware zu 99% identisch, und für den Einstieg gleich an ner 3090 rumzubasteln, endet nie gut!

Folgender Delinquent:

20240112_114303.jpg

Schonmal vorweg: Die Karte schubst zwar noch Pixel, aber teilweise mit falschen Farben oder in die falsche Richtung. :D Diagnose Bildfehler. Und wir werden jetzt rausfinden, wieso.
Ich erzähle gleich was von Linux bzw. Testsoftware, dafür gibt es Tutorials (einfach mal Nvidia Mods/Mats setup) googlen. Wenn Interesse besteht, kann ich dazu ein Folgetutorial machen und auch zeigen, wie man bei AMD-Karten vorgeht. Aber eins nach dem anderen.

1. Optische Kontrolle
Als erstes Glubscherchen auf, und schauen, ob wir mit bloßem Auge irgendwelche offensichtlichen Beschädigungen entdecken können. Hervorstehende Bauteile (auf denen die Karte liegt), sind immer gute Kandidaten. SMDs auf der Rückseite, und sonst Elkos und Mosfets checken. Lupenlampe regelt. Außerdem kann man jetzt schon den Kühler abmachen und den GPU Chip auf Verfärbungen, Kratzer und abgebrochene Ecken prüfen. Dann ist nämlich alle weitere Arbeit umsonst.
Auch PCB auf Biegung und beschädigte Ecken kontrollieren. Diese Karte sieht gut aus, nur ein bisschen dreckig.

20240112_140828.jpg


2. Durchmessen
Bevor wir irgendwas einbauen, ans Multimeter ran und schnell ein paar Werte nehmen. Sonst kann es zu unfreiwilligem Feuerwerk kommen. Das riecht dann immer so unschön und das Piepen von den Rauchmeldern nervt irgendwann... :skull_alt:
Zu erklären, wie man das macht, ist gar nicht so schnell gemacht. In der Praxis ist es mit etwas Erfahrung aber eine Sache von einer Minute! Eine Messspitze auf Masse (z.B. Slotblende, Schraubenlöcher) und eine auf den Pin:

Vorderseite Slot:
Slot1.jpg

12V sollte anfangs bei ~2-3kOhm liegen und steigen, während ihr messt, weil sich die Kondensatoren laden.
3,3V ist unterschiedlich, könnte so von 500 Ohm-5kOhm liegen. Wichtig ist erstmal nur, dass kein Kurzschluss vorliegt (0 Ohm oder nahe dran).

Rückseite Slot:
Slot2.jpg

12V und 3,3V brauchen wir nicht nochmal zu messen - neu sind PEX Reset und die Data Lines.
Bei PEX RST ist eigentlich nur wichtig, dass ihr eine Verbindung messt. Die kann im MOhm Bereich liegen. Dafür müsst ihr die Messspitzen umdrehen: Masse auf den PCI-E Pin und Plus auf die Blende, sonst messt ihr nichts. Falls euer Multimeter einen Diodenmodus hat, kann man auch damit messen. Spannungsabfall über PEX_RST sollte relativ hoch bei ~0,6-0,7V liegen.

Die Data Lines messen wir, um die Verbindung zwischen GPU Lötpunkten und PCI-E Slot zu checken. Das ist die Anbindung für PCI-E x1. Die Werte sollten so um die 1-2 MOhm liegen, aber wichtig ist eigentlich nur, dass beide gleich sind!

Als letztes messen wir noch die 12V vom Stecker und die Spannungswandler für GPU und Mem.
20240112_114306 2.jpg

12V sollte ähnlich zu den 12V vom Slot sein, GPU im einstelligen Ohm-Bereich liegen (1-4 Ohm) und Speicher bei ~50-100 Ohm.
Wenn wir nirgendwo Kurzschlüsse gefunden haben, ist die Karte "safe to plug". Das war hier der Fall und die Widerstände sahen alle gut aus. Also einbauen den Schinken.

3. Einbau

Jetzt kommt der spannende Moment, wo wir sehen, ob wir ein Bild bekommen oder nicht... Die POST-Phase des Mainboards fühlt sich jetzt immer besonders lange an. Diagnose-LEDs oder Segmentanzeige am Board helfen psychisch.
20240112_114040.jpg


Happy little accident :daumen: :stacheln:

20240112_114040 2.jpg


Der Post-Screen sieht folgendermaßen aus:

20240112_114043.jpg


Also Bild ist da, was uns gleich mehrere Sachen verrät:
  • Keine Arbeitsverweigerer im VRM, die Spannungen müssen alle da sein.
  • Die GPU wird als PCI Device initialisiert, kann also nicht katastrophal beschädigt sein.
  • BIOS Chip und Software sind grundsätzlich in Ordnung.
  • Das Quartz auf der Karte muss funktionsfähig sein.

4. Fehlerdiagnose

Wenn ihr kein Bild bekommt:
Bildschirm an "known-good" GPU anschließen und die defekte in den zweiten Slot. Dann kann man Linux booten und weiter diagnostizieren. Mit dem Command
Code:
lspci -v
werden euch alle PCI Devices angezeigt.
Wichtig ist, dass eure defekte Karte hier als VGA compatible controller erkannt und aufgelistet wird. Wenn nicht, ist größere Baustelle: entweder fehlen Spannungen oder die GPU ist defekt/muss reballed werden.
20230210_134949 2.jpg


Bildfehler wie die von meiner 9800GT deuten erfahrungsgemäß meistens auf die Speicherchips. Wir können die Nvidia Software MODS benutzen, die zum Glück in vielen Versionen relativ frei verfügbar ist, und unsere GPU so testen wie der Hersteller es tut. Nicht nur bei Defekten, sondern auch während des Herstellungsprozesses. Wie man das auf einem bootbaren USB Stick installiert, findet ihr wie gesagt mithilfe von YT-Tutorials heraus. Ich beanworte aber auch gerne Fragen dazu.
Kurz zur Einordnung: MODS (Modular Diagnostics Software) ist der Oberbegriff, und "Mats" heißt der Speichertest.

Die 9800GT funktioniert zum Glück mit der Mods Version 173.48, die ich installiert habe (die Zahlen sind gleich zu den Treiberversionen). Diese alte Mods Version läuft noch unter DOS, und nicht Linux.
Wir können uns mit dem Befehl
Code:
dir
die Ordner anzeigen lassen, mit
Code:
cd 173.48
in das Testverzeichnis wechseln und dann mit
Code:
mats -e 1
den Speichertest ausführen. Die "1" steht für einen Test mit 1MB. Um die Ergebnisse zu verifizieren, sollte man den Test auch nochmal mit 5MB oder bei neueren Karten mit 10-20MB durchlaufen lassen. Mats kann da etwas speziell sein.

Unter Linux ist es
Code:
ls
zum Anzeigen der Ordner, wieder
Code:
cd xxx.xx
und dann
Code:
./mats -e 1
zum ausführen des Tests.

5. Diagnoseergebnisse und Interpretation
Ich konnte mit dem Monitor an der 9800GT bis in DOS booten und den Test ausführen. Da ich im Entziffern von Hieroglyphen allerdings nur durchschnittlich bewandert bin, konnte ich mit den Ergebnissen nichts anfangen - das Bild war einfach zu verpixelt.
In diesem Fall können wir den Rechner ausschalten, und den USB Stick, auf dem wir MODS haben laufen lassen, einfach an einen anderen Rechner anstöpseln. Mods und Mats speichern ihre Ergebnisse automatisch in "mods.txt" bzw. "report.txt" ab.
(Auf neueren Linux-Versionen kann man mit
Code:
nano mods.log
auch direkt in Linux die Textfiles auslesen.)

Der Kopf des Report-Files sieht so aus:

Code:
MATS version 4.173.1.  Testing G92 with 512 MB of memory.
Errors found.  Use .Status() or .PrintErrors() for more info.
This message will only appear once.
   LANE    EB0 READ ERR EB0 WRT ERR  UNKNOWN ERR
---------- ------------ ------------ ------------
FBA[31: 0]           0            0            0
FBA[63:32]           0            0            0
FBB[31: 0]           0            0            0
FBB[63:32]           0            0            0
FBC[31: 0]           0            0            0
FBC[63:32]           0            0            0
FBD[31: 0]      304118       212395            0
FBD[63:32]       48234       496422            0

External Bank 0 Failing bits:
   D00 D01 D02 D03 D04 D05 D06 D07 D08 D09 D10 D11 D12 D13 D14 D15
   D16 D17 D18 D19 D20 D21 D22 D23 D24 D25 D26 D27 D28 D29 D30 D31
   D32 D33 D34 D35 D36 D37 D38 D39 D40 D41 D42 D43 D44 D45 D46 D47
   D48 D49 D50 D51 D52 D53 D54 D55 D56 D57 D58 D59 D60 D61 D62 D63
 
Read    Error Count: 352352
Write   Error Count: 708817
Unknown Error Count: 0

Wir können oben erkennen, dass die GPU korrekt als G92 mit 512MB Speicher erkannt wird.
Darunter folgt die Tabelle mit den Speicherbänken. Auf den meisten Grafikkarten bilden zwei Speicherchips eine Partition, so auch hier: Partition A wird in A0 (bit 0 bis 31) und A1 (32-64) aufgeteilt.

Die ersten Fehler sehen wir auf Partition D. Wir haben auf D0 und D1 sowohl Schreib- als auch Lesefehler. Es kommt darauf an, wo keine Nullen stehen - das ist die Anzahl der Fehler auf dem jeweiligen Chip.

Untendrunter stehen dann noch die "failing bits". Das sind in unserem Fall alle Bits auf beiden Chips (0-64). Manchmal sind es nur 1 oder 4 bits, in dem Fall könnte man sogar den entsprechenden Pin unter dem Ramchip rausfinden.
Fehler auf allen Bits sind bei Bildfehlern aber nichts ungewöhnliches und heißen nicht, dass die Chips selbst defekt sind!

Wenn ihr aufgepasst habt, dann ahnt ihr schon, dass der Mehrwert dieser Software vor allem darin liegt, genau rausfinden zu können welche Speicherchips Probleme machen.
Damit uns das irgendwas bringt, müssen wir aber auch noch wissen, welcher Chip auf dem PCB denn jetzt überhaupt welche Partition hat.

Man zählt grundsätzlich vom PCI-E Slot gegen den Uhrzeigersinn. Die Reihenfolge ist bei Nvidia so:
20240112_140828 2.jpg


Wir müssen an D1 und D0, also die "letzten" beiden Chips.
Bei ganz alten NV Karten (6800) und auch ATI zählt man übrigens A0->A1->B0->B1 und ganz neue Grakas fangen meines Wissens nach teilweise mit C1 an... Aber die Ausnahmen bestätigen bekanntlich die Regel.


6. Ursache und weiteres Vorgehen

Grakas werden im Betrieb bekannterweise ziemlich toasty und vom Gewicht her immer schwerer. Mit vielen heat cycles und gleichzeitiger mechanischer Belastung über schwere Kühler reißen irgendwann die BGA-Lötstellen unter der GPU oder dem Speicher. Deswegen bin ich Verfechter von Graka-Stützen!
Verschiedene Generationen sind hier unterschiedlich anfällig. Alte Radeon 9700/9800 AGP haben z.B. IMMER Bildfehler durch Speicherchips aufgrund von hohen Temperaturen, Nvidia G80 haben das gleiche gerne unter der GPU.

9800GT's bzw. G92 GPUs sind jetzt nicht besonders für irgendwas bekannt, hier wird es einfach das Alter sein. Vielleicht ist die Karte auch mal unsanft angefasst worden oder runtergefallen.
Die wichtige Erkenntnis daraus ist aber, dass wir keine neuen Speicherchips brauchen. Wir können einfach die vorhandenen neu einlöten und sollten in 95% der Fälle fine sein.


7. Reparatur
Hierfür ist jetzt etwas mehr Equipment nötig:
  • Heißluftlötstation
  • Preheater
  • Flussmittel
  • Basic Werkzeuge (Pinzetten, Schraubenzieher etc.)

Es gibt zu jeder "vernünftigen" Lösung auch eine Ghetto-Lösung. Z.B. kann man das auch mit nem Heißluftfön und ner Kochplatte probieren. Die Erfolgschancen sinken aber, je weiter man sich von dem idealen Equipment entfernt! Grafikkarten sind empfindlich und euch fehlt dann die Justierbarkeit, Wiederholbarkeit und Kontrolle.
Für die Einsteiger-Lösungen landet ihr insgesamt bei ca. 120€.

Bewegte Bilder sagen mehr als 1000 Worte.


Die Karte kommt auf den Preheater, bis sie 120-150° PCB hat. Das Lötzinn wird bei 217°C flüssig. Achtung: bei ganz alten Karten (Nvidia 7000, ATI X1000 oder älter) wurde noch bleihaltiges Lötzinn mit einem Schmelzpunkt von ca. 180° verwendet.
Wir können dann ganz entspannt mit 350° Einstellung auf der Hot Air Station die Speicherchips reflowen. Die Pinzette dient eigentlich nur als Test, ob der Chip auch wirklich frei schwimmt - ist aber auch gut, um die Balls neu zu verbinden. Hier ist Fingerspitzengefühl gefragt - zu doll anstupsen, und man hat Kurzschlüsse überall und muss den Chip doch reballen. Das ist mir mehr als einmal passiert.

Es gibt auch Preheater für z.B. Handy-Displays, die haben dann deutlich weniger Power. Naja, es ist alles besser als Raumtemperatur. Je höher die Unterhitze, desto weniger Temperatur müsst ihr dem Chip über Heißluft geben, und man will generell so geringe Temperaturen wie möglich verwenden.

Korrekterweise würde man die Ramchips übrigens runternehmen und reballen. Dafür ist aber deutlich mehr Equipment nötig, was erst recht keiner einfach so rumliegen hat. Das hier ist die "quick and dirty" Methode, die in 95% der Fälle zum selben Ergebnis führt und in meiner Erfahrung bisher genauso haltbar ist. (Ausnahmen wären z.b. abgerissene oder stark korrodierte Pads unter den Chips, wie auf dieser HD7870 - mittlerer Chip oben rechts - dort musste ich das Pad ersetzen).

20230920_141551.jpg



8. Ergebnis

Zeit, die Karte wieder einzubauen und zu schauen, ob das Ganze irgendwas gebracht hat.
Vorher unbedingt noch einmal Widerstand auf der Mem-Rail prüfen, wie unter Punkt 2! Der darf sich zu vorher nicht groß verändert haben. Dafür müsst ihr übrigens warten, bis das PCB wieder abgekühlt ist, sonst misst man sonstwas.

20240112_173055.jpg

Bild nicht mehr verpixelt, Junge!

An diesem Punkt können wir uns sicher sein, dass die Speicherreparatur erfolgreich war. Dafür braucht es dann auch keine erneuten Speichertests - die Pixelfehler vorher und das Bild jetzt sprechen eine deutliche Sprache.

Treiber lassen sich installieren und 3D läuft. Zuerst lief die Karte nur im x4-Modus - habe dann bei genaurerer Untersuchung einen gebrochenen Kerko am Slot entdeckt, der unmöglich zu sehen war. Den ersetzt, und jetzt läuft sie auch x16.

20240112_181026 2.jpg


3D Tests:
03.JPG06.JPG


Bisschen saubergemacht und wieder voll einsatzbereit :)

20240112_173134.jpg


Ich hoffe ihr hattet Spaß beim Lesen und konntet das ein oder andere lernen. Graka-Repairs sind nicht einfach und haben eine steile Lernkurve, aber selbst alte Karten wieder zum Leben zu erwecken, ist so ein geiles Gefühl. :D
Auf dieser 9800GT wird sicher noch zünftig Half Life 2 oder ähnliches gezockt, die Karten landen bei mir nicht einfach in der Vitrine. Die sollen benutzt werden, da kann ich gleich noch etwas Werbung für Retro Gaming machen. Auf zeitgemäßer Hardware natürlich ;)

Falls ihr selber noch defekte Hardware im Keller liegen habt, und euch mal dran probieren wollt, guckt doch einfach mal ob euch das Spaß macht und wie weit ihr kommt. Ick bin hier für Fragen.
So long,
Niklas
 

Anhänge

  • 20240112_114303.jpg
    20240112_114303.jpg
    816,3 KB · Aufrufe: 322
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: TingeltangelBob, TrabT, JackTheRippchen und 233 andere
Super, Daumen hoch. Vielen Dank für Deine Mühe und das Teilen Deines Wissens.
 
  • Gefällt mir
Reaktionen: GeForce4, CableGuy82, roaddog1337 und 3 andere
Richtig gutes, toll geschriebenes Tutorial :daumen: Ob ich das jemals ausprobiere, kann ich nicht sagen. Aber wenn, weiß ich nun wie's geht 😃
 
  • Gefällt mir
Reaktionen: GeForce4, CableGuy82, eastcoast_pete und 2 andere
Sehr cool!
Erstmal meint man ja, dass es nahezu unmöglich ist in diesem Gewirr an Bauteilen den Fehler zu finden, aber mit dieser Anleitung geht schon mal viel des Schreckens verloren!
 
  • Gefällt mir
Reaktionen: CableGuy82 und Masterchief79
Mit dem Tutorial werde ich mich definitiv in den nächsten Jahren mal befassen.
Vielen Dank für die Mühen :)
 
  • Gefällt mir
Reaktionen: CableGuy82 und eastcoast_pete
Vielen Dank für deine investierte Zeit. Wenn mal der Tag gekommen ist an dem ich eine defekte Grafikkarte "produziert" habe, werde ich gerne auf deinen Artikel zurückgreifen.
 
  • Gefällt mir
Reaktionen: CableGuy82
  • Gefällt mir
Reaktionen: CableGuy82
Super Artikel, echt großes Lob.
Besser reparieren als immer alles gleich wegwerfen 🤘
Sonst musst du echt einmal in einem Repair Café anfangen 😁
 
  • Gefällt mir
Reaktionen: CableGuy82
Hm kommt eigentlich genau richtig. Habe eine 6800 aus der Bucht die zwar keine Bildfehler produziert, aber ziemlich sicher diese typischen Treibertimeouts wirft. Hab fast alles erdenkliche schon getestet außer halt mal die Referenzkarte zu öffnen und auf dem PCB zu schauen, da ich kein Elektroniker bin.
Zu Repariershops schicken kostet schon für die Diagnose ab 70€, Krisfix nimmt 50€ für die Diagnose. Sein Ytube Kanal ist übrigens auch super. Reparaturpauschale bei einer 6800 liegen bei ihm bei 169€. So hoch wie die Reparaturpauschale liegen auch die Angebote wie viel man noch für die Karte bekommen würde wenn man sie mit Fehlerbeschreibung anbietet. Wert der Karte würde ich um 350 schätzen.
Überlege grade ob ich zumindest mal die Abdeckung öffnen soll und ne optische Sichtung + Speichertest + Multimetermessung durchführen soll.
Garantie gibt mir AMD nicht mehr, hab ich schon mit dem Service geklärt, auch wenn ich die neu versiegelt gekauft habe, mir fehlt einfach die Rechnung und selbst mit, bin ich nicht Erstkäufer.
Denke ich geh das gleich mal an. Hab ja sonst nix zu tun.
 
  • Gefällt mir
Reaktionen: JDK91
Fetten Respekt.
Und zwar gleich doppelt.
1. für Dein Wissen / Handwerkskunst
2. dass du es teilst!
 
  • Gefällt mir
Reaktionen: GeForce4
brutal gut! danke :daumen:
 
Danke für die tolle Anleitung! :daumen:

Ich habe eine alte AMD-Karte welche ich im Treiber um 10-15% runtertakten muss, weil sie sonst den PC crashed (black screen, Lüfter auf 100%) sobald ich ein Spiel starte.
Ist bei dir sowas schon mal vorgekommen? Bzw. hast du eine Idee, woran das liegen könnte?
 
Feiner Leserartikel, völlig verdient auf der Startseite. Wird glatt ein Lesezeichen angelegt. Man weiß ja nie.
 
Vielen Dank für das ausführliche Tutorial :)
 
Ich habe hier noch eine 9800 GT 1 GB DDR3 von Point of Vief liegen, Fehler beim Ausbauen war, 640X480 und 16 Bit Farben, habe sie hier noch liegen, würde mich aber nicht dran zu trauen zu Reparieren
 
Zurück
Oben