maschinenbauer
Cadet 4th Year
- Registriert
- Juli 2010
- Beiträge
- 69
Hallo zusammen,
ich hoffe das ist hier im Unterforum richtig - das Problem ist nicht zwingen nur RAM-Spezifisch.
Seit 2-3 Wochen friert einer meiner PCs immer wieder ein, d.h. der Bildschirminhalt bleibt stehen, es werden von der Soundkarte die letzten 0,5 Sekunden Ton in einer Endlosschleife abgespielt, es findet kein Datenträgerzugriff mehr statt und über Netzwerk ist der Rechner nicht mehr zu erreichen. Dies tritt vor allem bei hoher Last - vor allem beim spielen von Ark - auf.
Hardware:
i5-760 mit nem EKL Brocken
AMD Radeon HD 7750 mit 1 GB RAM (passivgekühlt - bzw. nur über Gehäuselüfter vorne und hinten)
16 GB DDR3 RAM (1333 MHz, spezifiziert für 1,5 V - ich hatte auch mal DDR3-Module, die benötigten 1,65 V)
System auf 120 GB TakeMS-SSD mit Sandforce-Controller (80 GB für /, 40 GB für /home)
500 GB Samsung HDD
Kubuntu 16.04
Der PC ist inzwischen 6 Jahre alt. Von daher kann es durchaus sein, dass da gewisse Alterungserscheinungen auftreten. Daher habe ich zunächst erst einmal alle Elkos visuell überprüft, da geplatzte Elkos bereits 2 mal der Grund für ähnliche Probleme waren. Alle sind OK.
Ein anderer bisher bei mir aufgetretener Grund für so etwas waren Überhitzungen. Diese sind bei dem PC zwar unwahrscheinlich (bleibt sehr kühl) aber es könnte ja z.B. die Wärmeleitpaste zwischen CPU und Prozessor nicht mehr in Ordnung sein. Aber das Ergebnis war negativ (gemessen bei längeŕ Zeit mit Last):
CPU 4x~45°C
GPU ~60°C
Mainboard ~35°C, ~45°C, ~30°C
Der RAM hat leider keinen Sensor - die Heatspreader sind jedoch gleichmäßig etwa handwarm.
→Wenn überhaupt überhitzt der RAM, sonst definitiv alles OK
Des Weiteren habe ich die 5 und 12-V-Schiene des Netzteils mit einem Multimeter überprüft (3,3V kann ich so nicht Testen, da man die Spannung ja nicht so einfach abgreifen kann, die anderen habe ich unter Last und im Idle beobachtet):
12 V: 12,1+-0,02 V
5 V: 5,01+-0,01 V
→OK
Des weiteren habe ich die internen Spannungsensoren mit sensors bzw. ksysguard (Diagramm) ausgelesen. Leider kann ich nicht alle Spannungen eindeutig zuordnen:
+3.3V: +3.34 V [Anmerkung: vermutlich 3,3 V Schiene des Netzteils - auf Mainboard gemessen]
in1: +0.98 V (max = +2.04 V) [Anmerkung: CPU, abhängig von CPU-Last schwankend - gemessen 0.90 bis 1.24 V - laut Spezifikation schwankend zwischen 0,65 und 1,4 V aber vermutlich wurden die Extremwerte nicht erreicht, da weder extrem geringe Last erreicht wurde (Untergrenze), noch der Boost voll ausgereizt wurde (Obergrenze)]
in2: +0.80 V [Anmerkung: CPU, abhängig von CPU-Last parallel zu in1 schwankend - gemessen 0.74 bis 1.08 V]
in3: +0.94 V
in4: +1.10 V
in5: +1.49 V
in6: +1.63 V [Anmerkung: RAM]
3VSB: +3.23 V [Anmerkung: 3,3 V Standby Spannung]
Vbat: +3.17 V [Anmerkung: Bios - Batterie]
Bis auf in1 und in2 schwanken alle anderen Werte um maximal ±0,01 V.
→Meines Ermewssens auch OK
Des Weiteren habe ich den RAM mit Memtest86+ 5.01 überprüft (wird bei Kubuntu vorinstalliert und ist über Grub2 auswählbar). Hier konnte ich in den vergangenen Wochen genau eine RAM-Adresse ausfindig machen, die hin und wieder fehlerhaft ist. Der Fehler tritt nicht bei jedem Durchlauf auf. Auch tritt er bei wechselnden Tests auf. Der Fehler kann auch nicht rein Stochastisch auftreten sonder mindestens eine weitere Komponente spielt eine Rolle. Dies Lässt sich so Begründen: Ich habe testweise den geprüften RAM-Bereich auf das MB um den Fehler herum eingeschränkt und auf diese Weise alle Tests innerhalb einer Halben Stunde ca. 25000 durchführen lassen. Der Fehler trat dabei nur ein mal auf. Das würde jedoch bedeuten, dass ich ihn bei den Kompletttests nicht hätte finden können. Hier ist er jedoch bis zu diesem Zeitpunkt vier mal aufgetrenen (jeweils einmal während einer Nacht, wo der PC 2 Testdurchläufe geschafft hat).
Daher habe ich nach dem Ersten Fund mit Memtest testweise die Spannung des RAMs um 0,05V erhöht. Die Idee dahinter: Es könnte sein, dass der Spannungwandler des Mainboard davongedriftet ist oder dass der RAM inzwischen etwas mehr Spannung benötigt. Gemessen wird nun +1,63 V statt zuvor +1,61 V. Dennoch ist der PC mehrfach eingefrohren. Die weiteren Tests von Memtest sind bei erhöhter Spannung durchgeführt worden. Klar könnte ich die Spannung noch weiter erhöhen, aber das ist aufgrund der sich dann erhöhenden Temperatur und des höheren Verschleißes auch nicht gut. Alternativ könnte ich natürlich auch die Timing hochsetzen und/oder die Frequenz absenken - d.h. den RAM unterhalb der Spezifikationen betreiben. Da dies aber mit Performance-Einbußen einhergeht habe ich dies bisher noch nicht probiert.
Da ich den RAM-Fehler so nicht beheben konnte habe ich mich erst mal entschlossen damit zu leben und die fehlerhafte Adresse mit der Direktive GRUB_BADRAM="0x0039a483a80,0xffffffffffe" in /etc/default/grub zu deaktivieren (nach der Änderung der Datei habe ich die Änderungen mit sudo update-grub übernommen und neugestartet, die Adresse habe ich von Memtest übernommen und da es eine hexadezimal-Zahl ist 0x vorangestellt). Dies ging nun auch 5-6 Tage so gut. Nun ist der PC gestern aber erneut eingefroren. Also habe ich Memtest nochmal drüber laufen lassen. Diesmal wurde morgends eine mir bisher unbekannte Adresse als Fehlerhaft identifiziert. Daher habe ich den Test weiter laufen lassen - bis jetzt 23h bzw. 7 Durchläufe. Der bekannte Fehler ist dabei 4 mal aufgetreten, 2 neue 2 mal und 2 neue 1 mal. Auffällig ist, dass meistens das letzte Bit betroffen ist. In zwei Fällen ist es jedoch nicht das letzte Bit.
Nun frage ich mich, ob es sinnvoll ist auf diese Weise (Addressen sperren) fort zu fahren. Ich werde Morgen jedenfalls die 4 neue Adressen auch sperren.
- Wie würdet ihr weiter vorgehen?
- Könnt ihr mir noch andere Dinge empfehlen, die ich testen könnte?
- Glaubt ihr es liegt nur am RAM oder könnte es auch noch wo anders dran liegen (gerade da ja irgendetwas anderes da mit rein spielen muss als reiner Zufall)? Ein Austausch des RAMs macht meiner Meinung nach nur dann Sinn, wenn andere Fehlerursachen ausgeschlossen sind.
- Könnte es sein, dass ich beim Sperren etwas falsch gemacht habe - immerhin sind die Adressen 2 signifikante Stellen länger als die in der auskommentierten Beispielzeile, wobei diese dann nur mit maximal 4 GB umgehen könnten? Beispielzeile: #GRUB_BADRAM="0x01234567,0xfefefefe,0x89abcdef,0xefefefef"
- Wird auf dauer ein neuer PC fällig? Bzw. ist davon auszugehen, dass sich das Problem verschärfen wird?
Vielen Dank im Voraus.
ich hoffe das ist hier im Unterforum richtig - das Problem ist nicht zwingen nur RAM-Spezifisch.
Seit 2-3 Wochen friert einer meiner PCs immer wieder ein, d.h. der Bildschirminhalt bleibt stehen, es werden von der Soundkarte die letzten 0,5 Sekunden Ton in einer Endlosschleife abgespielt, es findet kein Datenträgerzugriff mehr statt und über Netzwerk ist der Rechner nicht mehr zu erreichen. Dies tritt vor allem bei hoher Last - vor allem beim spielen von Ark - auf.
Hardware:
i5-760 mit nem EKL Brocken
AMD Radeon HD 7750 mit 1 GB RAM (passivgekühlt - bzw. nur über Gehäuselüfter vorne und hinten)
16 GB DDR3 RAM (1333 MHz, spezifiziert für 1,5 V - ich hatte auch mal DDR3-Module, die benötigten 1,65 V)
System auf 120 GB TakeMS-SSD mit Sandforce-Controller (80 GB für /, 40 GB für /home)
500 GB Samsung HDD
Kubuntu 16.04
Der PC ist inzwischen 6 Jahre alt. Von daher kann es durchaus sein, dass da gewisse Alterungserscheinungen auftreten. Daher habe ich zunächst erst einmal alle Elkos visuell überprüft, da geplatzte Elkos bereits 2 mal der Grund für ähnliche Probleme waren. Alle sind OK.
Ein anderer bisher bei mir aufgetretener Grund für so etwas waren Überhitzungen. Diese sind bei dem PC zwar unwahrscheinlich (bleibt sehr kühl) aber es könnte ja z.B. die Wärmeleitpaste zwischen CPU und Prozessor nicht mehr in Ordnung sein. Aber das Ergebnis war negativ (gemessen bei längeŕ Zeit mit Last):
CPU 4x~45°C
GPU ~60°C
Mainboard ~35°C, ~45°C, ~30°C
Der RAM hat leider keinen Sensor - die Heatspreader sind jedoch gleichmäßig etwa handwarm.
→Wenn überhaupt überhitzt der RAM, sonst definitiv alles OK
Des Weiteren habe ich die 5 und 12-V-Schiene des Netzteils mit einem Multimeter überprüft (3,3V kann ich so nicht Testen, da man die Spannung ja nicht so einfach abgreifen kann, die anderen habe ich unter Last und im Idle beobachtet):
12 V: 12,1+-0,02 V
5 V: 5,01+-0,01 V
→OK
Des weiteren habe ich die internen Spannungsensoren mit sensors bzw. ksysguard (Diagramm) ausgelesen. Leider kann ich nicht alle Spannungen eindeutig zuordnen:
+3.3V: +3.34 V [Anmerkung: vermutlich 3,3 V Schiene des Netzteils - auf Mainboard gemessen]
in1: +0.98 V (max = +2.04 V) [Anmerkung: CPU, abhängig von CPU-Last schwankend - gemessen 0.90 bis 1.24 V - laut Spezifikation schwankend zwischen 0,65 und 1,4 V aber vermutlich wurden die Extremwerte nicht erreicht, da weder extrem geringe Last erreicht wurde (Untergrenze), noch der Boost voll ausgereizt wurde (Obergrenze)]
in2: +0.80 V [Anmerkung: CPU, abhängig von CPU-Last parallel zu in1 schwankend - gemessen 0.74 bis 1.08 V]
in3: +0.94 V
in4: +1.10 V
in5: +1.49 V
in6: +1.63 V [Anmerkung: RAM]
3VSB: +3.23 V [Anmerkung: 3,3 V Standby Spannung]
Vbat: +3.17 V [Anmerkung: Bios - Batterie]
Bis auf in1 und in2 schwanken alle anderen Werte um maximal ±0,01 V.
→Meines Ermewssens auch OK
Des Weiteren habe ich den RAM mit Memtest86+ 5.01 überprüft (wird bei Kubuntu vorinstalliert und ist über Grub2 auswählbar). Hier konnte ich in den vergangenen Wochen genau eine RAM-Adresse ausfindig machen, die hin und wieder fehlerhaft ist. Der Fehler tritt nicht bei jedem Durchlauf auf. Auch tritt er bei wechselnden Tests auf. Der Fehler kann auch nicht rein Stochastisch auftreten sonder mindestens eine weitere Komponente spielt eine Rolle. Dies Lässt sich so Begründen: Ich habe testweise den geprüften RAM-Bereich auf das MB um den Fehler herum eingeschränkt und auf diese Weise alle Tests innerhalb einer Halben Stunde ca. 25000 durchführen lassen. Der Fehler trat dabei nur ein mal auf. Das würde jedoch bedeuten, dass ich ihn bei den Kompletttests nicht hätte finden können. Hier ist er jedoch bis zu diesem Zeitpunkt vier mal aufgetrenen (jeweils einmal während einer Nacht, wo der PC 2 Testdurchläufe geschafft hat).
Daher habe ich nach dem Ersten Fund mit Memtest testweise die Spannung des RAMs um 0,05V erhöht. Die Idee dahinter: Es könnte sein, dass der Spannungwandler des Mainboard davongedriftet ist oder dass der RAM inzwischen etwas mehr Spannung benötigt. Gemessen wird nun +1,63 V statt zuvor +1,61 V. Dennoch ist der PC mehrfach eingefrohren. Die weiteren Tests von Memtest sind bei erhöhter Spannung durchgeführt worden. Klar könnte ich die Spannung noch weiter erhöhen, aber das ist aufgrund der sich dann erhöhenden Temperatur und des höheren Verschleißes auch nicht gut. Alternativ könnte ich natürlich auch die Timing hochsetzen und/oder die Frequenz absenken - d.h. den RAM unterhalb der Spezifikationen betreiben. Da dies aber mit Performance-Einbußen einhergeht habe ich dies bisher noch nicht probiert.
Da ich den RAM-Fehler so nicht beheben konnte habe ich mich erst mal entschlossen damit zu leben und die fehlerhafte Adresse mit der Direktive GRUB_BADRAM="0x0039a483a80,0xffffffffffe" in /etc/default/grub zu deaktivieren (nach der Änderung der Datei habe ich die Änderungen mit sudo update-grub übernommen und neugestartet, die Adresse habe ich von Memtest übernommen und da es eine hexadezimal-Zahl ist 0x vorangestellt). Dies ging nun auch 5-6 Tage so gut. Nun ist der PC gestern aber erneut eingefroren. Also habe ich Memtest nochmal drüber laufen lassen. Diesmal wurde morgends eine mir bisher unbekannte Adresse als Fehlerhaft identifiziert. Daher habe ich den Test weiter laufen lassen - bis jetzt 23h bzw. 7 Durchläufe. Der bekannte Fehler ist dabei 4 mal aufgetreten, 2 neue 2 mal und 2 neue 1 mal. Auffällig ist, dass meistens das letzte Bit betroffen ist. In zwei Fällen ist es jedoch nicht das letzte Bit.
Nun frage ich mich, ob es sinnvoll ist auf diese Weise (Addressen sperren) fort zu fahren. Ich werde Morgen jedenfalls die 4 neue Adressen auch sperren.
- Wie würdet ihr weiter vorgehen?
- Könnt ihr mir noch andere Dinge empfehlen, die ich testen könnte?
- Glaubt ihr es liegt nur am RAM oder könnte es auch noch wo anders dran liegen (gerade da ja irgendetwas anderes da mit rein spielen muss als reiner Zufall)? Ein Austausch des RAMs macht meiner Meinung nach nur dann Sinn, wenn andere Fehlerursachen ausgeschlossen sind.
- Könnte es sein, dass ich beim Sperren etwas falsch gemacht habe - immerhin sind die Adressen 2 signifikante Stellen länger als die in der auskommentierten Beispielzeile, wobei diese dann nur mit maximal 4 GB umgehen könnten? Beispielzeile: #GRUB_BADRAM="0x01234567,0xfefefefe,0x89abcdef,0xefefefef"
- Wird auf dauer ein neuer PC fällig? Bzw. ist davon auszugehen, dass sich das Problem verschärfen wird?
Vielen Dank im Voraus.
Zuletzt bearbeitet: