Ständig verschiedene Abstürze/Bluescreens: CPU defekt?

Asgaros

Cadet 1st Year
Registriert
Okt. 2014
Beiträge
13
Hallo zusammen,

vor einigen Jahren habe ich mir - mit Hilfe der Community hier - einen PC zusammengestellt und zusammengebaut. Dabei handelt es sich um die folgenden Komponenten:
  • Intel Xeon E3-1231 v3, 4x 3.40GHz, Sockel 1150, boxed (BX80646E31231V3)
  • Crucial Ballistix Sport DIMM Kit 16GB, DDR3-1600, CL9-9-9-24 (BLS2CP8G3D1609DS1S00)
  • Gigabyte GA-H97-D3H
  • MSI GTX 970 Gaming 4G, GeForce GTX 970, 4GB GDDR5, 2x DVI, HDMI, DisplayPort (V316-001R)
  • be quiet! Straight Power E10 400W ATX 2.4 (E10-400W/BN230)
  • Seagate Barracuda 7200.14 1TB, SATA 6Gb/s (ST1000DM003)
  • Crucial MX100 256GB, SATA 6Gb/s (CT256MX100SSD1)
  • OS: Win 10 Education, 64-Bit, Up-to-date, Treiber auch alle Up-to-date
Mit diesem PC hatte ich jahrelang keinerlei Probleme, aber im Sommer ging es dann plötzlich los:
  • Unerklärliche Abstürze die ganze Zeit (vermehrt beim Zocken)
  • Spiele haben sich (mit oder ohne Fehlermeldung, oder Bluescreen) verabschiedet, z.B. WoW/Mass Effect: Andromeda (manchmal erst nach Stunden, manchmal sofort)
  • Die unterschiedlichsten BlueScreens mit den unterschiedlichsten Fehlercodes, ohne dass ein Treiber als Fehlerquelle genannt wurde
Nach tagelangem Testen (Windows-Diagnosetools brachten keinerlei Erkenntnisse) bin ich dann mittels Memtest86+ auf Fehler im Arbeitsspeicher gestoßen. In meinem Rechner sind zwei 8GB-Riegel verbaut und es hat sich dann bei getrennten Modul-Tests herausgestellt, dass BEIDE Riegel kaputt waren. Dies kam mir schon sehr merkwürdig vor, dass plötzlich beide Riegel unabhängig voneinander zur selben Zeit den Geist aufgeben. Also habe ich die Riegel beide bei Crucial eingeschickt und kostenlosen Ersatz dank der "lebenslangen" Garantie bekommen.

Danach lief für ein/zwei Monat erstmal wieder alles gut - vielleicht war es aber auch nur "Zufall", da ich während dieser Zeit kaum anspruchsvolle Dinge am Rechner unternommen habe.

Und nun geht es seit letzter Woche wieder los: Die selben - wie zuvor genannten - Absturzsymptome. Vermehrt wieder beim Zocken, selten/kaum bei allgemeiner Nutzung/Surfen, einmal beim Aufwachen aus dem Ruhezustand. Die BlueScreen-Fehlermeldungen sind wieder komplett zufällig und ohne erkennbarem Muster. Hier ein BestOf:
  • Hardwarefehler: LiveKernelEvent
  • BSOD: CRITICAL_STRUCTURE_CORRUPTION 0x00000109 (0xa39fede27fc8d4fa, 0xb3b6fa68d2470b00, 0xfffff80340427988, 0x0000000000000001
  • BSOD: SYSTEM_THREAD_EXCEPTION_NOT_HANDLED 0x0000007e (0xffffffffc0000005, 0xfffff804658b6252, 0xffffc104015695d8, 0xffffc10401568e20)
  • BSOD: SYSTEM_SERVICE_EXCEPTION 0x0000003b (0x00000000c0000005, 0xfffff804609aa4ee, 0xffffee01b8288e70, 0x0000000000000000)
  • BSOD: IRQL_NOT_LESS_OR_EQUAL
  • usw ...
Also ging die Diagnose wieder los:
  • Ausführliches RAM-Testing mit Memtest86+: Keinerlei Fehler gefunden
  • Windows 10 sauber neu-installiert: Ohne Erfolg, immernoch Abstürze
  • SSD/HDD überprüft (chkdsk, SMART): Keinerlei Fehler
  • BIOS aktualisiert und auf Defaults zurückgesetzt: Ohne Erfolg, immernoch Abstürze
  • Ungenutzte Geräte abgeklemmt/deaktiviert (Audiocontroller, Gehäuse-Audio, DVD-Laufwerk): Ohne Erfolg, immernoch Abstürze
  • Hardware gereinigt, neue Wärmeleitpaste auf CPU und GPU: Ohne Erfolg, immernoch Abstürze
  • Sicht-Check Mainboard: nach aufgeblähten Kondensatoren/etc abgesucht: Nichts gefunden
  • CPU mit IntelProcessor Diagnostic Tool 64bit überprüft: Keine Fehler gefunden
  • Die ersten 3GB Speicher der GTX970-GPU mit memtestg80 überprüft: Keine Fehler gefunden
  • Temperaturen geprüft: GPU unter Stress 70°, CPU unter Stress 60°
Prime95 mit #8 Worker im Torture-Test "In-place large FFTs" laufen lassen: BINGO! Nach einem circa 1-Stunde Durchlauf haben 3 von 8 Worker nach Minute ~5, ~10 und ~15 mit dieser Fehlermeldung abgebrochen:
  • FATAL ERROR: Rounding was 0.4999835375, expected less than 0.4, Hardware failure detected
Bedeutet dies nun, dass auch die CPU 100% hinüber ist, obwohl das IntelProcessor Diagnostic Tool keinerlei Fehler gefunden hat? Oder werden diese Art Fehlermeldungen eher durch andere Auslöser/Komponenten provoziert (zum Beispiel Netzteil)? Möglicherweiße Inkompatibilitäten verursacht mit den letzten Win 10 1804/1809-Updates - was ich mir dank aktueller Treiber/Updates allerdings eher nicht vorstellen kann?

Sollte nun wirklich auch die CPU defekt sein, finde ich es doch höchst merkwürdig, dass sich sowohl beide RAM-Riegel gleichzeitig verabschieden und kurze Zeit darauf später auch die CPU - wenn diese nicht auch schon zeitgleich mit den RAM-Riegeln defekt war und es mir nur noch nicht aufgefallen ist. In den letzten 20 Jahren hatte ich noch NIE solche Probleme mit kaputter Hardware.

Vielleicht habt ihr ja weitere Ideen, was man tun könnte, um den Übeltäter zu finden bzw wie ich verifizieren kann, ob es an der CPU liegt oder eher nicht.

PS: Wahrscheinlich eine blöde Anmerkung, aber ich habe im Sommer (bei schlechtem Wetter) mal einen Elektrogrill benutzt. Der war kaputt, beim Einschalten fliegt die Sicherung raus. Der PC war zu dem Zeitpunkt an. Ich hoffe mal, dass das Teil nicht meinen Rechner zerlegt hat - da andere Geräte wie TV, Lampen, Router, etc noch funktionieren.
 
  • Gefällt mir
Reaktionen: pupsi11
computerbase107 schrieb:
NVIDIA empfiehlt mindestens ein 500W-Netzteil mal als Grundvoraussetzung:
Das vorhandene 400W-Netzteil kann reichen, aber ich würde mich auf die sichere Seite bewegen.

so ein blödsinn!! die reden von china-billig-teilen!!!


@Asgaros der fehler CRITICAL_STRUCTURE_CORRUPTION 0x00000109 deutet auf RAM hin .. es könnte sein dass das MB ein weg hat.

deine Win10 neu-install. war das ein backup oder eine aktuelle frische version?
 
Ich hatte tatsächlich zuletzt die selben Fehlermeldungen und Abstürze auf meinem Asus B350 Prime Plus, habe es dann ersetzt und seitdem ist alles in Butter. Könnte also durchaus das Board sein
 
computerbase107 schrieb:
NVIDIA empfiehlt mindestens ein 500W-Netzteil mal als Grundvoraussetzung:

https://www.geforce.com/hardware/desktop-gpus/geforce-gtx-970/specifications

Das vorhandene 400W-Netzteil kann reichen, aber ich würde mich auf die sichere Seite bewegen.

Bei der "stärke" des Netzteils hatte ich damals auch bedenken, aber in diesem Topic wurde mir dazu geraten.

Ich muss auch sagen, dass ich die ganzen vier Jahre nie Probleme mit Abstürze hatte. Auch nicht bei maximaler Auslastung (Benchmarks, Videobearbeitung, Witcher 3 auf Ultra, gefühlt hunderte offene Anwendung [Server-Anwendungen als auch Programmieranwendungen] etc). Ich denke, ein zu schwaches Netzteil hätte sich dann schon früher bemerkbar gemacht.
Ergänzung ()

pupsi11 schrieb:
deine Win10 neu-install. war das ein backup oder eine aktuelle frische version?

Das war eine aktuelle ISO-Datei von den MS-Servern - also 100% neu, formatiert und ohne Restmüll. :)

Rokitt schrieb:
Könnte also durchaus das Board sein

Gibt es irgendwelche Tools, mit denen man gezielt das Mainboard überprüfen kann? Also quasi den Chipsatz, einzelne Controller, etc? Nicht dass ich ein neues Mainboard kaufe und dann ist die CPU kaputt, oder ich kaufe eine neue CPU und dann ists das Mainboard welches mir noch mehr Geräte zerlegt (der RAM war vor kurzem ja definitiv hinüber).
 
Zuletzt bearbeitet:
mir ist kein tool bekannt was sowas könnte.

wenn du ein neues MB hast du ja 14 tage in der regel zum zurück geben. falls es nicht am MB liegen sollte.


kannst du die fehler immer wieder auslösen oder kommen die per zufall?
 
Hast noch du die CPU noch übertaktet? Die Fehlermeldung hatte ich in Prime während des Übertaktens nämlich auch. Genauso wie IRQL_NOT_LESS_OR_EQUAL und einige System Excptions auch!

greetz
hroessler
 
pupsi11 schrieb:
kannst du die fehler immer wieder auslösen oder kommen die per zufall?

Zumindest die Fehlermeldung in Prime95 kommt immer wieder nach ein paar Minuten - mal dauert es 5 Minuten, mal dauert es 20. Die Abstürze/BSOD lassen sich nicht gezielt auslösen. Vorgestern konnte ich mal den ganzen Tag am Stück den Rechner ohne Probleme verwenden und Zocken. Gestern ist Mass Effect: Andromeda dann nach 3 Stunden abgestürzt und dann 20 Minuten später kam dann auch beim Surfen ein BSOD.

hroessler schrieb:
Hast noch du die CPU noch übertaktet?

Nein, ich habe meine Hardware nie übertaktet und sämtliche BIOS-Einstellungen entsprechen dem Standard.

Ich habe testweise die RAM-Timings von AUTO auf die 9-9-9-24 Soll-Werte gesetzt (die ja eh über AUTO auch vorgegeben waren), aber das hat nichts geholfen. Keine Ahnung, ob es irgendwie hilft, die Voltage-Werte der CPU nochmal gezielt auf die CPU-Spezifikationen zu stellen anstatt die "automatischen Werte" zu nutzen, aber ich glaube, dass sollte das Mainboard eigentlich von sich aus schon korrekt machen.
 
hroessler schrieb:
Auch nicht über den BLCK?
mit meinem damaligen asrock H97 brett ging es nicht und auch sonst ist mir nichts bekannt, das es geht. mit z97 oder den 87er und bios mod ging es glaub.

Asgaros schrieb:
Zumindest die Fehlermeldung in Prime95 kommt immer wieder nach ein paar Minuten - mal dauert es 5 Minuten, mal dauert es 20. Die Abstürze/BSOD lassen sich nicht gezielt auslösen. Vorgestern konnte ich mal den ganzen Tag am Stück den Rechner ohne Probleme verwenden und Zocken. Gestern ist Mass Effect: Andromeda dann nach 3 Stunden abgestürzt und dann 20 Minuten später kam dann auch beim Surfen ein BSOD.
.

kannst du mal ein screen der prime95 fehlermeldung machen? welche prime version nutzt du?
mach mal den prime95 small fft test ohne ram.


im bios sollte der ram schon so eingestellt sein (von hand) wie der laut datenblatt angegeben ist... bei der cpu musst du aber nichts ändern.

du hast, wenn ich es richtig gelesen haben, 4x4gb riegel. da könnte es sein das der ram ein wenig mehr spannung will. da es bei voll-bestückung hin und wieder zu problemen kommen kann.
 
Zuletzt bearbeitet:
Wie stabil ist denn die Spannung deines Netzteils?
Nicht, dass das irgendwann Spannungseinbrüche hat, die zu dem Fehler führen?

Und nun noch ein paar Mutmaßungen die ein Elektroniker bestätigen oder zerreißen könnte.
Was ist, wenn die Komponenten durch Alterung hier und da ein wenig mehr Strom brauchen und das Netzteil über die Jahre nicht mehr ganz so viel Strom abgeben kann ... dann könnte es auch zu solchen Äusfällen kommen.

Mag sein, dass das beQuiet Netzteil am Anfang ausgereicht hat, aber nun fehlt vielleicht das letzte Quäntchen?
 
-=30+=- Uhryel schrieb:
Mag sein, dass das beQuiet Netzteil am Anfang ausgereicht hat, aber nun fehlt vielleicht das letzte Quäntchen?
das NT kam ende 2014 raus - also sollte das keine probleme machen. zumal da auch nix dran hängt, was leistung brauch
 
kannst du die vcore bei dem board einstellen? geb mal bissl mehr saft drauf.

ich find keine infos zu dem board, könnte aber ein 3+1 oder wenn die komplett spinnen ein 2+2 design sein.

wenn das zwei phasen sind, ist der ripple brutal - kann sein, dass nach der zeit die bauteile etwas außer spec laufen und du hast voltage drops in instabile regionen.
 
pupsi11 schrieb:
welche prime version nutzt du? mach mal den prime95 small fft test ohne ram.

Ich benutze Prime95, v29.4, build 8.

Der "small fft test" scheint zu laufen - momentan 40 Minuten ohne Fehlermeldung. Bei den anderen beiden Tests gab es immer deutlich früher schon Fehlermeldungen (innerhalb der ersten zehn Minuten). Ist das gut oder schlecht?

pupsi11 schrieb:
du hast, wenn ich es richtig gelesen haben, 4x4gb riegel. da könnte es sein das der ram ein wenig mehr spannung will. da es bei voll-bestückung hin und wieder zu problemen kommen kann.

Nein, es sind 2x8GB Riegel. Das Mainboard hat vier Slots, die beiden Riegel sind aber in den farblich passenden DDR3_1/DDR3_2-Slots.

Ich hänge anbei als Grafik auch nochmal die aktuellen CPUID HWMonitor-Werte (für CPU und Mainboard) an. Die Werte wurden festgehalten, während Prime95 weiter im Hintergrund läuft. Vielleicht sind da ja irgendwelche auffälligen Werte ersichtlich (Spalte 1: Aktueller Wert, Spalte 2: Min-Wert, Spalte 3: Max-Wert).

mainboard.PNG


cpu.PNG


duskstalker schrieb:
kannst du die vcore bei dem board einstellen? geb mal bissl mehr saft drauf.

Da muss ich nachher mal schauen. Ich werde Prime95 noch ein bisschen weiterlaufen lassen und wenn ich heute Abend zurück bin, werde ich vom BIOS mal einen Screen machen. Da gibt es etliche - fast gleich-lautende - einstellbare Volt-Werte, bin mir da aber nicht 100% sicher, welchen ich anfassen muss. Vielleicht kann mir ja anhand dem Bild später dann wer Details nennen.

duskstalker schrieb:
ich find keine infos zu dem board, könnte aber ein 3+1 oder wenn die komplett spinnen ein 2+2 design sein. wenn das zwei phasen sind, ist der ripple brutal - kann sein, dass nach der zeit die bauteile etwas außer spec laufen und du hast voltage drops in instabile regionen.

Was genau meinst du damit? Die genauen Spezifikationen von dem Mainboard findest du hier:
https://www.gigabyte.com/Motherboard/GA-H97-D3H-rev-10#sp
 
@ TE , ich finde es keine üble Idee mal das Netzteil zu tauschen.

Auch das nicht auslassen:

Reduziere mal im BIOS den PCI Express BUS der Grafikkarte von AUTO/GEN3 auf GEN2 das ist PCIe 2.0.
 
Nochmal ein kleines Update:

Der "Small FFTs"-Test in Prime95 lief zwei Stunden ohne Fehler, also habe ich ihn erstmal beendet.

Da ich danach unterwegs war, habe ich nochmal Memtest86+ für vier Stunden am laufen gehabt - ebenfalls ohne Fehler bei mehreren kompletten Test-Durchläufen. Daher gehe ich jetzt einfach mal davon aus, dass die neuen ausgetauschten RAM-Riegel definitiv nicht kaputt sind. Ich hatte sie ja auch die Tage davor schon mehrmals getestet.

Danach habe ich aus Spaß in Prime95 den "In-place large FFTs"-Test angeworfen und nach 14 Minuten kamen direkt die ersten Fehler:

error-prime.PNG


Wie genau muss ich diesen Unterschied interpretieren? Der "Small FFTs"-Test läuft lange Zeit komplett ohne Fehler durch (auch aktuell wieder im Hintergrund), während der "In-place large FFTs"-Test bereits mehrmals nach wenigen Minuten Fehler ausspuckt.

Soweit ich das verstanden habe, werden beim "Small FFTs"-Test ja sämtliche Daten im CPU-Cache gespeichert, während beim "In-place large FFTs"-Test auch Daten im RAM landen. Da aber sowohl beim "Small FFTs"-Test als auch bei Memtest86+ keinerlei Fehler im RAM auftreten, spricht das doch eher dafür, dass RAM und CPU in Ordnung sind, aber beim Datentransfer zwischen RAM und CPU irgendetwas schiefgeht? Also wohl doch eher ein Defekt am Mainboard? Oder ist das null aussagekräftig, da es auch ein Netzteil/Volt-Problem sein kann, da der "In-place large FFTs"-Test die Hardware mehr beansprucht?

emeraldmine schrieb:
Reduziere mal im BIOS den PCI Express BUS der Grafikkarte von AUTO/GEN3 auf GEN2 das ist PCIe 2.0.

@emeraldmine Was genau ist der Vorteil, den Wert auf PCI Express 2.0 zu reduzieren? Weniger Stromverbrauch? Weil sowohl die Grafikkarte als auch Mainboard und CPU unterstützen ja PCI Express 3.0.

duskstalker schrieb:
kannst du die vcore bei dem board einstellen? geb mal bissl mehr saft drauf.

@duskstalker Anbei nochmal wie versprochen die Voltage-Bilder aus dem BIOS. Vielleicht kannst du mir ja sagen, welchen Wert X ich auf Wert Y ändern soll. Ich nehme mal an "CPU Vcore" - welchen Wert würdest du dort empfehlen?

IMG_0293.jpeg


Hier noch die Voltage-Screens für Chipset und DRAM:
IMG_0294.jpeg

IMG_0295.jpeg
 
Vcore offset +100mV, also 0,100V. Dann kommen wir bei 1,1v vcore raus, das ist absolut unbedenklich. Wenn die Zahlen rot angezeigt werden, hast du dich um eine kommastelle vertan.

So nochmal Prime in place large ffts, und beobachten, ob der Fehler nochmal auftritt.

Falls ja, den offset wieder rausnehmen.

Dann würde ich vielleicht mal den Ring Bus, System agent oder RAM anheben. Aber da hab ich grad keine Zahlen im Kopf, weil ich nicht so drin bin bei Intel. Vielleicht hat da jemand anders nen Vorschlag. Aber +50mV also +0,05v sollte immer gehen.

Wenns mit keinem ne Besserung gibt, vllt die 4 Spannungen zusammen anheben und probieren, und wenn da der Fehler auch kommt, ist es wahrscheinlich nicht spannungsbezogen.
 
So, ich habe das System nun ausführlich mit den angepassten/erhöhten Volt-Werten getestet und im Prime95 "In-place large FFTs"-Test werden weiterhin nach wenigen Minuten die "Fatal Rounding Errors" ausgeworfen.

Ebenso habe ich auch testweise mal den PCI Express BUS auf GEN2 gestellt, und während dem Prime95 "In-place large FFTs"-Test kam dann auch nach wenigen Minuten mal wieder ein Bluescreen:

  • PAGE_FAULT_IN_NONPAGED_AREA: 0x00000050 (0xfffff8022db2d140, 0x0000000000000010, 0xfffff8022db2d140, 0x0000000000000002)
Also fassen wir zusammen:

  • RAM-Test mit Memtest86+: Keine Probleme
  • "Small FFTs"-Test: Keine Probleme
  • "In-place large FFTs"-Test: Fatal Rounding Errors
  • Erhöhung der Voltages/VCore: Weiterhin Fatal Rounding Errors im "In-place large FFTs"-Test
  • PCI Express BUS von GEN3 auf GEN2: Bluescreen während "In-place large FFTs"-Test - wobei ich da annehme, dass dies einfach einer der Random-Bluescreens war, die eh nach einiger Zeit auftreten und der "In-place large FFTs"-Test auch weiterhin die Fatal Rounding Errors ausgespuckt hätte
Irgendwelche weiteren Meinungen bzw Ideen?
 
Zurück
Oben