Linux Server hat plötzlich seltsam instabiles Verhalten

aid0nex

Commander Pro
Registriert
Feb. 2014
Beiträge
2.803
Hallo Community, ich brauche mal wieder eure Schwarm Intelligenz! :D

Ich nutze einen alten NEC Powermate aus 2008 als Linux Heimserver. Verbaut ist ein Intel Core 2 Duo E4600 und 4x1GB DDR2 RAM. Die einzige Platte darin ist eine 1TB MX500 SSD die kein halbes Jahr alt ist. Installiert ist Ubuntu 20.04 LTS. Ich habe darauf einen Teamspeak Server sowie einen Apache Server mit Nextcloud laufen. Seit 3 Tagen ist das System plötzlich extrem instabil. Zunächst einmal ist das System extrem träge und hat auffallend oft und lange Festplattenzugriff (Lampe). Dann friert es nach einigen Stunden ein, die Icons verschwinden, Programme hängen, Maus reagiert nur träge oder gar nicht mehr, Reboot nicht möglich, Strom muss getrennt werden. Anschließend hat der normale Boot Probleme, GRUB meckert über "attempt to read or write outside of disk hd0", über initramfs bootet er dann manchmal, manchmal muss ich aber auch auf den vorherigen Kernel gehen der dann zunächst auch problemlos läuft, bis da ebenfalls Probleme anfangen. dpkg --configure -a, sudo apt update und upgrade sowie update-grub2 brachten dann einen Tag Ruhe, bevor es wieder los ging... Memtest 86+ hat keine Fehler gefunden, die Festplatte sieht für mich auch Top aus. Ich verstehe nicht ganz warum der Rechner plötzlich so seltsam reagiert, hat jemand Ideen??

Danke für eure Hilfe.
 
aid0nex schrieb:
die Festplatte sieht für mich auch Top aus
Das machst du woran fest?
Der SATA-Controller am MB kann natürlich auch einen weg haben.
 
Wie lange hast du Memtest laufen gelassen? Ich hatte auch mal RAM Probleme, die aber erst nach über 10 Stunden Laufzeit entdeckt wurden.

Alternativ kann natürlich auch das Mainboard einen defekt haben oder das Netzteil. Hast du eventuell eine andere Festplatte, mit der du das System testen könntest? Dann kannst du die SSD ausschließen als Fehlerursache.
 
leetxyz schrieb:
Wie hast du das geprüft?

Hatte die Festplatte kurz mal mit einem SATA to USB Adapter an meiner Windows Kiste dran und mit CrystalDisk angeschaut.
Ergänzung ()

gimmebytes schrieb:
Wie lange hast du Memtest laufen gelassen? Ich hatte auch mal RAM Probleme, die aber erst nach über 10 Stunden Laufzeit entdeckt wurden.

Alternativ kann natürlich auch das Mainboard einen defekt haben oder das Netzteil. Hast du eventuell eine andere Festplatte, mit der du das System testen könntest? Dann kannst du die SSD ausschließen als Fehlerursache.

Ich hab nicht so viel Memtest Erfahrung, der hat automatisch irgendein Testing gestartet als ich Memtest über GRUB gestartet habe (mitgeliefert mit Ubuntu) und war nach gut 40 Minuten fertig und sagte, dass er keinen Fehler feststellen konnte.

Hatte ein Live Linux per USB Stick dran, das lief relativ okay.
Ergänzung ()

pseudopseudonym schrieb:
Der SATA-Controller am MB kann natürlich auch einen weg haben.

Möglich. :/ Da das ein OEM Board ist, könnte ich da aber ja vermutlich wenig machen. Dann müsste wohl der ganze Rechner getauscht werden. Wäre glaube ich schwierig da noch passenden Ersatz zu finden.
Ergänzung ()

Mein Verdacht war ja, dass der RAM doch irgendwie einen Schlag weg hat und halt deswegen immer wieder Daten nachgeladen werden. Bekomme Samstag noch Alternativram von einem Kollegen, werde den dann mal verbauen und testen.
 
Zuletzt bearbeitet:
Hast du das SATA-Kabel einmal überprüft? Ein fehlerhaftes Kabel wäre eine Option.
 
AudioholicA schrieb:
Hast du das SATA-Kabel einmal überprüft? Ein fehlerhaftes Kabel wäre eine Option.

Nein habe ich nicht, das könnte ich natürlich einmal tauschen, habe noch ein anderes hier. Ich wundere mich nur, wie so ein Kabel plötzlich kaputt gehen sollte? Kann so ein Kabel Alterserscheinungen haben?
Ergänzung ()

Mir ist gerade durch Zufall etwas anderes aufgefallen: Im BIOS wird mir unter "Health Status" angezeigt dass die CPU -53°C kalt wäre und die System Temperatur 13°C... Bei gerade 19°C Raumtemperatur... Also das Dingen ist sicherlich nicht Stickstoff gekühlt.^^ Kann es sein, dass der Lüfter deswegen nicht richtig hoch dreht und die CPU überhitzt und runter drosselt? Wie kann denn der Temperatur Fühler kaputt sein und wie kann man den austauschen? Sitzt der in der CPU? Oder ist das alles nur ein Auslesefehler?
Ergänzung ()

Übrigens "steigt" die Temperatur mit der Zeit etwas, jetzt -47°C bzw. 16°C. Kommt mir also wie ein falscher negativer Offset oder sowas aus?! Oder es ist doch nur ein Auslesefehler...
 
Zuletzt bearbeitet:
Du könntest mal die CMOS-Batterie erneuern. Wenn die kurz vor EOL ist, passieren manchmal merkwürdige Dinge.
Oder das Board bzw. eine Komponente segnet langsam das Zeitliche.
 
+1 für die CMOS Batterie. Hatte auch schon die merkwürdigsten Fehler bei einem etwas älteren System die ich mir nicht erklären konnte wo smartctl und memtest sauber waren und auch mit anderem Netzteil und spaßeshalber anderem Laufwerk wurde es nicht besser. CMOS Tausch half dann letztendlich, also würde ich es auf jeden Fall testen, kostet ja nicht die Welt.
 
@Skysnake Nett, dass du das Thema nochmal ausgräbst :D Hat sich erledigt. Ich hab die Chance genutzt und auf eine moderne Basis geupgradet. Lenovo ThinkCentre mit i3 9100, 8GB DDR4. Da läuft übrigens die gleiche SSD aus dem anderen System ohne Neuinstallation drin - problemlos.

Die alte Hardware habe ich jetzt erstmal in der Garage - ggf. schaue ich mir das mithilfe eurer Tipps nochmal an und mach daraus nen WinXP Retro Rechner oder so.^^
 
Zurück
Oben