Ubuntu 16 startet nicht trotz keiner offensichtlichen Fehler

Crys

Lt. Commander
Registriert
Apr. 2009
Beiträge
1.651
Servus Miteinander,
entschuldigt die Überschrift, ich kann das Problem leider nicht genauer identifizieren.

Gestern Abend habe meinen Ubuntu 16.04.6 LTS Server neu gestartet. Die Software halte ich sporadisch immer aktuell, Sicherheitsupdates werden immer installiert. Ungefähr ende letzten Monats habe ich aber noch mal alles aktualisiert (u.A. auf Version .6) und mehrfach erfolgreich neu gestartet. Seitdem haben keine großen Änderungen erfolgt ... das einzige was mir einfällt ist, dass ich versuche habe den Cache der Nextcloud zu optimieren und da ist dann eventuell auch mal ein apt-get install -force (oder ähnlich) gefallen ...

Der NAS fährt im normalen Modus über GRUB hinaus hoch, es kommen die Zeilen mit der Zeit ([0.1] ... ) und dann passiert einfach nichts mehr. Der Bildschirm bleibt schwarz. Ich verwalten den NAS fast nur über IPMI, also liegt es auch nicht an dem Bildschirm selbst.
Der NAS kann nach ca. einer Minute angepingt werden, mehr aber auch nicht ... ssh, ftp, smb, apache2, ... alles ist offline.

In den Wartungsmodus komme ich, auch wenn das Menü sehr verwirrend aussieht:
810280

Wenn ich das korrekte PW eingebe komme ich zur Shell und nach einen internen Neustart (?) (zumindest sieht die Shell dann richtig aus), kann man so auch arbeiten. Alle Partitionen sind noch da, alle RAID sind i.O. und alles wie es sein sollte eingehängt ...

Es sind mehrere Kernel Version vorhanden (5 St.), alle funktionieren aber nur im Wartungsmodus.

Ich komme aber einfach nicht weiter, ich habe keine Ahnung woran der Fehler liegen könnte. Hier mal zwei Logs aus dem Wartungsmodus:

Das Mainboard hat ein BIOS und UEFI, ich habe daran aber nichts geändert. Es bootet ja auch. Ich habe auch schon alle HDDs abgeklemmt und nur die OS-HDD dran gelassen. Dann kommen aber nur mehr Warnungen, dass die RAIDs nicht vorhanden sind und sonst keine Änderung.

Woran kann das liegen?
Was braucht ihr noch zur Diagnose?

Ich wäre über eure Hilfe und Ideen zur Lösungsfindung sehr dankbar.
 
Besteht den das Problem auch wenn du das Backup einspielst?
 
  • Gefällt mir
Reaktionen: Asghan
Es ist häufig so das man bei Servern Backups macht (RAID ist ja keine Sicherung)
Aber das scheint wohl nicht vorhanden zu sein.
 
  • Gefällt mir
Reaktionen: Asghan
Das ist eine Anspielung darauf, dass man mindestens vor jeder Änderung ein Backup vom System macht.

edit: too late
 
Deswegen mag ich bei Servern virtuelle Maschinen. Diese kann man für ein Backup leicht kopieren. Zusätzlich kann man vor jeder Änderung einen Speicherpunkt setzen und dann auch mal Risiken eingehen.

Hilft dir jetzt zwar nicht weiter, aber vielleicht in Zukunft.
 
  • Gefällt mir
Reaktionen: Crys und rocketworm
rocketworm schrieb:
Wie sehen denn die SMART Werte der OS Platte aus?
Ich lasse alle Woche einen SMART-Test aller HDDs durchführen und bei Fehlern wird mir eine Mail zu gesendet ... was nicht passiert ist. Der Schnelltest hat nur PASSED ausgegeben, den Ausführlichentest kann ich in ca. 3h einsehen.

@Helge01: Das Thema habe ich hier und in anderen Foren schon breit getreten. Bei meinen Windows-Geräten habe ich wöchentliche Sicherungen des OS mittels TrueImage. Eine ähnliche Lösung hätte ich gerne auch beim Ubuntu OS, es konnte mir aber nie jemand weiter gehelfen. Wenn dieser Thread abgeschlossen ist mache ich noch mal einen Neuen auf und komme gerne auf dich und euch zurück.

Crys schrieb:
Woran liegt mein Problem?
 
Die graphischen Fehler im Wartungs-TUI sind vielleicht ein Hinweis. Hast du mal einen Speicherriegel entnommen bzw. falls möglich getauscht?

Was für eine GPU wird genutzt?

Auf was für einem Datenträger ist das OS installiert? SSD? Die könnte einen Secure-Erase benötigen.
 
  • Gefällt mir
Reaktionen: Crys
Danke @Iapetos. Der RAM ist seit gut 2 Jahren verbaut, 1x 16GB ECC. Memtest von einer Live-CD (heute Nacht) ergab keine Fehler.

Keine GPU, das Bild kommt über BMC bzw. IPMI. Das Mainboard hat auch eine iGPU, die gibt das selbe Bild aus. Der Grafikfehler war aber gefühlt schon seit dem Anfang.

Das OS ist auf einer 24/7 HDD, 750GB.
 
Nichts für ungut, aber sind die ganzen Leute hier, die "Backup zurückspielen" rufen, zufälligerweise eher Windows-Leute?

Dabei steht doch das genaue Problem und die Lösung schon da.

Ein Dateisystem ist Read Only gemountet. Das passiert normalerweise, wenn logische Fehler gefunden wurden, es also z.B. einen Stromausfall beim Schreiben gab oder ein Hart-Reset gemacht wurde. Sofern das Dateisystem dann nicht völlig glatt beim Check durchlief, geht Linux halt auf Nummer sicher und startet Read-Only.

Steht auch in dmesg ganz am Schluss drin:
[ 1217.864580] FAT-fs (sdr1): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
Also kein Ding, fsck -A ausführen und schön immer "Y" bei Nachfragen sagen und hoffen, dass alles danach noch funktioniert (was in 99,99% der Fälle so ist, und ansonsten nimmt man das Backup).
Ergänzung ()

Ah, das ist wohl ein USB-Stick. Den einfach abziehen sollte auch tun.
Dass dann das ganze System wegen eines optionalen Sticks nicht hochfährt, ist wohl eher ein Bug in der Distribution bzw. im konkreten Setup.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Crys
Danke @GrumpyCat. Bevor ich das Log erstellt habe, habe ich verschiedene Sticks getestet. Diese wurden mit usbmount automatisch gemountet und dann habe ich die einfach abgezogen. Das aber erst, nachdem das Problem schon lange da war. Sonst habe ich fast nie was am USB angeschlossen oder auch keine FAT Partition. Das ist leider ein falscher Fehler.
 
Zieh den Stick mal ab, starte neu und poste hier die Ausgabe von mount. Ich tippe darauf, dass das root-Dateisystem read-only gemountet ist. In Hintergrund des Screenshots steht ja auch "Dateisystemstatus: Nur Lesen". Edit: Ah, das ist schon der Wartungsmodus, dann gehört das vermutlich so.
Ergänzung ()

Starte das System mal normal und schau dann, was systemctl sagt bzw. z.B. was systemctl status ssh sagt. Das Problem beim von Dir geposteten Log ist, dass man nicht sieht, was Du da eigentlich gemacht hast, es sieht nach relativ normalem Startup und dann manuellem Shutdown aus.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Crys
Crys schrieb:
ch komme aber einfach nicht weiter, ich habe keine Ahnung woran der Fehler liegen könnte. Hier mal zwei Logs aus dem Wartungsmodus:

Ein Log das nicht aus dem recoverymodus stammt, wäre toll - der Server kann per netconsole das Log auch über Netzwerk versenden.

Mal dein DVD-Laufwerk trennen ?
Code:
ata18: COMRESET failed
ata18.00: ATAPI: TSSTcorpDVD-ROM SH-D163B, SB01, max UDMA/33

ata20: hard resetting link

Außerdem FSCK auf allen mounts - nicht nur der USB
EXT4-fs (md1): warning: mounting unchecked fs, running e2fsck is recommended
Der Raid ist auch defekt.
 
  • Gefällt mir
Reaktionen: Crys
Danke für die Tipps, werde ich naher mal schauen.

Ich hatte damals Stick ausprobiert, denn richtigen Stick eingesteckt, dann die Logs auf den Stick gespeichert. Alles im Wiederehestellungsmodus. Nächstes mal starte ich neu, mache die Logs und dann kommt erst der Stick ran ...
Ergänzung ()

Danke @lokon. Wie kann ich ein Log nicht im Recoverymodus machen? Anders kann ich nicht booten!?

Ich werde mal wirklich alle Geräte trennen, die nicht relevant sind und auch diese aus fstab auskommentieren. und dann ein fsck machen.
Das RAID5 scheint die dritte HDD nicht mehr zu kennen, die Daten sind aber noch i.O. Eventuell war der Stecker vom vielen Rumstecken nicht mehr drin. Aber das schließe ich nachher dann auch aus.
 
Was auch geht, ist im Grub die Anzeige der Startup-Logs wieder anschalten. Also ggf. SHIFT beim Bootup drücken bis zum Grub, dann "e", dann in der Zeile mit "linux" das "quiet" und "splash" löschen, dann per STRG-X starten und schauen, was dann die letzten Ausgaben vor dem Hänger sind.
 
  • Gefällt mir
Reaktionen: Crys
Crys schrieb:
Wie kann ich ein Log nicht im Recoverymodus machen? Anders kann ich nicht booten!?
Netconsole (ubuntu), Netconsole (Arch) funktioniert eigentlich immer solange der Kernel geladen wird und die Netzwerkhardware funktioniert - ansonsten gibt es bei den meisten Servern afaik immernoch die serielle Konsole an der Bootloader und Kernel Nachrichten schicken.
Das geht scheinbar auch über IPMI - zb wiki@hetzner
 
  • Gefällt mir
Reaktionen: Crys
Hier die neuen Los:
journalctl &> https://pastebin.com/kXry6Vbn
dmesg &> https://pastebin.com/dMFEZUeK
mount &> https://pastebin.com/ZhcWr8zZ

SSH funktioniert, wenn man es manuell startet. Es ist einfach nicht gestartet.
service ssh status &> https://pastebin.com/Q4hx3UtC
Auch funktioniert mein normaler Benutzer nicht, nur root (denn ich zum Glück freigeschaltet hatte).

fsck bei allen Partitionen kann ich ja nur machen, wenn ich von einer Live-CD boote!?
Ergänzung ()

Mein "normales Booten" in 1fps:
file0.jpeg
file21.jpeg file22.jpeg file24.jpeg file25.jpeg file26.jpeg file27.jpeg => und dann wird es schwarz und bleibt so. BMC zeigt 0x0px Auflösung an
 
Zuletzt bearbeitet:
Zurück
Oben