Pop Os 22.04 Installation - System friert ein

Ufo908

Cadet 4th Year
Registriert
Apr. 2019
Beiträge
84
Hallo zusammen,

ich bin gerade mit meinem Latein am Ende. Ich wollte mir heute meinen Desktop PC neu aufsetzen und von Win 10 zu Pop Os wechseln und ich habe erhebliche Probleme.

Nach der ersten Installation ist mir das System nach ein paar Minuten eingefroren. Beim Reboot bekam ich eine Fehlermeldung, dass das Dateisystem beschädigt sei.

Ich habe danach stundenlang versucht die Installation vor vorne durchzuführen. Die Installation ist immer wieder stehen geblieben. Ich habe erst angenommen, dass evtl. das Image korrumpiert oder etwas beim Flashen des USB Sticks daneben gegangen sei und habe das Image neu heruntergeladen, einen anderen USB Stick verwendet und ihn mehrfach geflashed. Vorhin hat es noch einmal funktioniert, aber das System ist mir wieder nach ein paar Minuten eingefroren. Diesmal kann ich zwar noch die Maus bewegen, aber sonst geht gar nichts mehr.

Wo würdet ihr ansetzen? Überhitzung evtl.?

Es gibt auf der Website von Pop Os einen ausführlichen Guide zum Debuggen der einzelnen Hardware Komponenten, was man ja notfalls auch aus der virtuellen Installationsumgebung heraus durchführen könnte. Aber wie will ich diese teils langatmigen Tests durchführen, wenn mir das System dauernd einfriert?

System:
  • GA-AB350-Gaming 3 (neueste UEFI Version)
  • AMD Ryzen 5 1500X
  • Corsair Vengeance LPX DDR4-3200 DIMM CL 16-18-18-36 Dual Kit
  • MSI GeForce GTX 1070 Gaming X 8G Aktiv PCIe 3.0 x16
  • Samsung 500GB 850 Evo 2.5" SATA
  • be quiet! Straight Power 10-CM Modular 80+ Gold
  • Fractal Design Define R4
 
ram checken, smart werte der SSD ansehen und Temperatur der CPU prüfen

dmesg und jourlnald gezielt ab dem Start in eine datei schreiben lassen, was mit etwas glueck noch ein paar error vor einem eventuellen Freeze protokolliert. Dann musst du dir nach einem Neustar nur die letzten Zeilen ansehen.
 
  • Gefällt mir
Reaktionen: Ufo908
Temps kannst du Ausschliessen wenn du alles länger als 10s anfassen kannst, CPU kühler etc.
bei den Spannungswandlern würd der PC einfach ausgehen.

RAM wäre mein verdächtiger Nr 1, evtl mal XMP deaktivieren, Rams neustecken, evtl memtest drüberlassen,
sollte aber min 30min laufen.

Alternativ kann man auch mal eine andere Linux distri testen, debian ubntu, nicht das das Problem nur popoS betrifft.
hatte bei einen lenovo T460s mal das propblem das er beim herunterfahren nicht ausging und dann nur Akkuraus half, War TPM, deaktiviert läuft.

Bei der SSD würden eher EA errors kommen.
 
  • Gefällt mir
Reaktionen: Ufo908
Zumindest aus der "virtuellen" Distro vom Stick wird der Bildschirm nach ein paar Minuten schwarz während ich Memtest und den Smart Test laufen lassen. Das ist jetzt gerade zum zweiten mal passiert. Den Stromsparmodus hatte ich vorher ausgeschaltet.

XMP war vor der allerersten Installation ausgeschaltet, aber da ist der Rechner auch schon eingefroren.
Ergänzung ()

Nachdem ich den Rechner ausgeschaltet und den USB Stick gezogen habe kommt beim Reboot nichts weiter als ein blinkender Cursor. Auch im BIOS steht als Festplattenbezeichnung nicht mehr ... Pop Os, sondern einfach nur noch der Name der SSD. Dabei habe ich nichts drüber installiert, sondern lediglich die Tests aus der "virtuellen" Distro vom Stick laufen lassen.

Unter Windows hatte ich solche Probleme nicht (bzw. andere, meist mit dem zweiten Monitor).
Ergänzung ()

Beim RAM gab es einen Fehler, bevor der Bildschirm schwarz geworden ist. Im zweiten Durchlauf nicht.

Die Werte der SSD sahen gut aus, bevor der Bildschirm schwarz geworden ist, außer der für die Temperatur. Der linke Werte war um die 70, der rechte um die 40.
 
Zuletzt bearbeitet:
Das mache ich morgen.

Noch eine Sache die mir aufgefallen ist: Die Dauer bis zum Freeze war jedes mal etwa gleich lang, grob auch die Menge der Aktionen. Der Ablauf auch, erst ist das Fenster des Programms in dem ich etwas gemacht habe eingefroren und dann kurz darauf der Rest des Systems. Meist der Pop Shop.
 
Wäre mal interessant, in welchem Modus Du die Installation vorgenommen hast.
Also UEFI only ... oder ... UEFI+CSM legacy ?

Und als Zweites, ob die SSD im MBR-Partitionsstil formatiert wurde ... oder im GPT-Partitionsstil?

Drittens: Könntest mal die SSD ausbauen & im anderen PC/NB testen, ob sie dort beschreibbar & lesbar ist.

Grüße
 
  • Gefällt mir
Reaktionen: madmax2010 und Ufo908
So ich habe heute früh Pop Os noch einmal installiert bekommen und es verhält sich mit den beiden RAM Riegeln einzeln genauso wie zusammen. Heißt das den RAM kann man als Fehlerquelle ausschließen?

Nach einem Freeze hatte ich beim Booten gerade eine Fehlermeldung mit "Bluetooth". Das ging allerdings so schnell, mehr konnte ich nicht lesen. (Da mein Mainboard kein Bluetooth hat habe ich einen Adapter für mein Apple Magic Keyboard.)

@Tanzmusikus Die SSD ist im GUID Stil partitioniert.
Ergänzung ()

Der Pop Shop funktioniert nicht, installiert ab einem gewissen Punkt keine Updates und stürzt regelmäßig ab. Bei jedem Freeze hatte ich ihn offen und versucht Programme zu installieren.

Der GPU Test war ok glaube ich, nach einer knappen halben Stunde kein Freeze und bei um die 70 Grad.

Dafür beim Versuch ein Programm für einen CPU Stresstest zu installieren folgendes:
Der dpkg-Prozess wurde unterbrochen; Sie müssen manuell »dpkg –configure -a« ausführen, um das Problem zu beheben.

@Tanzmusikus CSM war bzw. ist im BIOS aktiviert.
 
Zuletzt bearbeitet:
Der CPU Stresstest ist auch eine Viertelstunde ohne Freeze durchgelaufen und die Temperaturen lagen konstant um die 60 Grad.

Ich lasse jetzt noch einmal RAM Tests laufen, da mir bei den letzten Malen der Rechner immer gefreezed ist.
Ergänzung ()

Im memtester mit 12 von 16 GB bei 5 Loops direkt im ersten Loop ein Fehler bei Solid Bits, Checkerboard und Bit Flip. Das hatte ich gestern Nacht auch schon, da ist allerdings der Rechner gefreezed, da ich nebenbei noch etwas gemacht hatte. Jetzt werde ich ihn so durchlaufen lassen.

Heißt das direkt das der RAM defekt ist oder kann eine solche Fehlermeldung auch andere Ursachen haben?
 
Zuletzt bearbeitet:
Ja, könnte der RAM sein. Muss aber kein Defekt sein.
Könnten auch falsche Einstellungen oder OC im UEFI sein.

1. CPU-OC bitte deaktivieren.
Wenn dort [Auto] bei CPU-OC steht, dann bitte explizit auf "Manual" oder "Disable" stellen.

2. PBO (Precision Boost Overdrive) alias XFR bitte ebenfalls deaktivieren!

3. Stell außerdem den RAM bitte auf [Auto], also "XMP" deaktivieren.
Und teste den RAM nochmals.

Meist steht beim RAM-Test Programm mit welcher Frequenz er läuft (z.B. 1066, 1200, 1600 bzw. 2133, 2400 , 3200).
4. Diesen Wert zusammen mit dem erneuten RAM-Test-Ergebnis bitte hier im Thema posten.

Grüße
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: madmax2010 und Ufo908
Das mache ich heute Abend, sobald die aktuellen Tests durchgelaufen sind. Die brauchen noch ein bisschen.

XFR ist beim aktuellen Memtest bereits draußen und der RAM läuft mit 2133 MHz.
 
Ufo908 schrieb:
Das mache ich heute Abend, sobald die aktuellen Tests durchgelaufen sind.
Abends ist es auch etwas kühler. :schluck:

Wie sind generell die Temps vom RAM (mehr als 50°C mögen diese oft nicht)?

Ufo908 schrieb:
XFR ist beim aktuellen Memtest bereits draußen und der RAM läuft mit 2133 MHz.
Super! Wie sieht's mit CPU-OC aus?

Gigabyte ist mir neben ASUS bekannt für Auto-OC out-of-the-box (ootb).

Grüße
 
  • Gefällt mir
Reaktionen: Ufo908
Wie bekomme ich die RAM Temperatur gemessen?

Die anderen Tests werde ich auch noch mal machen, da ich heute Mittag vergessen hatte das Gehäuse zu schließen.
 
Entweder hat der RAM einen Sensor (ist nicht oft der Fall) ... oder Du hast ein IR-Thermometer.
Ich hatte mir seinerzeit eines bei Conrad für ~10€ gekauft.

Wenn ein Sensor vorhanden ist, geben diverse HW-Monitor-Tools die RAM-Temperatur aus.
Manchmal sogar einige RAM-Testprogramme während des Testens.

Wenn nicht, wäre auch nicht schlimm, musst nicht unbedingt deswegen ein IR-Messgerät kaufen.
Achte einfach darauf, dass im PC-Gehäuse genug Airflow herrscht & kein Überdruck mit Hitzestau entsteht.
  • Überdruck entsteht, wenn zu viel Luft hinein & zu wenig Luft heraus fließt.
  • Unterdruck entsteht, wenn zu wenig Luft hinein & zu viel Luft heraus fließt.
  • Ausgeglichen ist mein persönlicher Favorit.
Grüße

P.S.
Falls das Gehäuse doch sehr warm sein sollte, dann hilft vorübergehend für den RAM-Test ein Seitenteil des Gehäuses abzunehmen.
 
Code:
abc@pop-os:~$ sudo memtester 12G 5
[sudo] Passwort für abc:
memtester version 4.5.1 (64-bit)
Copyright (C) 2001-2020 Charles Cazabon.
Licensed under the GNU General Public License version 2 (only).

pagesize is 4096
pagesizemask is 0xfffffffffffff000
want 12288MB (12884901888 bytes)
got  12288MB (12884901888 bytes), trying mlock ...locked.
Loop 1/5:
  Stuck Address       : ok       
  Random Value        : ok
  Compare XOR         : ok
  Compare SUB         : ok
  Compare MUL         : ok
  Compare DIV         : ok
  Compare OR          : ok
  Compare AND         : ok
  Sequential Increment: ok
  Solid Bits          : testing  56FAILURE: 0xffffffffffffffff != 0xffffffffffbfffff at offset 0x1047f71f0.
  Block Sequential    : ok       
  Checkerboard        : testing   8FAILURE: 0x5555555555555555 != 0x5555555555155555 at offset 0x1047f71f0.
  Bit Spread          : ok       
  Bit Flip            : testing 166FAILURE: 0xffffffffffefffff != 0xffffffffffafffff at offset 0x1047f71f0.
  Walking Ones        : ok       
  Walking Zeroes      : ok       
  8-bit Writes        : ok
  16-bit Writes       : ok

Loop 2/5:
  Stuck Address       : ok       
  Random Value        : ok
  Compare XOR         : ok
  Compare SUB         : ok
  Compare MUL         : ok
  Compare DIV         : ok
  Compare OR          : ok
  Compare AND         : ok
  Sequential Increment: ok
  Solid Bits          : ok       
  Block Sequential    : ok       
  Checkerboard        : ok       
  Bit Spread          : ok       
  Bit Flip            : testing  82FAILURE: 0xfffffffffffffbff != 0xffffffffffbffbff at offset 0x1047f71f0.
  Walking Ones        : ok       
  Walking Zeroes      : ok       
  8-bit Writes        : ok
  16-bit Writes       : ok

Loop 3/5:
  Stuck Address       : ok       
  Random Value        : ok
  Compare XOR         : ok
  Compare SUB         : ok
  Compare MUL         : ok
  Compare DIV         : ok
  Compare OR          : ok
  Compare AND         : ok
  Sequential Increment: ok
  Solid Bits          : ok       
  Block Sequential    : ok       
  Checkerboard        : ok       
  Bit Spread          : ok       
  Bit Flip            : testing  48FAILURE: 0xffffffffffffffbf != 0xffffffffffbfffbf at offset 0x1047f71f0.
  Walking Ones        : ok       
  Walking Zeroes      : ok       
  8-bit Writes        : ok
  16-bit Writes       : ok

Loop 4/5:
  Stuck Address       : testing   7FAILURE: possible bad address line at offset 0x2847f6200.
Skipping to next test...
  Random Value        : ok
  Compare XOR         : ok
  Compare SUB         : ok
  Compare MUL         : ok
  Compare DIV         : ok
  Compare OR          : ok
  Compare AND         : ok
  Sequential Increment: ok
  Solid Bits          : ok       
  Block Sequential    : ok       
  Checkerboard        : ok       
  Bit Spread          : ok       
  Bit Flip            : testing   2FAILURE: 0xfffffffffffffffe != 0xffffffffffbffffe at offset 0x1047f71f0.
  Walking Ones        : ok       
  Walking Zeroes      : ok       
  8-bit Writes        : ok
  16-bit Writes       : ok

Loop 5/5:
  Stuck Address       : ok       
  Random Value        : ok
  Compare XOR         : ok
  Compare SUB         : ok
  Compare MUL         : ok
  Compare DIV         : ok
  Compare OR          : ok
  Compare AND         : ok
  Sequential Increment: ok
  Solid Bits          : ok       
  Block Sequential    : ok       
  Checkerboard        : ok       
  Bit Spread          : ok       
  Bit Flip            : testing 360FAILURE: 0xffffdfffffffffff != 0xffffdfffffbfffff at offset 0x1047f71f0.
  Walking Ones        : ok       
  Walking Zeroes      : ok       
  8-bit Writes        : ok
  16-bit Writes       : ok

Done.

Hier schon mal das Ergebnis des ersten Memtests.

Der Smart Test sieht auch ok aus. Er ist jetzt bei 30% verbleibend. Die Grenzwerte wurden nicht überschritten und die Selbsteinschätzung ist in Ordnung.

Ich werde jetzt den Memtest mit den von @Tanzmusikus empfohlenen BIOS Einstellungen anwerfen und über Nacht laufen lassen.

Dazu werde ich morgen das OS noch einmal neu installieren, mir rasdaemon installieren und einen Freeze provozieren. Damit dürfte ich über journalctl -f -u rasdaemon ja sehen können, ob es einen Hardwarefehler gab.

Falls jemand von euch einen besseren Ansatz dafür hat oder einen Tipp wie ich einen Software- bzw. OS-Fehler beim Freeze loggen kann, immer her damit.
Ergänzung ()

Tanzmusikus schrieb:
Ja, könnte der RAM sein. Muss aber kein Defekt sein.
Könnten auch falsche Einstellungen oder OC im UEFI sein.

1. CPU-OC bitte deaktivieren.
Wenn dort [Auto] bei CPU-OC steht, dann bitte explizit auf "Manual" oder "Disable" stellen.

2. PBO (Precision Boost Overdrive) alias XFR bitte ebenfalls deaktivieren!

3. Stell außerdem den RAM bitte auf [Auto], also "XMP" deaktivieren.
Und teste den RAM nochmals.

Meist steht beim RAM-Test Programm mit welcher Frequenz er läuft (z.B. 1066, 1200, 1600 bzw. 2133, 2400 , 3200).
4. Diesen Wert zusammen mit dem erneuten RAM-Test-Ergebnis bitte hier im Thema posten.

Grüße
OC habe ich nicht genutzt. PBO bzw. XFR habe ich nicht gefunden. Ggf. heißt das bei mir anders, jedenfalls habe ich den Core Performance Boost deaktiviert. XMP war bereits vor dem letzten Test deaktiviert. Die RAM Frequenz ist 2133 MHz.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Tanzmusikus
Ufo908 schrieb:
Hier schon mal das Ergebnis des ersten Memtests.
Du testest unter Linux - interessante Einblicke! Cool 😎

Allerdings würde ich Dir empfehlen auch mit Memtestx86 (Direkt-DL) oder/und Memtestx86+ (Direkt-DL) von einem USB-Stick zu testen. Dann kannst Du evtl. leichter das Betriebssystem ausschließen.

Ufo908 schrieb:
OC habe ich nicht genutzt. PBO bzw. XFR habe ich nicht gefunden. Ggf. heißt das bei mir anders
Das ist gut möglich, dass diese Optionen je nach Hersteller (ggf. sogar Modell) anders benannt sind.

Nach Lesen des Handbuchs sieht es so aus, dass es CorePB Ratio, CorePB und TurboPB Ratio gibt.
Deaktiviere für den Memtest einfach alles und gut ist.

Ufo908 schrieb:
jedenfalls habe ich den Core Performance Boost deaktiviert.
Den CPB alias Turbo darfst Du gerne anlassen, da dieser nur minimal mehr Leistung/Wärme produziert.
Edit: In diesem Fall einer Umbenennung lasse es bitte zur Sicherheit aus.

PBO/XFR(2) ist der "Schlingel", denn da steckt das "O" für Overclock (OC) bzw. Overdrive (OD) drin.
"O O" sage ich da nur. 😆

Edit: Ach so, ist ja ein 300er Board. Das hat wahrscheinlich gar kein richtiges PBO.

Ufo908 schrieb:
XMP war bereits vor dem letzten Test deaktiviert. Die RAM Frequenz ist 2133 MHz.
Sehr schön. Danke für die Rückmeldung.
Macht es für mich leichter den Stand deiner "Ermittlungen" nachzuvollziehen.

Grüße
 
  • Gefällt mir
Reaktionen: Ufo908
@Tanzmusikus Ich werfe gleich den Memtestx86 mit den von dir beschriebenen BIOS Settings an.

Eine Sache ist mir gerade aufgefallen und dazu eine Frage:

Als ich gestern den Stresstest für die CPU installieren wollte bekam ich folgende Fehlermeldung auf der Konsole:
Der dpkg-Prozess wurde unterbrochen; Sie müssen manuell »dpkg –configure -a« ausführen, um das Problem zu beheben.
Ich habe dann das gewünschte Kommando ausgeführt. Ich bekam dann einen ellenlangen Output wo auch Kernel Module geupdated bzw. neu installiert wurden.

Jedenfalls habe ich gerade als eigenen Stresstest versucht einen Freeze zu provozieren, indem ich mehrere Apps parallel aus dem Pop Shop installiert und parallel dazu eine größere Datei heruntergeladen habe. Das hatte zuvor immer gereicht, um den Rechner zum freezen zu bringen.

Jetzt ist allerdings nichts passiert und der Rechner läuft noch. Was hat das zu bedeuten? Ist ggf. der Pop Os Build bzw. der Kernel darin fehlerhaft und es ist kein Hardware Problem? Aber wie könnte das sein? Es ist der aktuelle Download von der offiziellen Website.

Falls das eine relevante Spur ist der es sich lohnt nachzugehen könnte ich das Betriebssystem noch einmal frisch installieren und dpkg --configure -a erneut ausführen und den Konsolen Output hier posten, um nachvollziehbar zu machen was dort passiert ist und wo das Problem lag bzw. liegt.
Ergänzung ()

Edit: Die drei Einstellungen CorePB Ratio, CorePB und TurboPB Ratio kann ich nicht im BIOS finden. Bist du dir sicher, dass es sie geben sollte? Mein Mainboard hat kein OC.
 
Zuletzt bearbeitet:
Ufo908 schrieb:
Jedenfalls habe ich gerade als eigenen Stresstest versucht einen Freeze zu provozieren, indem ich mehrere Apps parallel aus dem Pop Shop installiert und parallel dazu eine größere Datei heruntergeladen habe. Das hatte zuvor immer gereicht, um den Rechner zum freezen zu bringen.
Hm, ich nehme an, dass bei gleichzeitiger Installation von mehreren Programmen sich bestimmte Prozesse & ggf. Zugriffe auf Ordnern/Dateien usw. überschnitten haben. Mit dem vorgeschlagenen Befehl fixed man das.

Das ist als RAM-Test nicht geeignet, dabei wird dieser zwar benutzt, aber nicht ausgelastet.
Zudem können Fehler in anderen Bereichen auftreten, wenn man diese belastet. Das will man bei der Fehleranalyse vermeiden, um besser an die genauen Knackpunkte der Probleme zu kommen.


Ufo908 schrieb:
Jetzt ist allerdings nichts passiert und der Rechner läuft noch. Was hat das zu bedeuten?
Vielleicht, dass die bereits getätigten Änderungen im UEFI/BIOS nun ihre Wirkungen tun ... oder, dass die Probleme woanders liegen als von Dir gedacht.


Ufo908 schrieb:
Ist ggf. der Pop Os Build bzw. der Kernel darin fehlerhaft und es ist kein Hardware Problem? Aber wie könnte das sein? Es ist der aktuelle Download von der offiziellen Website.
Kannst Du doch anhand der Checksumme von der Pop!_OS-Webseite überprüfen, ob die ISO nach dem Herunterladen korrekt übermittelt wurde.

Kann aber auch an der ISO liegen. Ich hatte mal die "pop-os_22.04_amd64_intel_11"er ISO (für Intel/AMD), welche nicht ganz sauber lief bzw. installierte.

Mit deiner Grafikarte solltest Du aber eh die Nvidia-Version laden:
https://iso.pop-os.org/22.04/amd64/nvidia/12/pop-os_22.04_amd64_nvidia_12.iso
SHA256 Checksum: 8ab6e3ace887a8657740fe36dc6fade4e8a11c206ff00040eb06ebc89451dcd3


Ufo908 schrieb:
Die drei Einstellungen CorePB Ratio, CorePB und TurboPB Ratio kann ich nicht im BIOS finden. Bist du dir sicher, dass es sie geben sollte? Mein Mainboard hat kein OC.
Sicher, dass Du die Option(en) nicht bereits schon gesehen hast? ;)
Ufo908 schrieb:
Ggf. heißt das bei mir anders, jedenfalls habe ich den Core Performance Boost deaktiviert.


Bin gespannt, was es für Ergebnisse vom Passmark Memtestx86 gibt.

Alternativ gibt's auch noch die brandaktuelle Beta von Memtestx86+ (OpenSource) ...
https://memtest.org/download/v6.00b3/mt86plus_6.00b3_64.grub.iso.zip
https://memtest.org/download/v6.00b3/mt86plus_6.00b3_64.iso.zip

Plane da ruhig mehrerere Stunden (evtl. 1-2 Tage) für die Tests ein.

Die Ergebnisse lassen sich ggf. auf einem angeschlossen USB-Stick schreiben/sichern.

Grüße
 
  • Gefällt mir
Reaktionen: Ufo908
Die Checksumme war korrekt und ich habe die Version mit den Nvidia Treibern installiert.

Der Memtestx86+ läuft jetzt seit vier Stunden und ich habe nach vier Loops 13 Fehler, Einer davon wird mir rot in der Tabelle in der Mitte angezeigt.

Hmm, aber welche BIOS Änderungen sollen Wirkung gezeigt haben? XMP war die ganze Zeit deaktiviert und irgendwelche OC Optionen habe ich ja nicht (gefunden). Also ist alles gleich bis auf das ausgeführte dpkg Kommando.

Oder gibt es die Möglichkeit, dass ein RAM Fehler oder eine andere Instabilität bei der Installation zu einem instabilen bzw. defekten Kernel führt und das dpkg Kommando deswegen so viele Kernel Updates ausführt?

Ich habe aus Spaß mal meinen Laptop neu aufgesetzt. Auf dem nutze ich seit Jahren Pop Os setze und ihn auch alle paar Monate neu auf. Wie zu erwarten gibt es hier keine Probleme und auch das dpkg Kommando hat keinerlei Änderungen nach sich gezogen.
 
  • Gefällt mir
Reaktionen: Tanzmusikus
Zurück
Oben