SSD Proxmox - I/O Read Error

ShadowDragon

Lt. Junior Grade
Registriert
Apr. 2017
Beiträge
410
Hallo,

Ich habe folgendes Problem auf meinen Proxmox-Server (non Enterprise Variante):
IMG_20191222_192029_583.jpg

IMG_20191222_192032_816.jpg


Der Server läuft auf einem normalen AMD Ryzen mit ECC RAM welcher vom Mainboard auch offiziell für die CPU unterstützt wird.
Nach einem forced reboot des Servers da Befehle Wie shutdown oder reboot etc. Nicht mehr verfügbar waren habe ich einige smartctl Tests ausgeführt da meine aktuelle Vermutung eine Defekte SSD ist.
IMG_20191222_192403_661.jpg


Hier das Ergebnis vom smartclt Test via Backup Image von proxmox im Boot-Screen:
IMG_20191222_192415_415.jpg


Nun ist die Frage ob die SSD Defekt ist oder falls nicht, wo sonst das Problem liegt, da der Server ohne Probleme 2 Monate im 24/7 Betrieb durchlief. Mich interessiert es auch ob ich noch irgendwie an die Daten kommen kann oder mein Backup dieser aufspielen muss.

EDIT:
AMD Ryzen 5 2600
16GB (1x 16384MB) Samsung M391A2K43BB1-CTD DDR4-2666 ECC
480GB Kingston A400 2.5"
ASRock Rack X470D4U (BIOS Version P3.20)

Der Fehler beim booten von Proxmox:
screensht.png


SSD Werte vor dem long-Test.
SSD Werte nach dem long-Test.
Firmware-Update der SSD
 

Anhänge

  • photo_2019-12-25_00-44-26.jpg
    photo_2019-12-25_00-44-26.jpg
    111,3 KB · Aufrufe: 347
Zuletzt bearbeitet:
Post doch mal die S.M.A.R.T. Werte, also die Ausgabe von smartctl -a /dev/sda
 
  • Gefällt mir
Reaktionen: snaxilian
Du vermutest einen Hardwaredefekt und machst dann nur einen short Test? Da wirst kein vernünftiges Ergebnis bekommen. Ergo: Long Test starten und Ergebnis abwarten, dann Ausgabe des Tests sowie wie schon von Holt vorgeschlagen die SMART-Werte.
Noch besser wären die SMART-Werte vor und nach dem long Test.
 
Eishunter schrieb:
welches Mainboard - welche Ryzen-CPU - welcher RAM und welche SSD ?
AMD Ryzen 5 2600
16GB (1x 16384MB) Samsung M391A2K43BB1-CTD DDR4-2666 ECC
480GB Kingston A400 2.5"
ASRock Rack X470D4U (BIOS Version P3.20)

Sensorbericht vom Mainboard:
All threshold sensors are normal


photo_2019-12-25_01-12-11.jpg


Bootvorgang:
photo_2019-12-25_01-17-18.jpg

photo_2019-12-25_01-17-22.jpg

Anders ist es nicht mehr möglich in ein System zu booten und selbst hier werden Fehler beim Booten geworfen. Sobald der Long-Test durchgelaufen ist kann ich mal schauen ob ich ein Screenshot der Fehler machen kann.

Holt schrieb:
Post doch mal die S.M.A.R.T. Werte, also die Ausgabe von smartctl -a /dev/sda
photo_2019-12-25_00-44-26.jpg

photo_2019-12-25_00-44-48.jpg

photo_2019-12-25_00-45-15.jpg

photo_2019-12-25_00-45-37.jpg


snaxilian schrieb:
Du vermutest einen Hardwaredefekt und machst dann nur einen short Test? Da wirst kein vernünftiges Ergebnis bekommen. [...]
Noch besser wären die SMART-Werte vor und nach dem long Test.
Nun ja, habe mich vorher noch nie mit SMART-Tests und Werten auseinander gesetzt. Somit weiß ich auch nicht wo genau die Unterschiede zwischen einem Short und Long Test liegen. Ich hatte aber bereits einen durchgeführt, nur leider keine Bilder davon gemacht. Somit sind die Werte oben nach dem ersten Long-Test und die Werte vom aktuellen Long-Test werden angefügt sobald dieser durchgelaufen ist.
 
Die S.M.A.R.T. Werte zeigen keine Probleme und wie man sieht haben die Selbsttests auch keine Fehler ergeben. Die Mainboard ist aber unausgereift, wer was anderes als Windows oder allenfalls Linux nutzt, muss da mit Problemen rechnen, AM4 ist eben eine Desktopplattform. Die ersten RYZEN 1000 CPUs hatten einen Bug unter Linux und auch die RYZEN 3000 CPUs hatten den Bug mit Zufallszahlengenerator, der dazu geführt hat das viele aktuelle Distributionen mit systemd nicht liefen, was wohl erahnen lässt wie wenig umfangreich die Tests mit Linux gewesen sein dürften.
 
Holt schrieb:
Die Mainboard ist aber unausgereift, wer was anderes als Windows oder allenfalls Linux nutzt, muss da mit Problemen rechnen, AM4 ist eben eine Desktopplattform.

Proxmox ist nicht viel mehr als Debian mit extra Paketen und ner Web-UI. Sollte auf jeglicher Desktop-Hardware also problemlos laufen und keine derartigen Fehler verursachen.
 
und natürlich macht Holt wieder die AM4-Plattform als Schuldigen aus und nicht die Billig-SSD mit bekannten Firmwareproblemen ........
 
Das sind übrigens die Werte nach dem Long-Test:

photo_2019-12-25_11-37-04.jpg

photo_2019-12-25_11-37-14.jpg

photo_2019-12-25_11-37-20.jpg
photo_2019-12-25_11-37-26.jpg
photo_2019-12-25_11-37-31.jpg


Denniss schrieb:
und natürlich macht Holt wieder die AM4-Plattform als Schuldigen aus und nicht die Billig-SSD mit bekannten Firmwareproblemen ........
Was für Firmwareprobleme hat denn die SSD und welche würdest du empfehlen?
 
ShadowDragon schrieb:
Nun ja, habe mich vorher noch nie mit SMART-Tests und Werten auseinander gesetzt. Somit weiß ich auch nicht wo genau die Unterschiede zwischen einem Short und Long Test liegen.
Aha und diese Ausrede zur Faulheit der Recherche hilft dir inwiefern? Eine Suche mit $Suchmaschine nach smart short long test liefert als eine der ersten Treffer u.a. https://www.thomas-krenn.com/de/wiki/SMART_Tests_mit_smartctl und dort wird recht gut erklärt was die Unterschiede sind. Du willst einen Server betreiben. Gewöhn dich dran, Anleitungen und Manpages zu lesen ;)

Da die SMART-Tests nichts auffälliges zeigen, scheint die SSD in Ordnung zu sein und eine Suche nach dem Io-Error liefert mehrere Ansätze:
  • Ist im BIOS/UEFI der SATA Controller auf AHCI oder ggf. auf IDE?
  • Hat die SSD die aktuelle Firmware drauf?

Zu der Kingston A400 findet man mehrere Berichte, dass diese "Aussetzer" hat und es mit einer neuen Firmware angeblich behoben sei (Quelle: https://www.au-ja.de/guide-kingston-ssd-a400-1.phtml)
 
ShadowDragon schrieb:
Was für Firmwareprobleme hat denn die SSD und welche würdest du empfehlen?
Die SSD ist grottig und fällt gerne mal früh aus, aber diese hier zeigt keinerlei Probleme an und daher würde ich eben nicht darauf wetten das ein Wechsel der SSD hier die Lösung bringt. Aber wenn Du es probieren willst, nimm eine Crucial MX500 oder eine andere SSD von einem NAND Hersteller oder deren Tochterfirmen mit einem DRAM Cache.

Was Probleme von AM4 als Serverplattform angeht, empfehle ich mal den Thread Ryzen 3700X mit ASRock X470D4U als ESXi-Virtualisierungshost bei Hardwareluxx zu lesen, die Kritik daran sauge ich mir ja nicht aus dem Finger.
 
snaxilian schrieb:
Aha und diese Ausrede zur Faulheit der Recherche hilft dir inwiefern? Eine Suche mit $Suchmaschine nach smart short long test liefert als eine der ersten Treffer u.a. https://www.thomas-krenn.com/de/wiki/SMART_Tests_mit_smartctl und dort wird recht gut erklärt was die Unterschiede sind. Du willst einen Server betreiben. Gewöhn dich dran, Anleitungen und Manpages zu lesen ;)

Da die SMART-Tests nichts auffälliges zeigen, scheint die SSD in Ordnung zu sein und eine Suche nach dem Io-Error liefert mehrere Ansätze:
  • Ist im BIOS/UEFI der SATA Controller auf AHCI oder ggf. auf IDE?
  • Hat die SSD die aktuelle Firmware drauf?

Zu der Kingston A400 findet man mehrere Berichte, dass diese "Aussetzer" hat und es mit einer neuen Firmware angeblich behoben sei (Quelle: https://www.au-ja.de/guide-kingston-ssd-a400-1.phtml)
Da ich leider nichts im IPMI Interface gefunden habe zur Einstellung des SATA-Controllers habe ich mal mit unter anderem lspci in Linux nachgeschaut und der Sata-Controller läuft im AHCI Mode und die AHCI Kernel Treiber sind geladen.
Laut smartctl ist die Firmware Version SBFKB1D1 installiert. Ob dies die aktuelle ist kann ich allerdings nicht beurteilen da ich auf der Website hierzu nichts finden konnte außer den SSD Manager von Kingston welcher allerdings nicht mit Linux kompatibel ist und mir dementsprechend nicht weiterhilft.

EDIT:
Holt schrieb:
Die SSD ist grottig und fällt gerne mal früh aus, aber diese hier zeigt keinerlei Probleme an und daher würde ich eben nicht darauf wetten das ein Wechsel der SSD hier die Lösung bringt. Aber wenn Du es probieren willst, nimm eine Crucial MX500 oder eine andere SSD von einem NAND Hersteller oder deren Tochterfirmen mit einem DRAM Cache.

Was Probleme von AM4 als Serverplattform angeht, empfehle ich mal den Thread Ryzen 3700X mit ASRock X470D4U als ESXi-Virtualisierungshost bei Hardwareluxx zu lesen, die Kritik daran sauge ich mir ja nicht aus dem Finger.
Ich habe zwar nicht alles von dem Thread durchgelesen, aber die Fehler dass im IPMI bei denen einige Werte nicht angezeigt oder ausgelesen wurden oder dann im Linux System nicht ausgelesen werden können kann ich nicht nachvollziehen da es bei mir läuft. Aber ich konnte diesbezüglich auch noch nichts schlechtes über das Board feststellen, ist aber auch mein erster Server und mein erstes IPMI Board.
 
Zuletzt bearbeitet:
Dann bau die SSD halt aus, steck sie in nen Windoows-PC, installier die ranzige Software von Kingston, mach nen Update und bau die SSD wieder zurück. Das Prozedere und deine Kritik steht btw auch 1:1 so in dem von mir verlinkten Artikel (zweiter Link). Wenn du keinen zweiten PC hast und auch niemanden kennst wo du dies durchführen könntest: Backup vom jetzigen System erstellen, Windows herunter laden, installieren, Firmware aktualisieren, Backup wieder einspielen, fertig.

Alternativ zukünftig Hardware beschaffen, die man auch unter Linux aktuell halten. Ja, das schränkt etwas ein aber erzeugt nicht solche Dramen wie diesen Thread hier...
Als dritte Option: Kannst es ja mal beim Händler probieren, Stichwort Gewährleistung. Wird aber deutlich aufwendiger und zeitintensiver als die bisher genannten zwei Lösungsvorschläge.
 
snaxilian schrieb:
Dann bau die SSD halt aus, steck sie in nen Windoows-PC, installier die ranzige Software von Kingston, mach nen Update und bau die SSD wieder zurück. Das Prozedere und deine Kritik steht btw auch 1:1 so in dem von mir verlinkten Artikel (zweiter Link). Wenn du keinen zweiten PC hast und auch niemanden kennst wo du dies durchführen könntest: Backup vom jetzigen System erstellen, Windows herunter laden, installieren, Firmware aktualisieren, Backup wieder einspielen, fertig.

Alternativ zukünftig Hardware beschaffen, die man auch unter Linux aktuell halten. Ja, das schränkt etwas ein aber erzeugt nicht solche Dramen wie diesen Thread hier...
Als dritte Option: Kannst es ja mal beim Händler probieren, Stichwort Gewährleistung. Wird aber deutlich aufwendiger und zeitintensiver als die bisher genannten zwei Lösungsvorschläge.
Nachdem ich bei einem Bekannten war und nach Updates schauen konnte...

20191230_183211.jpg

20191230_183425.jpg

20191230_183444.jpg

20191230_183503.jpg

20191230_183517.jpg

20191230_183532.jpg

Aber eine Kingston SSD werde ich nicht mehr erwerben solange man Updates nicht betriebssystemunabhängig installieren kann.

Hier nochmal ein Bild vom Bootvorgang von Proxmox:
screensht.png
 
Zuletzt bearbeitet:
snaxilian schrieb:
Da die SMART-Tests nichts auffälliges zeigen, scheint die SSD in Ordnung zu sein und eine Suche nach dem Io-Error liefert mehrere Ansätze:
  • Ist im BIOS/UEFI der SATA Controller auf AHCI oder ggf. auf IDE?
  • Hat die SSD die aktuelle Firmware drauf?
Neuste Firmware ist bereits drauf und der SATA Controller steht auf AHCI.

Holt schrieb:
Die SSD ist grottig und fällt gerne mal früh aus, aber diese hier zeigt keinerlei Probleme an und daher würde ich eben nicht darauf wetten das ein Wechsel der SSD hier die Lösung bringt.

Da die smartctl Werte wie oben beschrieben keinen Fehler angezeigt haben, habe ich einfach mal das System neu installiert, dieses mal als ZFS System. Und siehe da, erneut I/O errors. Dieses mal bootet das System aber immerhin noch.
1578434028622.png
 
Zurück
Oben