io-error von OMV-VM unter Proxmox

TorenAltair · 1. Mai 2022

Hallo,

vielleicht hatte ja schonmal jemand folgendes Problem und kann mir helfen:

Ich habe openmediavault (OMV) als VM unter Proxmox laufen. Die Sicherung gestern früh lief noch fehlerfrei durch und heute hat mir das System einen Fehler gemeldet wodurch ich gesehen habe, dass die VM nicht mehr richtig läuft.
In der Proxmox-Oberfläche steht: Status: io-error bei der OMV-VM
Über die Console sehe ich zwar den Login-Schirm aber keine Tasteneingabe wird erkannt.

Proxmox als auch OMV wurden neu gestartet (mehrfach), Proxmox ist auf neuestem Patchstand (Linux 5.13.19-6-pve #1 SMP PVE 5.13.19-15 (Tue, 29 Mar 2022 15:59:50 +0200) PVE Manager Version pve-manager/7.1-12/b3c09de3)

Alle anderen VMs laufen fehlerfrei.

System ist ein Ryzen 3200G mit 32GB RAM und B450-Mainboard. Platten werden alle als fehlerfrei erkannt (SSD für Systeme, 10GB HDDs für ZFS-Z1). ZFS ist ein fehlerfreiem Zustand.

Ich habe die Vermutung, dass es am freien Restspeicherplatz im ZFS-Pool liegt, der unter 1 TB gefallen ist. Warum das aber den Start der VM blockiert, wäre mir nicht so klar.

DonConto · 1. Mai 2022

Poste doch mal den entsprechenden Auszug aus dem Syslog oder dmesg von der Proxmox CLI und was sagt smartctl -a /dev/sdX für das Laufwerk?

Ich hatte sowas Anfang April auch. Alle VMs liefen noch, aber das Backup brach immer bei 75% ab. Die Smartwerte deuteten dann auf eine sterbende Platte hin.

TorenAltair · 1. Mai 2022

Denke nicht, dass es an der Hardware liegt. Vermutlich müsste ich die für OMV zugeordnete VM-Disk als NTFS unter Proxmox mounten und von Hand 1-2 TB löschen.

Code:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0004   128   128   054    Old_age   Offline      -       108
  3 Spin_Up_Time            0x0007   145   145   024    Pre-fail  Always       -       596 (Average 525)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       10
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000a   100   100   067    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0004   128   128   020    Old_age   Offline      -       18
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       4850
 10 Spin_Retry_Count        0x0012   100   100   060    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       209
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       209
194 Temperature_Celsius     0x0002   171   171   000    Old_age   Always       -       38 (Min/Max 12/63)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

Code:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0004   130   130   054    Old_age   Offline      -       108
  3 Spin_Up_Time            0x0007   185   185   024    Pre-fail  Always       -       430 (Average 281)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       53
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000a   100   100   067    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0004   128   128   020    Old_age   Offline      -       18
  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       17775
 10 Spin_Retry_Count        0x0012   100   100   060    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       53
 22 Helium_Level            0x0023   100   100   025    Pre-fail  Always       -       100
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       779
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       779
194 Temperature_Celsius     0x0002   180   180   000    Old_age   Always       -       36 (Min/Max 12/54)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

Code:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0004   131   131   054    Old_age   Offline      -       106
  3 Spin_Up_Time            0x0007   151   151   024    Pre-fail  Always       -       437 (Average 432)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       56
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000a   100   100   067    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0004   128   128   020    Old_age   Offline      -       18
  9 Power_On_Hours          0x0012   097   097   000    Old_age   Always       -       21535
 10 Spin_Retry_Count        0x0012   100   100   060    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       56
 22 Helium_Level            0x0023   100   100   025    Pre-fail  Always       -       100
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       934
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       934
194 Temperature_Celsius     0x0002   185   185   000    Old_age   Always       -       35 (Min/Max 12/52)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

Update: Ich hänge gerade daran, Daten aus der VM-Disk zu löschen.
Folgende Sachlage:
mit kpartx -av /dev/zvol/ZFSPool1/vm-100-disk-0 konnte ich die VM mappen
Einhängen mit mount /dev/mapper/vm-100-disk-0p1 /mnt/tempo scheitert jedoch mit
mount: /mnt/tempo: can't read superblock on /dev/mapper/vm-100-disk-0p1.

Wenn ich das ganze als Read-Only einhänge mit mount -o ro,noload /dev/mapper/vm-100-disk-0p1 /mnt/tempo klappt es, ich kann auf alles zugreifen, nur natürlich nichts löschen, um zu schauen, ob das den Fehler behebt.

Ich nehme mal an, dass das Dateisystem nicht in ordentlichem Zustand ist, weil die OMV-VM ja gecrasht ist/nicht mehr richtig startet. Wie kann ich das Dateisystem prüfen/in sauberen Zustand versetzen in der gemappten VM-Disk?

b1nb4sh · 2. Mai 2022

schon einmal eine VM angelegt mit einer Live Distribution + ZFS Erweiterung und dann die Disk der VM zugeordnet?
Dann kannst den Pool mounten und auf Fehler durchsuchen, aber es würde mich wundern, wenn die VM abschmiert und dann ZFS es nicht wieder beheben kann.
Ich muss aber auch sagen, dass ich kein Fan von OMV bin, da die Plugins usw... echt ein Pfusch ist, aber das ist nur meine Meinung.

TorenAltair · 2. Mai 2022

@b1nb4sh Ist einfacher, jau.. Wenn man den Wald vor lauter Bäumen nicht sieht.
Die OMV-VM startet auch läuft auch wieder normal sobald ich die Daten-(ZFS)-Disk aushänge. In beiden Fällen aber das Problem, dass es zum Status: io-error kommt sobald ich das Dateisystem wiederrum mounte. Laut Anzeige ist die ZFS-Disk voll und das erzeugt das Problem.
Ich müsste also Zugriff auf den Diskinhalt schreiben bekommen um einfach ein paar Dateien zu löschen.

b1nb4sh · 3. Mai 2022

@TorenAltair
Gibt ein paar Workarounds für diesen Fall
Link

TorenAltair · 3. Mai 2022

Update: Ich konnte es weiter eingrenzen: Da ZFS für OMV ja nicht sichtbar ist, sondern als virtuelle Festplatte existiert, bin ich mal in die Shell von OMV und habe dort einige Sachen mit Dateisystemoperationen versucht. Alle laufen letztendlich dahin raus, dass sobald auf das Journal von ext4 zugegriffen wird, die ganze Maschine freezed. Auch das Ausschalten des Journals mit tune2fs hat den gleichen Effekt.

SeppoE · 3. Mai 2022

Ich hatte mit ZFS unter OMV bei meinem Umzug letztens keine guten Erfahrungen gemacht. Hast du schon versucht den ZFS Verbund in einer FreeBSD Maschine zu importieren? Xigmanas würde da schon bordmittel mitbringen.

Suche

io-error von OMV-VM unter Proxmox

TorenAltair

Rear Admiral

DonConto

Commander

TorenAltair

Rear Admiral

b1nb4sh

Lieutenant

TorenAltair

Rear Admiral

b1nb4sh

Lieutenant

TorenAltair

Rear Admiral

SeppoE

Lt. Commander Pro

Ähnliche Themen