Probleme mit HBA passthrough (Proxmox/ESXi)

lol18

Cadet 2nd Year
Registriert
Sep. 2020
Beiträge
18
Hi!

Hatte 1x Broadcom 9300-16i im IT-mode auf einem Asus Prime Z790-P mit 13600k im Einsatz in Proxmox, durchgeleitet in eine Windows Server 2022 vm. Alles lief wunderbar.


Habe das Board getauscht gegen ein Z790 Gigabyte Aorus Elite AX, Hardware sonst gleich. Keine Neuinstallation.


Plötzlich trat das Problem auf, dass der File transfer nach ca. 6GB Schreiben auf eine HBA Platte abbricht. Reproduzierbar, egal welche Platte. Im Syslog sehe ich haufenweise Fehler "pcieport 0000:00:1d.0: AER: Multiple Uncorrected (Non-Fatal) error received: 0000:06:09.0"

Also neuen HBA gekauft, ausgetauscht, Problem bleibt. Neues Kabel bestellt und die Platten direkt an den HBA angeschlossen, Problem bleibt. Proxmox neu installiert, VM neu erstellt, Problem bleibt.

Habe dann mal Windows 11 und Windows Server 2022 direkt ausprobiert (ohne Proxmox), und hier keine Probleme.

Zurück zu Proxmox: habe eine Ubuntu VM erstellt.. und interessanterweise auch keine Probleme.

Habe dann mit ESXi 8 anstatt Proxmox getestet. Windows Server 2022 vm erstellt. Dort tritt beim Initialisieren der Festplatten ein Fehler auf. Die disk console wird unresponsive, und im Event Manager sehe ich Fehler "the description for event id 44802 from source lsi_sas3i cannot be found".


Habe das Board zurückgetauscht, also jetzt wieder Asus Prime Z790-P drin.

Habe es zuerst mit ESXi 8 probiert, aber der Fehler beim Initialisieren der disks bleibt bestehen.

Dann habe ich es mit einer neuen Proxmox installation probiert, und die Probleme waren weg.
Dann habe ich die SSD mit der alten Proxmox Installation (von vor dem ersten Tausch) eingesetzt, und auch hier keine Probleme mehr in einer Windows Server 2022 vm.


Hat jemand eine Erklärung dafür..

a) dass ich mit dem Gigabyte board in Proxmox/Windows Server 2022 die Probleme hatte?
b) dass ich mit beiden Boards in ESXi/Windows Server 2022 Fehler beim Initialisieren der disks bekomme?


Also es läuft nun wieder zum Glück alles wie es soll, aber diese Fragem beschäftigen mich noch..
 
Hi, zu a: Jeder Hersteller macht seine Aufteilung anders, spezielle Bios/UEFI Einstellungen für z.b. IOMMU, PCIe Lanes usw. falsch/anders gesetzt.

Es kann auch sein, dass der Controller z.b. nicht mit dem Mainboard Kompatibel ist.
Kenne ich so auch von meinen div. SAS 92xx Controllern und z.b. HP Elitedesk 800G4.

b: ESXi ist in der Wahl der Hardware nochmal ganz speziell. Grundsätzlich ist jede Consumer Hardware Mal Roulette ob es überhaupt geht. Wenn es geht, kann es sein, dass Treiber für spezielle Hardware fehlt.
Wenn dann oben drauf noch ein Windows Server 2022 soll, dass zwar mit normalen Windows 11 Treibern läuft, aber nun auch kein großer Freund von Consumer Hardware ist, kann das doppelt schief gehen.

Proxmox als Linux mit custom Kernel ist da wesentlich Hardwarefreundlicher.

Ob nun Asus oder Gigabyte für das Vorhaben besser ist, weiß ich nicht und das Fass mach ich gar nicht erst auf.

Ich tippe aber wirklich auf eine Inkompatibilität zwischen Controller und Mainboard.
Warum hast du denn das Board getauscht wenns mit dem Asus lief?
 
  • Gefällt mir
Reaktionen: s0ja
flo36 schrieb:
Warum hast du denn das Board getauscht wenns mit dem Asus lief?
Es lag ein Defekt vor.

flo36 schrieb:
Ich tippe aber wirklich auf eine Inkompatibilität zwischen Controller und Mainboard.
Dann hatte ich mit dem Griff zum Asus board damals wohl echt Glück.


beercarrier schrieb:
Guck doch mal was Gigabyte dir sonst noch so in die IOMMU group steckt.
Werde ich das nächste Mal machen, sollte es dazu kommen (ich hoffe nicht :D), aber es ist ja schon strange, wenn es mit Ubuntu keine Probleme gab.
 
lol18 schrieb:
Es lag ein Defekt vor.
Ach ok, hatte es irgendwie befürchtet.

lol18 schrieb:
Dann hatte ich mit dem Griff zum Asus board damals wohl echt Glück.
Ja leider, das ist bei den Controllern gern Mal so. Es kann auch sein, dass solche Probleme mit neuerer Controllerfirmware plötzlich weg sind, oder nach einem Biosupdate.

Es kann auch wirklich sein, dass es eine Mainboardspezifische Einstellung gibt die irgendwas aktiviert.

lol18 schrieb:
Werde ich das nächste Mal machen, sollte es dazu kommen (ich hoffe nicht :D), aber es ist ja schon strange, wenn es mit Ubuntu keine Probleme gab.
Hab ich das oben richtig gelesen, dass Ubuntu als VM unter Proxmox lief und mit Proxmox hattest du generell ja kein Problem, lief am Asus doch zumindest auch mit Server 2022 oder?

Zu Proxmox und Ubuntu muss man halt sagen, sind zwar unterschiedliche, aber eben beides Linuxkernel mit extrem vielen Basistreibern drin. Also quasi irgendwie wirds laufen, wobei das irgendwie unter Proxmox halt stable ist. Unter Ubuntu meist auch, aber halt nicht so wie unter Proxmox :D
 
  • Gefällt mir
Reaktionen: lol18
flo36 schrieb:
Hab ich das oben richtig gelesen, dass Ubuntu als VM unter Proxmox lief und mit Proxmox hattest du generell ja kein Problem, lief am Asus doch zumindest auch mit Server 2022 oder?
Asus:
Proxmox + Windows Server 2022 = OK
Proxmox + Ubuntu = OK
ESXi 8 + Windows Server 2022 = Error bei disk init

Gigabyte:
Proxmox + Windows Server 2022 = Error nach ~6GB schreiben
Proxmox + Ubuntu = OK (augenscheinlich)
ESXi 8 + Windows Server 2022 = Error bei disk init
Windows Server 2022 (keine virt.) = OK
Windows 11 (keine virt.) = OK
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: flo36
Vielen Dank nochmal für die Zusammenfassung :)
Dann sieht es punkto ESXi nach einem klassischen "Ich mag Consumerhardware nicht" Thema aus.

Warum Proxmox mit SRV 2022 nen error ausspuckt, kann ich leider nicht sagen, vielleicht läuft der Speicher über oder es läuft bei der Kommunikation was nicht rund.

Weil wenns mit Proxmox und Ubuntu + SRV2022 und Win11 Baremetal läuft, sollts das Mainboard schonmal nicht sein. Entweder der Fehler tritt überall auf oder nirgends, soweit zumindest Mal punkto Hardware.
Wie reagiert denn Proxmox drauf wenn du die Platten dort über den Controller z.b. mit nem Z1 Raid oder sowas formatierst. Gibts fehler?
So könnte man auch das Proxmox Problem ausschließen.

Ubuntu hast du vermutlich eh als VM drauf oder doch als Container?
 
  • Gefällt mir
Reaktionen: lol18
Es kann natürlich sein das Proxmox per default andere Kernel Parameter setzt. Deren Hauptzweck ist Virtualisierung / Container. Zusätzlich können da andere Patches drin sein sowie andere sysctl Einträge anders gesetzt (z.B. swappines). Zusätzlich siehe auch von @beercarrier der Hinweis wie die iommu groups aussehen.
 
  • Gefällt mir
Reaktionen: flo36
flo36 schrieb:
Warum Proxmox mit SRV 2022 nen error ausspuckt, kann ich leider nicht sagen, vielleicht läuft der Speicher über oder es läuft bei der Kommunikation was nicht rund.
Das komische war, dass der Fehler augenscheinlich konstant nach ca. 6GB aufgetreten war, reproduzierbar, und nur beim Schreiben. Ich hatte dann auch mal Write Caching in den Windows disk settings deaktiviert, aber keine Veränderung. Hatte auch mal andere Treiber für die Controller benutzt, aber hat auch nix gebracht. Erst mit der alten SSD (Proxmox) versucht, dann mit Proxmox Neuinstallation, aber kein Unterschied. Ich dachte, dass dieser Fehler mit dem ESXi Fehler zusammenhängt, aber da wusste ich noch nicht, dass ESXi auch beim Asus board nicht geht. Habe alles in VMs getestet, nichts mit Containern. Die Platten sind jetzt wieder in Betrieb, da kann ich erstmal nichts mehr testen, solange alles funktioniert :D
 
  • Gefällt mir
Reaktionen: flo36
Zurück
Oben