Das Probleme ist dass die Marge bei 32Gt/s bzgl. channel loss immer geringer wird, und man muss schon die ganze Kombination root port, mainboard, karte betrachten. Jeder zusätzliche Stecker/riser/bump auf dem Weg kann fatal sein wenn man nicht den ganzen Kanal unter Kontrolle hat. So ein Konstrukt wie bei der FE finde ich also schon etwas abenteuerlich, wenn das ganze offensichtlich eh schon auf Kante ist.
Im Prinzip definiert die PCI-SIG eine eyescan capability mittels derer sich die SerDes Qualität per software auf der rx Seite messen lässt. Hat das mal irgendwer gemacht? Manche PHYs machen auch temperaturbedingte dynamische equalization, auch das könnte man auslesen.
Darüber hinaus kündigen sich solche Fehler ja an (Stichwort AER, correctible errors), und das OS hat die Möglichkeit per directed speed change herunterzuschalten. Linux macht das, soweit ich weiss, wobei das am Ende natürlich „geschummelt“ ist.
Das einzige was mir als „fix“ einfallen würde wären eine Änderung der presets bei der dynamischen Equalization. Die rx seite sagt hier der tx seite „stell mal was anderes ein, ich sehe hier nur Mist“.. sowas hatte ich mal bei einem Intel NIC design. Ob das geht hängt aber von der platform ab, und man muss zumindest wissen auf welcher Seite der Fehler auftritt.
Der QA bei Nvidia wird demnächst also nicht langweilig, ich kann mir vorstellen dass die erstmal fleissig Telemetriedaten sammeln müssen.
Edit: oder haben die retimer drauf? müsste man eigentlich auf dem PCB sehen. Wäre teuer, bei h100 designs scheinen sie sowas zu verwenden.