HWINFO: PCIe-Busfehler

RustyGunFighter

Lt. Junior Grade
Registriert
Okt. 2007
Beiträge
493
Hallo!

Vor Kurzem habe ich das aktuelle BIOS meines Mainboards installiert, um die (fragwürdigen?) Vorzüge von Intels Standardvorgaben zu erleben. Ziel war es eigentlich, meine CPU ggf. zu entlasten, um das allseits beliebte Degrading zu vermeiden. Allerdings hab ich festgestellt, dass das neue BIOS eine Verschlimmbesserung zu sein scheint. Im Grunde erwog ich bereits ein Backflash, aber ich weiß eben nicht, ob "irgendwo intern" doch Verbesserungen stattfanden. Das scheint ja niemand so genau zu wissen. Ich lese und höre nur 1000 Vermutungen im Netz.

Sei's drum. Ich hab's gemacht und ... Bauklötze gestaunt.
Ich nahm doch ernsthaft an, mit Intels Vorgaben, gibt es keine Ausreißer mehr. Aber was entdecke ich? Vcore bis 1,5+ ... bei auch nur mittlerer Last steigt die Leistungsaufnahme bis zum (neu definierten) PL von 253 Watt. Temperaturen also regelmäßig bis 80+ (trotz 420er AIO!). Also das ist schon ne ziemliche Sch****! Sorry Intel - verkackt. Mal wieder. :(

In der Folge versuchte ich wieder (wie ich das früher gewöhnt war) mittels Optimierung der LoadLine-Calibration was rauszuholen. Klappte früher - geht jetzt aber irgendwie überhaupt nicht mehr vernünftig.

ABER: Eher aus einer (miesen) Laune heraus, versuchte ich es zum Spaß mal mit primitivem Undervolting. Also Offset gesetzt. Das geht bis - 0,130 V (theoretisch) super. Theoretisch deshalb, weil ich derzeit nicht weiß, wo das Problem liegt. Ich habe alle möglichen Tests durchgeführt (Benches, Games, Stresstests) - alles läuft super. Keine Abstürze, Wheas etc.

Doch heute fiel mir auf, dass ich - über den Tag verteilt - sporadisch auftretende Whea-Fehler (HWINFO) bekomme. Allerdings nicht von der CPU (weshalb ich zunächst mal vermute, dass es nicht am Offset liegt), sondern vom PCIe-Bus. Das heißt, ich erhalte - nicht direkt reproduzierbar - bis zu 3 PCIe-Busfehler pro Tag. Ich kann nicht sagen woran es liegt. Kann es auch nicht durch "heavy use" provozieren.

In der Ereignisanzeige finde ich dazu folgende Einträge:

Es ist ein korrigierter Hardwarefehler aufgetreten.

Komponente: PCI Express Root Port
Fehlerquelle: Advanced Error Reporting (PCI Express)

Primär Bus:Gerät:Funktion: 0x0:0x6:0x0
Sekundär Bus:Gerät:Funktion: 0x0:0x0:0x0
Primärer Gerätename: PCI\VEN_8086&DEV_A74D&SUBSYS_88821043&REV_01
Sekundärer Gerätename:

Nun meine Frage an euch: Habt ihr eine Idee was das ist?
In meinem - nunmehr sechstägigen - Daily-Use stelle ich keine Beeinträchtigungen fest. Allerdings hinterlässt das ein ungutes Gefühl.

Hier mein System:
  • Prozessor (CPU): 14900K
  • Arbeitsspeicher (RAM): G.Skill DDR5-6400 C32 2x48
  • Mainboard: Asus ProArt Z790
  • Netzteil: bequiet Dark Power 850
  • Gehäuse: bequiet Shadow Base 800 DX
  • Grafikkarte: RTX 4080 FE
  • SSD: 990 Pro, 980 Pro, 860 Pro
 
du solltest die Fehler ernst nehmen auch wenn du, nicht unmittelbar etwas davon bemerkt

PCI Fehler sind nicht weniger kritisch als RAM Fehler usw.
 
UV testweise wieder herausnehmen und schauen, ob es dann immer noch der Fall ist. Mit dem neuen Bios hat sich an der VCore nichts geändert. Hier sind andere Spannungen korrigiert worden. GGf. auch welche, die kurzzeitig hohe Spitzen erreichen und auch auf langer Sicht schädlich sein können. Solche Spannungsspitzen lassen sich auch oft gar nicht auslesen.

Mir scheint aber ein UV von 130mV etwas viel. Eine Instabilität muss sich nicht immer mit einem Absturz oder Bluescreen zeigen. Manchmal kann solch eine Instabilität so gering ausfallen, dass nur Fehler erzeugt werden. Das kann sich dann auch auf manche Funktionen etwas komisch auswirken, die dann nicht mehr fehlerfrei laufen. Manchmal stürzen auch nur Programme ab oder lassen sich nicht starten. Mit Benchmarks können Punkte geringer ausfallen, weil Fehler wieder korrigiert werden müssen und deshalb Leistung kostet.

Was das Bios Update selbst angeht, läuft mein 13900K Prozessor mit einem Carbon Mainboard von MSI problemlos. Diesen Default mit 253 Watt habe ich übernommen, da ich mit meinen Games und Anwendungen solch ein Limit nicht erreiche.
 
LiniXXus schrieb:
UV testweise wieder herausnehmen und schauen, ob es dann immer noch der Fall ist. Mit dem neuen Bios hat sich an der VCore nichts geändert.
Ja, mach ich auf jeden Fall.
Aber, dass sich keine Spannungen der VCore geändert haben sollen, halte ich für ein Gerücht. Vorher hatte ich Vcore_max ~ 1,456 V. Nach dem Bios-Update 1,5+ <-- jeweils stock!

LiniXXus schrieb:
Mir scheint aber ein UV von 130mV etwas viel.
Na ja. Das ist sicher relativ. ;)
Das ist mein - getesteter - Sweetspot für gute Leistung bei möglichst niedriger Verlustleistung/VCore. Selbst damit sehe ich dann und wann noch einen Maximalwert der VCore bei 1,421 V. Die Regel im Daily-Use sind 1,356 V. Mit dieser Konstellation könnte ich leben. Der Maximalwert wird, soweit ich das beobachten konnte, nur bei Programmstarts usw. erzeugt, also immer nur kurz anliegend.

LiniXXus schrieb:
Was das Bios Update selbst angeht, läuft mein 13900K Prozessor mit einem Carbon Mainboard von MSI problemlos. Diesen Default mit 253 Watt habe ich übernommen, da ich mit meinen Games und Anwendungen solch ein Limit nicht erreiche.
Ich hatte ja auch alles stock, um das eben realistisch nach Intels Vorgaben zu testen. Aber das ist totaler Käse. Schau dir mal die CPU-Temperaturen im Mittel aller Nutzungsszenarien an. Viel zu heiß. Die Verlustleistung liegt (u.a. wegen der relativ hohen VCore) ständig nahe der Maximalgrenze von (default) 253 Watt. Ich hab schon PL1 auf die "klassischen" 125 Watt gesetzt. Denn das war ja mal beim 13900K früher der Standard. Da ein 14900K quasi dasselbe Dinge ist (nur noch bissl höher gezüchtet), erscheint mir das sinnvoll.
 
Auch ich habe dieses neue Update mit Microcode 0x129 auf dem Mainboard und hatte keine Probleme bisher. Aber auch vorher war da nichts zu bemerken. Zudem blieben VCore usw. auf gleichem Level für eine CPU.
ABER ich habe nur Intel Default Settings drin, Ausnahme: SVID Behavior, da habe ich AUTO drin und nicht wie manch andere "IntelFailSafe". Dadurch wird mein SVID wohl auf "trained" gesetzt.

Zum TE, wenn Du durch das aktuelle Bios wesentlich höhere VCore hast, dann hattest Du vor dem Update wahrscheinlich andere Einstellungen im UEFI gesetzt bzw. waren Default-Einstellungen anders.
Es wäre wissenswert welches UEFI Du vor dem Update drauf hattest.

Das aktuelle Update des Microcode soll eigentlich die max. Vid (angeforderte Spannung) auf 1.55V begrenzt, also das da nicht mehr geliefert (VCore) werden, was bei einigen Usern vor dem update der Fall war.
Aber das soll nur funktionieren, wenn man die Intel Deauflt Settings nutzt. Nutzt man das Asus Advanced OC Profile, siehts wieder anders aus, da es dabei um OC geht, was bekanntlich alles wieder aushebelt.

Durch die Intel Default Settings (für Deine CPU gibt es da ja noch zusätzlich "Perfromance" und "Extreme" zur Auswahl) wurden sicherlich CEP, LLC, SVID und auch IA TDC Current Limit neu gesetzt. Dadurch kann das schon passieren, dass Du zu früher eine höhere Vid und auch VCore aktuell hast. Muss aber nicht bedeuten, dass Deine CPU bereits fehlerhaft ist und das aktuelle update das versucht via höheren Spannungen auszugleichen.

Ich würde im UEFI mal das versuchen einzustellen, wass Du vorher so eingestellt hattest, falls Du das noch weißt.
Ich habe nachfolgendes eingestellt (entweder per Default bzw. manuell):
Perfromance Preferences: Intel Default Settings (setzte PL1/Pl2 auf 253W und ICCMAX auf 307A)
Intel Default Settings: Performance (bei meiner COU gibt es kein "Extreme" zur Auswahl)
SVID Behavior: AUTO
LLC: Auto (setzt bei mir level 3)
IA TDC Current Limit: Intel Default's

Zusätzlich XMP für den RAM, welcher dadurch auf 5600MT/s läuft (mehr kann mein RAM nicht).

Durch die Intel Default Settings wird auch CEP enabled.

Vielleicht solltest Du aber mal mit XTU austesten was bei dem neuen UEFI machbar ist bevor Du im UEFI direkt was einstellst, damit keine WHEA Logger-Fehler mehr erfolgen, da Du die ja vor dem Update nicht hattest.

PS:
Ich habe bei mir bisher mit Intel Defaults max. VCore 1.305 V laut HwInfo (inkl. IDLE bei 24Std PC aktiv). Bei Nutzung von Asus AI OC (was ich früher mal getestet hatte, waren es max. VCore 1.46V, soweit ich mich erinnere. Dabei taktete aber auch ein Core bis 6Ghz und solche Späße.
 
Zuletzt bearbeitet:
RustyGunFighter schrieb:
Aber, dass sich keine Spannungen der VCore geändert haben sollen, halte ich für ein Gerücht. Vorher hatte ich Vcore_max ~ 1,456 V. Nach dem Bios-Update 1,5+ <-- jeweils stock!
Wir haben hier zwei 13900K Prozessoren und mit dem neuen Bios Update hat sich nichts geändert.

Keine Ahnung wie du die Spannung ermittelst, aber diese sollte unter Last ausgelesen werden, da sie je nach Last unterschiedlich abfällt. Die Spannung im Lastwechsel oder mit Idle ohne Last hat daher nichts zu sagen. Kann mich aber nur auf unsere Prozessoren beziehen und auch in unserem Fall mit MSI Boards, da jeder Mainboard-Hersteller seine eigene Suppe kocht. Zudem fallen Prozessoren bezüglich ihrer Güte anders aus.

Als Vergleich habe ich zum Beispiel MW3 genommen.

Mein Prozessor erreicht um die 1,400 - 1,440v und der andere Prozessor im selben Game 1,345 - 1,380v. Dieser Prozessor hat aber auch vor dem Update unter Last eine geringere Spannung anliegen und das hat auch mit der Güte des Prozessors was zu tun. Diese Angaben bezüglich der Spannung beziehen sich mit beiden Prozessoren unter Last.

RustyGunFighter schrieb:
Na ja. Das ist sicher relativ. ;)
Das ist mein - getesteter - Sweetspot für gute Leistung bei möglichst niedriger Verlustleistung/VCore.
Es lässt sich keine Stabilität austesten, sondern immer nur eine Instabilität und selbst dann hängt es von der Last ab. Zum Beispiel kann dein UV für alles, was du nutzt stabil genug sein und für Stresstests reicht es dann ggf. nicht mehr. Genauso kann es mit Stresstest stabil sein und dann im Lastwechsel, sobald die VCore unterschiedliche Lastzustände bekommt, instabil werden. Wie bereits geschrieben kann auch ein System nur geringfügig instabil sein und dann kann es auch zu solch einem Verhalten führen.

Daher solltest du jedenfalls Gegentesten und ggf. auch die Spannung etwas erhöhen. In meinem Fall würde mein Prozessor auch mit - 120 mV laufen, aber nicht mehr 100 % stabil und das merke ich dann auch bereits auf dem Desktop. UV muss auch etwas ausgetestet werden und mehr kann ich dazu nicht aussagen.

RustyGunFighter schrieb:
Ich hatte ja auch alles stock, um das eben realistisch nach Intels Vorgaben zu testen. Aber das ist totaler Käse.
Für mich ist das kein Käse, es läuft alles wie ich es bestimme, daher hängt alles letztendlich davon ab, was ich haben möchte und was für Anwendungen ich nutze.

RustyGunFighter schrieb:
Schau dir mal die CPU-Temperaturen im Mittel aller Nutzungsszenarien an.
Habe eine custom Wakü verbaut, daher habe ich mit den Temperaturen keinerlei Probleme. Ich muss meinen Prozessor schon auf 340 Watt hochbekommen, damit einzelne Kerne in das Temperaturlimit rennen. Daher sind in meinem Fall 253 Watt kein Problem. Meine Games und Anwendungen erreichen auch solch eine Leistungsaufnahme nicht.

inge70 schrieb:
Zusätzlich XMP für den RAM, welcher dadurch auf 5600MT/s läuft (mehr kann mein RAM nicht).
Meiner läuft sogar auf 6600 MHz (XMP-Profil) problemlos. Mein Arbeitsspeicher ist aber auch darauf ausgelegt. Aber das hat ja nichts zu bedeuten, da es auch auf den Controller (CPU) mit ankommt.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: inge70
Hab das gleiche Problem unter Linux, steht alle 3-4 Std in den Logs.

Ist mein 2ter 14900K, er ist definitiv aktuell noch in Ordnung. Meiner Meinung nach ein fehlerhaftes Microcode Update. Ab einer bestimmten UEFI Version traten die Fehler erst auf.

Es steckt eine 4090 im pci Slot.
 
inge70 schrieb:
ABER ich habe nur Intel Default Settings drin, Ausnahme: SVID Behavior, da habe ich AUTO drin und nicht wie manch andere "IntelFailSafe". Dadurch wird mein SVID wohl auf "trained" gesetzt.
Hm ... hab da Intel Failsafe drin - eben standard.

inge70 schrieb:
Zum TE, wenn Du durch das aktuelle Bios wesentlich höhere VCore hast, dann hattest Du vor dem Update wahrscheinlich andere Einstellungen im UEFI gesetzt bzw. waren Default-Einstellungen anders.
Es wäre wissenswert welches UEFI Du vor dem Update drauf hattest.
Wie oben geschrieben - Vergleich ist stock - war übrigens BIOS 2101. Also das letzte bevor der Wahnsinn losging. :D

inge70 schrieb:
Das aktuelle Update des Microcode soll eigentlich die max. Vid (angeforderte Spannung) auf 1.55V begrenzt, also das da nicht mehr geliefert (VCore) werden, was bei einigen Usern vor dem update der Fall war.
Aber das soll nur funktionieren, wenn man die Intel Deauflt Settings nutzt. Nutzt man das Asus Advanced OC Profile, siehts wieder anders aus, da es dabei um OC geht, was bekanntlich alles wieder aushebelt.
Natürlich reden wir hier die ganze Zeit nicht von ASUS OC Profil. Hatte ich aber auch geschrieben. ;)

inge70 schrieb:
Ich habe bei mir bisher mit Intel Defaults max. VCore 1.305 V laut HwInfo (inkl. IDLE bei 24Std PC aktiv). Bei Nutzung von Asus AI OC (was ich früher mal getestet hatte, waren es max. VCore 1.46V, soweit ich mich erinnere. Dabei taktete aber auch ein Core bis 6Ghz und solche Späße.
Na ja ... du hast aber einen 13700K, den kannst du nicht mit einem 14900K vergleichen. Das meiner sich da bissl mehr "gönnt" ist auch klar.
Ergänzung ()

Nachtrag: Was die Temperaturen betrifft ... vielleicht habe ich es auch ein wenig mit meinen "Silent"-Einstellungen übertrieben, fällt mir gerade auf. :D
 
kenn den "Fehler" von meinem alten 12900k auf nem Gaming X DDR4

behoben durch

CMD als Admin -> bcdedit /set pciexpress forcedisable

Rechner neustarten, glücklich sein

sollte sich nichts ändern, Vorgang rückgängig machen mit "bcdedit /set pciexpress Default"
 
RustyGunFighter schrieb:
Nachtrag: Was die Temperaturen betrifft ... vielleicht habe ich es auch ein wenig mit meinen "Silent"-Einstellungen übertrieben, fällt mir gerade auf. :D
Das ist auch der Unterschied zwischen einer AIO oder Luftkühlung und meiner custom Wakü, denn ich habe 1x 420 + 240 intern eingebaut und extern noch einen großen Mora. Daher kann ich auch mit Silent niedrige Temperaturen halten. :)
Ergänzung ()

PS; natürlich kann dein Problem mit der Bios Version was zu tun haben, aber da du UV angesprochen hast, habe ich nur darauf hinweisen wollen, es mal testweise ohne zu versuchen. Ansonsten wirst du schon wissen, wie du dein UV gut hinbekommst. :)

In meinem Fall nutze ich auch ein anderes Mainboard und auch ein anderes Bios.
 
  • Gefällt mir
Reaktionen: inge70
sTyLzYo schrieb:
kenn den "Fehler" von meinem alten 12900k auf nem Gaming X DDR4

behoben durch

Du schaltest damit entweder das Logging der Fehler ab oder die Fehlerkorrektur/Fehlererkennung selbst. Der Fehler wird dennoch auftreten.

Was willst du damit bezwecken?
 
  • Gefällt mir
Reaktionen: inge70
RustyGunFighter schrieb:
Hm ... hab da Intel Failsafe drin - eben standard.
Setze es mal testweise auf "AUTO". Damit machst auch nix falsch und bleibst dennoch bei den Intel Stadards. IntelFailSafe, was eigentlich zum baseline gehört, empfielt Intel eigentlich nur, wenn die CPU bereits Instabilitäten aufwies. Zumindest hatte ich das so verstanden, als darüber im Mai/Juni berichtet wurde.

RustyGunFighter schrieb:
Wie oben geschrieben - Vergleich ist stock - war übrigens BIOS 2101. Also das letzte bevor der Wahnsinn losging. :D
OK, da gab es diese ganzen Intel Defaults noch nicht und CEP wurde glaube ich deaktiviert.
RustyGunFighter schrieb:
Natürlich reden wir hier die ganze Zeit nicht von ASUS OC Profil. Hatte ich aber auch geschrieben. ;)
:D
RustyGunFighter schrieb:
Na ja ... du hast aber einen 13700K, den kannst du nicht mit einem 14900K vergleichen. Das meiner sich da bissl mehr "gönnt" ist auch klar.
Ist mir klar bezüglich i7-13700K vs. I9-14900K.
Hatte sie lediglich als Beispiel gebracht, was bei mir so eingestellt ist.
RustyGunFighter schrieb:
Ergänzung ()

Nachtrag: Was die Temperaturen betrifft ... vielleicht habe ich es auch ein wenig mit meinen "Silent"-Einstellungen übertrieben, fällt mir gerade auf. :D
Wäre möglich, aber dadurch sollte dieser PCIe-Fehler eher nicht erfolgen, da Du denn doch vor dem Update nicht hattest.

Aber Du scheinst nicht der Einzige zu sein, dem das neue Microcode-update da in die Quere schießt. Im Asus Rog-Forum gab es dahingend einige Meldungen, die alle über höhere Spannungen in Richtung 1.5V hatten aber keiner hatte einen PCIe-Fehler.
 
RustyGunFighter schrieb:
Allerdings nicht von der CPU (weshalb ich zunächst mal vermute, dass es nicht am Offset liegt), sondern vom PCIe-Bus.
Der PCIe-Bus endet(/startet - wie mans nimmt) aber in deiner CPU - also klar kann die CPU die Ursache für die Fehler sein und halte ich sogar durchaus für wahrscheinlich.
 
  • Gefällt mir
Reaktionen: AndyMutz, inge70 und JumpingCat
Jop, passt für mich zum Degading-Thema des Ring-Busses, welches Buildzoid vermutete.
 
Stimmt, denn ist der Prozessor bereits vorgeschädigt, wird der Fix nichts mehr bringen. Aber laut TS soll dieses Problem erst mit dem Fix dazu gekommen sein. Daher würde ich erneut die alte Bios Version mit Stock austesten, um ein Problem mit der Bios Version selbst ausschließen zu können.
 
  • Gefällt mir
Reaktionen: inge70 und qiller
LiniXXus schrieb:
Wir haben hier zwei 13900K Prozessoren und mit dem neuen Bios Update hat sich nichts geändert.

Keine Ahnung wie du die Spannung ermittelst, aber diese sollte unter Last ausgelesen werden, da sie je nach Last unterschiedlich abfällt. Die Spannung im Lastwechsel oder mit Idle ohne Last hat daher nichts zu sagen. Kann mich aber nur auf unsere Prozessoren beziehen und auch in unserem Fall mit MSI Boards, da jeder Mainboard-Hersteller seine eigene Suppe kocht. Zudem fallen Prozessoren bezüglich ihrer Güte anders aus.
Wahrscheinlich wird er das mit HWInfo ausgelesen haben. Dort wird der VCore mit geplottet. Er schreibt ja auch im weiteren text seines Posts, dass er in HWInfo die WHEA-Logger gesichtet hatte.
Somit liegt es nahe, dass er den VCore damit auch ausgelesen hat.
 
Spiel keine Rolle, die Spannung liest man unter Last aus.

Die Spannung im Lastwechsel ist uninteressant, da hier je nach Lastzustand die Spannung mit Last absackt oder ohne Last kurz nach oben ausschlägt. Das ist ja auch die Funktion mit der LLC, um diesen Lastzustand etwas entgegenwirken zu können.
Ergänzung ()

Manche Leute kennen auch nicht den Unterschied zwischen der VID und der VCore und dann wird oft fälschlicherweise die VID dazu ausgelesen.
 
Zurück
Oben