Guten Morgen zusammen,
ich würde gerne eure Meinung zu folgendem Fall wissen:
Storage: HPE Apollo ProLiant XL450 Gen10
System läuft seit 2019 und hat bisher knapp 30 defekte Platten gehabt (von 60).
Immer mal wieder ist das System abgestürzt und neu gestartet. Vor knapp zwei Wochen startet das System nach einem Absturz dann garnicht mehr.
iLO:
EVENT (23-Aug-2023 00:09): Uncorrectable Machine Check Exception (Processor 1, APIC ID 0x00000000, Bank 0x0000000B, Status 0xFE200000'000C110A, Address 0x00000000'03F7C0C0, Misc 0x03E02AA6'00402086).
ACTION: Update the system firmware. If the issue persists, contact support.
EVENT (23-Aug-2023 00:09): Uncorrectable Machine Check Exception (Processor 2, APIC ID 0x00000030, Bank 0x00000009, Status 0xFE200000'000C110A, Address 0x00000018'1A098500, Misc 0x01484026'00100086).
ACTION: Update the system firmware. If the issue persists, contact support.
HPE Support kontaktiert --> Board soll getauscht werden.
Nach dem Tausch des Boards lief das System 4 Tage, ist dann wieder abgestüzt und ließ sich nicht mehr starten.
iLO:
EVENT (13-Sep-2023 06:39): Server Critical Fault (Service Information: Runtime Fault, Memory, Processor 1 Memory Channels 4-6 (01h))
HPE Support kontaktiert --> Board soll erneut getauscht werden.
Nach dem zweiten Tausch des Boards lief das System genau 10 Minuten, ist dann wieder abgestüzt und ließ sich nicht mehr starten.
HPE will jetzt das Board ein drittes Mal tauschen, diesmal inkl. der CPUs.
Ich gehe jedoch nicht davon aus, dass hier besserung eintreten wird. Eher ist es meiner Meinung nach ein internes Spannungsproblem, da ich denke, dass die andauernden Platten ausfälle dadurch auch erklärt werden können.
Wir besitzen das System baugleich ein zweites mal, welches bis heute keine einzige Platte verloren hat oder irgendein Problem aufwieß.
Was denkt ihr, wo hier das Problem liegen könnte?
ich würde gerne eure Meinung zu folgendem Fall wissen:
Storage: HPE Apollo ProLiant XL450 Gen10
System läuft seit 2019 und hat bisher knapp 30 defekte Platten gehabt (von 60).
Immer mal wieder ist das System abgestürzt und neu gestartet. Vor knapp zwei Wochen startet das System nach einem Absturz dann garnicht mehr.
iLO:
EVENT (23-Aug-2023 00:09): Uncorrectable Machine Check Exception (Processor 1, APIC ID 0x00000000, Bank 0x0000000B, Status 0xFE200000'000C110A, Address 0x00000000'03F7C0C0, Misc 0x03E02AA6'00402086).
ACTION: Update the system firmware. If the issue persists, contact support.
EVENT (23-Aug-2023 00:09): Uncorrectable Machine Check Exception (Processor 2, APIC ID 0x00000030, Bank 0x00000009, Status 0xFE200000'000C110A, Address 0x00000018'1A098500, Misc 0x01484026'00100086).
ACTION: Update the system firmware. If the issue persists, contact support.
HPE Support kontaktiert --> Board soll getauscht werden.
Nach dem Tausch des Boards lief das System 4 Tage, ist dann wieder abgestüzt und ließ sich nicht mehr starten.
iLO:
EVENT (13-Sep-2023 06:39): Server Critical Fault (Service Information: Runtime Fault, Memory, Processor 1 Memory Channels 4-6 (01h))
HPE Support kontaktiert --> Board soll erneut getauscht werden.
Nach dem zweiten Tausch des Boards lief das System genau 10 Minuten, ist dann wieder abgestüzt und ließ sich nicht mehr starten.
HPE will jetzt das Board ein drittes Mal tauschen, diesmal inkl. der CPUs.
Ich gehe jedoch nicht davon aus, dass hier besserung eintreten wird. Eher ist es meiner Meinung nach ein internes Spannungsproblem, da ich denke, dass die andauernden Platten ausfälle dadurch auch erklärt werden können.
Wir besitzen das System baugleich ein zweites mal, welches bis heute keine einzige Platte verloren hat oder irgendein Problem aufwieß.
Was denkt ihr, wo hier das Problem liegen könnte?