HPE Apollo ProLiant XL450 Gen10 - dritter Mainboardtausch steht bevor

djs3ns3

Cadet 1st Year
Registriert
März 2013
Beiträge
11
Guten Morgen zusammen,

ich würde gerne eure Meinung zu folgendem Fall wissen:

Storage: HPE Apollo ProLiant XL450 Gen10
System läuft seit 2019 und hat bisher knapp 30 defekte Platten gehabt (von 60).

Immer mal wieder ist das System abgestürzt und neu gestartet. Vor knapp zwei Wochen startet das System nach einem Absturz dann garnicht mehr.

iLO:
EVENT (23-Aug-2023 00:09): Uncorrectable Machine Check Exception (Processor 1, APIC ID 0x00000000, Bank 0x0000000B, Status 0xFE200000'000C110A, Address 0x00000000'03F7C0C0, Misc 0x03E02AA6'00402086).
ACTION: Update the system firmware. If the issue persists, contact support.

EVENT (23-Aug-2023 00:09): Uncorrectable Machine Check Exception (Processor 2, APIC ID 0x00000030, Bank 0x00000009, Status 0xFE200000'000C110A, Address 0x00000018'1A098500, Misc 0x01484026'00100086).
ACTION: Update the system firmware. If the issue persists, contact support.

HPE Support kontaktiert --> Board soll getauscht werden.

Nach dem Tausch des Boards lief das System 4 Tage, ist dann wieder abgestüzt und ließ sich nicht mehr starten.

iLO:
EVENT (13-Sep-2023 06:39): Server Critical Fault (Service Information: Runtime Fault, Memory, Processor 1 Memory Channels 4-6 (01h))

HPE Support kontaktiert --> Board soll erneut getauscht werden.

Nach dem zweiten Tausch des Boards lief das System genau 10 Minuten, ist dann wieder abgestüzt und ließ sich nicht mehr starten.


HPE will jetzt das Board ein drittes Mal tauschen, diesmal inkl. der CPUs.
Ich gehe jedoch nicht davon aus, dass hier besserung eintreten wird. Eher ist es meiner Meinung nach ein internes Spannungsproblem, da ich denke, dass die andauernden Platten ausfälle dadurch auch erklärt werden können.
Wir besitzen das System baugleich ein zweites mal, welches bis heute keine einzige Platte verloren hat oder irgendein Problem aufwieß.

Was denkt ihr, wo hier das Problem liegen könnte?
 
Ich tippe ebenfalls auf die CPU. Da sitzt schließlich auch der Speichercontroller für den RAM drin und genau der hat sich ja auch schon gemeldet. Wieso die Platten defekt gehen? Tun sie das wirklich (in nem anderen System mal ausgelesen?) oder meldet der Controller das lediglich? Es kann durch defekte CPUs auch schlicht dazu kommen, dass der RAID Controller irgendwelchen Quatsch meldet oder Daten auf dem Weg zur Platte korrumpiert, die Meldungen könnten dann ähnlich aussehen.

Wenn ausschließlich nur HDDs kaputt gegangen wären, hätte man mal über die Backplate oder ähnliches nachdenken können aber nicht bei den Fehlermeldungen.
 
@holdes : Danke für dein Feedback. Warten wir mal den CPU-Tausch ab, der aktuell wegen fehlender Teile natürlich nicht geplant werden kann.

Die Meldungen der Platten sind entweder "Predictive drive is failed" oder "Drive is failed".
Plattenausfälle haben wir "regelmäßig" seit Anfang 2022.
 
Vibrieren die HDDs in dem Server erheblich mehr als bei einem anderen? Seid ihr euch sicher, dass der RAID Controller in Ordnung ist? Hat der Controller die gleiche Firmware wie auf der anderen Maschine? Häufig werden solche Fehler durch Dinge erzeugt an die man nicht denkt.
 
Vibrationen sind da keine. Über den System hängt noch ein großes Storage, welches ebenfalls keine Probleme hat. Firmware war bis zum Totalausfall auf aktuellstem Stand. Nach dem ersten Boardtausch haben wir die FW ebenfalls direkt wieder angehoben.
Beim letzten tausch war das leider nicht möglich, da nach 10 Minuten schon alles zu Ende war.

Ob der Raid-Controller in Ordnung ist, kann ich nicht sagen. HPE hat in diese Richtung aber schon einiges kontrolliert und konnte nichts festtellen.
 
Dann spricht das im Grunde tatsächlich bisher ausschließlich für die CPU (oder zumindest eine schlechte HDD Charge zur Anschaffungszeit).
 
Naja du kannst ja eh nichts machen außer das was der bulgarisch/rumänische HPE Support sagt/freigibt.
Das ist komplett egal welches Troubleshooting du machst. Wenn im ILO Health Log nicht drin steht: XY ist kaputt, passiert absolut gar nichts bei HPE.
Lass das noch einmal tauschen und danach kannst du ein Austauschgerät fordern.
 
30 defekte Platten in 4 Jahren in einem System ist crazy. Ist der Raum konstant klimatisiert und die Systeme mit USV geschützt?

Die Fehler an sich sehen nach CPU aus, die Ausfallrate von 50 Prozent in 4 Jahren ist aber definitiv auch nicht normal.
 
@Tamron : Ja genau, da kann man so nichts machen.

@Mojo1987 : Der Raum ist klimatisiert, hängen an einer USV. Wie schon gesagt, alle anderen Storage/Server in dem Raum haben keine Probleme.
 
HPE will jetzt das Board ein drittes Mal tauschen, diesmal inkl. der CPUs.
Es ist sehr selten aber es kommt vor das CPUs einen defekt haben. Das habe ich in meinen 19 Jahren jetzt zwei mal erlebt.
Warte mal deren Tausch ab, danach könnte das System stabil laufen.

Das so viele Platten ausfallen muss aber nicht unbedingt damit zu tun haben. Würde hier aber abwarten bevor man einen zweiten Fehler jagt der vielleicht mit dem ersten zusammen hängt.
 
Das erinnert mich an einen "Server des Theseus" (angelehnt an das Schiff des Theseus) den ich vor Jahren mal unter der Fuchtel hatte...

Die Kiste lief von Anfang an nicht zuverlaessig.
Erster Schritt des Supports: Board Tausch. Dann RAID Controller Tausch. RAM Tausch. Zweiter Board Tausch. Festplatten Tausch. Zweiter RAM Tausch.
Bis dann irgendwann mal einem der Supporter die CPU Revision aufgefallen ist: Die hatte einen bekannten Bug.
CPUs getauscht: Der Server lief bis an sein Lebensende absolut problemlos.
 
  • Gefällt mir
Reaktionen: konkretor, Skysnake und djs3ns3
djs3ns3 schrieb:
Warten wir mal den CPU-Tausch ab, der aktuell wegen fehlender Teile natürlich nicht geplant werden kann
Was sagen denn eure SLAs? Bei der Menge an Ausfällen hätte ich das System als broken definiert und nen kompletten Ersatz gefordert wenn Sie es nach dem zweiten MB Tausch nicht hinbekommen haben. Die können ja gerne so lange in ihrem Lab debuggen wie Sie wollen aber doch nicht in meiner produktiven Umgebung.

Tamron schrieb:
Wenn im ILO Health Log nicht drin steht: XY ist kaputt, passiert absolut gar nichts bei HPE.
Naja, so pauschal kann man das nicht sagen. Je kleiner man ist, desto schwieriger ist das aber natürlich.

Mojo1987 schrieb:
Die Fehler an sich sehen nach CPU aus, die Ausfallrate von 50 Prozent in 4 Jahren ist aber definitiv auch nicht normal
Also es sind definitiv RAM Fehler. Da tauscht man eigentlich erst die Riegel. Dann wäre ein Klassiker der Kreuztausch der CPU im System bei Dual-Sockel oder mit nem anderen System.

Danach dann MB tauschen

Dann CPU Tausch.

Und wenn das noch immer nicht hilft dann das komplette System also Chassi. Da kann man dann aber auch einfach ein Neues hinstellen.

Masamune2 schrieb:
Es ist sehr selten aber es kommt vor das CPUs einen defekt haben. Das habe ich in meinen 19 Jahren jetzt zwei mal erlebt.
Dann betreibst du nicht viele Systeme. Ich würde sagen pro 1000 CPU Jahren hast du mindestens eine kaputte CPU. Oft ist es aber gar keine wirklich kaputte CPU sondern eine schlecht sitzende CPU. Vergammelte WLP ist auch immer mal wieder ein Grund.

Kaputte CPUs kommen definitiv vor. Deswegen haben die Anbieter an sich auch nen Stapel an CPUs rumliegen.

Masamune2 schrieb:
Warte mal deren Tausch ab, danach könnte das System stabil laufen.
Ja, könnte sein, muss es aber nicht. Bei nem storage System hätte ich denen schon längst den Arsch aufgerissen. 50% Ausfall bei nur 60 Platten in 4 Jahren??? Das heißt du hast jeden Monat ne kaputte Platte! Das ist ja massivst Rebuild Load für das System. Zudem ist die Wahrscheinlichkeit für nen doppelten Ausfall ja gigantisch.... den storage könnten Sie echt wieder mitnehmen.

Ich hatte mal bei nem 3 PB Netto Storage mal Ausfallraten von ca 1-2 Platte die Woche. Da wurde eskaliert. War am Ende ne defekte Firmware der HDD.

Bei großen Systemen hast du den Vorteil das du es schneller siehst wenn du Abweichungen von der Norm hast weil du einfach ne bessere Statistik hast. Aber bei 50% Ausfall müssen bei jedem die Alarmglocken klingeln. Selbst bei 20% schon bei nur 60 Platten.
 
  • Gefällt mir
Reaktionen: konkretor
Zurück
Oben