In der Regel ist der Job der X Stunden/Tage/Wochen lief kaputt. Der Betroffene Knoten wird aus dem System genommen repariert und wieder hinzugefügt.LeeSakura schrieb:Was passiert eigentlich wenn ein Bauteil kaputt geht? Steht das gesamte System dann erst mal still oder läuft das nebenher weiter? Bei derart vielen einzelnen Bauteilen könnte das ja durchaus öfters vorkommen.
Bei so riesen Maschinen wie von DoE ist das leider recht häufig der Fall. Da geht alle paar Stunden/Tage irgendwo auf dem System etwas kaputt. Daher schreiben die in der Regel Restart files. Das verbraucht aber halt auch Zeit in der man nicht sinnvolles tut. Man muss da also gut abwägen wie häufig man einen restart schreibt.
Kann so sein muss es aber nicht. Kommt drauf an wie gut saß System aufgesetzt ist und wie gut sie Hardware geschüttelt wurde.Magellan schrieb:Da darf man wohl davon ausgehen dass die privaten Cluster der Big Tech die Top10 nochmal ziemlich pulverisieren würden.
Bei AI/ML ist es eher so das man wie bei Hadoop unabhängige Aufgaben hat wo man eine Teilaufgabe einfach nochmals rechnen kann.