check_mk, icinga, prtg, nagios etc sind alles Monitoringlösungen. Du kannst dich also alarmieren lassen, wenn ein erwarteter Zielzustand (dienst läuft) nicht mehr so ist (dienst gestoppt, pausiert, etc). Anstatt einer Alarmierung kann aber auch ein sogenannter EventHandler ausgelöst sein.
Beispiel: Ein überwachter Linux Server hat einen Apache2 Webserver. Wird dieser beendet, dann löse entsprechenden EventHandler aus. Das ist ein Script was über passende Parameter wie $hostname und $servicename sich auf den Server verbindet und den Dienst neu startet.
Achtung! Du kannst hier schnell in eine Schleife geraten und solltest die Ausführung des EventHandlers beschränken auf z.B. 3mal hintereinander, danach Alert per Mail o.ä. denn sonst denkst du alles ist gut aber im Hintergrund wird seit paar Tagen jede Minute der Webserver neu gestartet weil er ein Problem hat.
Beispiel icinga2:
https://linuxfrickeln.de/2016/07/16...-und-automatisiertes-neustarten-von-diensten/
Beispiel check_mk:
https://www.geekbundle.org/selbstheilung-mit-check_mk-event-handler/
Generell: Ein Monitoring ist kein Allheilsbringer das auf einmal per Einhornmagie und etwas Konfetti deine Systeme wartet und patcht und repariert. In aller erster Linie zeigt es einem nur erst einmal auf was alles nicht funktioniert damit man weiß, das bzw. was man reparieren muss.
Welche Dienste laufen kannst du gut über was automatische Discovery von check_mk heraus finden. Dazu per WATO eine discovery rule definieren, die alle Dienste aufzeigt, die start-type=auto und status=running haben. Nach einem Discovery der Hosts, installierter Agent voraus gesetzt, wird für jeden Dienst, der automatisch starten soll und auch läuft ein eigener Check/Service angelegt.
Das Tool ist wie gesagt sehr mächtig und skaliert sehr gut, ich habe damit schon beruflich Umgebungen mit ~3500 Hosts (ESXi-/Win-/Linux-Server, Switche, Router, Loadbalancer, Storage, etc) mit zusammen ~150.000 Services überwacht und in der Enterprise Version musst es auch nicht mehr ganz so stark mit Hardware erschlagen. In der RAW Variante ist schnell der Storage der Flaschenhals für die ganzen Performancedaten und Graphen.