Check_MK vs. Zabbix

Fab

Ensign
Registriert
Sep. 2013
Beiträge
230
Liebe IT-Pro und Admin-Gemeinde,

was macht Zabbix besser als check_mk? Was wäre ein Keygrund check_mk durch Zabbix zu ersetzen?
 
Wenn du mit Zabbix zufrieden bist bleib dabei :)
 
Also ich hab bei uns mal Check_mk in der Community Editon rausgelassen und ich finds absolut schrecklich. Von einer Kreativen Namensgebung, das man ewig sucht bis man entsprechende Abfragen findet.
Und das Netzwerk Monitoring diese Map, ist einfach nur Trash. Toll man kann einen Parent angeben aber das wirklich relevante welches Gerät beim Netzwerk Pfad davor liegt, nope. Keine festen Vision Maps, nur so eine funky Ball Map. Ich werd mit dem Teil nicht warm und das war auch Grund als wir ein Montoring geholt haben dort nicht mal mehr nach einem Angebot gefragt haben.
Das Dinge kostet mehr Zeit mit der Verwaltung als es mir Hilft Probleme zu lösen.

Ehm ja nur meine persönliche Meinung, es vor free. Einfach mal installieren und probieren. Besser als nichts ist es sicherlich.
 
Zuletzt bearbeitet:
Kommt auf deinen Einsatzzweck an.

Für Serversysteme und Services würde ich eher checkMK nutzen, für Netzwerkinfrastruktur ist unter Umständen Zabbix besser einsetzbar.

Wie so häufig: Frage nicht was besser ist, sondern umschreibe, was du damit anstellen willst und es kann dir geholfen werden...
 
madmax2010 schrieb:
Wenn du mit Zabbix zufrieden bist bleib dabei :)

Ich hab es ja noch garnicht, wir haben check_mk und ich bin total Unhappy damit, es ist komisch zu bedienen man sucht immer ewig nach etwas und ich hab mix aus Linux, Windows Systemen zu monitoren und dann halt noch Bleck in vorm von Rack PDUs und Sensoren von APC. Aber auch Storage und Hardware aus dem Hause HP und Dell. Ich suche als eigentlich nur noch mehr Argumente um das Team von check_mk weg zu bekommen.
 
Ich hab zwar mit Zabbis noch nie gearbeitet, finde CheckMK aber mega fein. Komme damit super zurecht und ich finde recht einfach, was ich suche. Seit der neuen Version ist die Suche noch mal deutlich einfacher geworden - man findet quasi alles damit
 
setze doch zabbix auf und probiere aus. Bin mit meiner Instanz sehr zufrieden. Überwache, Switche, Router, Firewalls, Storage, Server, Clients, Drucker usw.. Bin sehr zufrieden damit

Hier gibts viele Vorlagen, wenn man keine Lust hat eigene zu erstellen.
https://share.zabbix.com/official-templates/all
 
hpxw schrieb:
setze doch zabbix auf und probiere aus. Bin mit meiner Instanz sehr zufrieden. Überwache, Switche, Router, Firewalls, Storage, Server, Clients, Drucker usw.. Bin sehr zufrieden damit

Hier gibts viele Vorlagen, wenn man keine Lust hat eigene zu erstellen.
https://share.zabbix.com/official-templates/all

Das kenne ich schon und ich habe auch eine Instantz mit Zabbix 5 LTS am laufen. Ich suche halt einfach Argumente gegen check_mk die auch ältere Kollegen einfängt. Sonst bleiben wir weiterhin bei check_mk und der Turnschuh Administration
 
Ich nutze recht oft zabbix_sender ausm script um schnell mal etwas genauer anzusehen.
RedHat und Solaris Umgebung. In der Applikationsbetreuung lassen sich damit einfach Messpunkte realisieren. Wenn es um HW geht finde ich beide ok, bei nur Applikation finde ich Zabbix angenehmer.
Zabbix läuft hier in Docker Containern, sind ein paar mehr Instanzen.
 
Zuletzt bearbeitet:
Fab schrieb:
Ich suche als eigentlich nur noch mehr Argumente um das Team von check_mk weg zu bekommen
Naja offensichtlich findest du ja keine sachlichen(!) Gründe und willst oder kannst dich nicht mit der Nutzung von check-mk anfreunden, die Mehrheit der Kollegen können oder wollen sich scheinbar nicht mit zabbix auseinander setzen weil sie keinen Mehrwert in einem Wechsel sehen außer andere Art der Oberfläche/Bedienung.
Fab schrieb:
Turnschuh Administration
DAS sowie manuelle Herumgeklickere ist aber ein generelles Problem und auch mit zabbix oder anderen Monitoringlösungen wird das nicht besser werden...

Ich habe eine zeitlang eine check-mk Umgebung betreut mit 5 oder 6 check-mk Servern die ~5000 Hosts (Host im Sinne von Server, VMs, Netzwerkgerät, Storagekomponenten, etc) und um die 120.000 Checks überwacht hat. Da haben wir sowohl die Hardware/Auslastung als auch Status von Anwendungen gecheckt.
Mit dem Wissen von heute würde ich ggf. eher zu icinga2 greifen, umsetzbar sind aber beide Lösungen oder auch zabbix oder andere vergleichbare Monitoringlösungen.

Bitte sei so professionell und überlege dir ernsthaft ob du zabbix austauschen willst weil es tatsächlich für eure Anforderungen technisch oder organisatorisch überlegen ist oder ob du es einfach haben willst weil es dir besser gefällt. Falls ersteres musst du die positiven Vorteile eben gut darstellen können. Falls letzteres: Mal über eine entsprechende Schulung/Weiterbildung nachgedacht?
 
  • Gefällt mir
Reaktionen: foo_1337 und t-6
Muss auch sagen, dass ich CheckMK eigentlich ganz in Ordnung finde. Ja, es gibt hier und da ein paar Dinge die besser umsetzbar gewesen wären (z.B. die Umsetzung von SNMP-Traps gefällt mir nicht so, bzw. die Konfiguration von Traps), aber mit anderen Produkten bin ich genau so auf Probleme gestoßen. Andere Probleme, aber alle irgendwie "auf dem gleichen Level".

Wir haben ca. ~50k Hosts mit ~200k Services auf 5 CheckMK-Server aufgeteilt, und soweit läuft es ganz gut.

Was genau ist denn dein Problem mit CheckMK, warum du davon weg willst? Wofür benutzt ihr CheckMK hauptsächlich? Nur Netzwerk, nur Server/Anwendungen, alles gemischt?
 
Also ich würde beides nicht einsetzen. Checkmk ist ja auch nicht gerade günstig, was einen dann weniger Monitoren lässt als man eigentlich könnte.

@Snowi was ist denn euer poll Intervall? Das sind ja schon echt viele Instanzen für 5 Server. Was ist denn da das storage Backend.

Wir haben alles in ner Influxdb. Mit sicherlich 100 Werten pro Server.

ELK als auch Prometheus sind auch was. Bei allen dreien kann man halt erstmal rein werfen was man will und dann schauen. Das finde ich schon sehr angenehm, weil man bei Problemen alles gut debuggen kann.
 
Skysnake schrieb:
@Snowi was ist denn euer poll Intervall? Das sind ja schon echt viele Instanzen für 5 Server. Was ist denn da das storage Backend.
Aktuell alle 3 Minuten, ich denke nicht dass das in naher Zukunft geändert wird. Länger wird zu ungenau, und kürzer weiß keiner wie das System am Ende reagiert / performed.
Die Daten werden am ende "Standardmäßig" in Dateien weggeschrieben, wie das bei CMK ja der Default-Zustand ist. Das funktioniert aktuell relativ zuverlässig. Und solange es läuft, wird da auch erstmal nicht viel geändert...
Server in der Größenordnung der Appliances die angeboten werden, wären natürlich schick - haben wir aber aktuell nicht, und solange es eben stabil läuft, wird sich da leider auch erstmal nix ändern.

Zu den Kosten: Ich finde CheckMK ziemlich günstig - wir hatten vorher Software eines anderen Anbieters und haben aktuell auch noch ein drittes Tool für eine Sonderaufgabe, die waren/sind beide um Längen teurer als CheckMK :(
 
  • Gefällt mir
Reaktionen: foo_1337
Aha. Na dann.

Ich meinte mit storage jetzt aber eher, ob ihr SSDs, je netapp oder sowas habt 😉

3 Minuten ist jetzt schon weniger als erwartet. Ich hätte mit 5-10 Minuten gerechnet.

Ich selbst finde beim Monitoring von bare metal sowas um die 5-10s vernünftig. Da kann man dann auch wirklich sehen wenn es zu backflow bei Lastwechseln im Rack kommt etcpp
 
Skysnake schrieb:
Aha. Na dann.

Ich meinte mit storage jetzt aber eher, ob ihr SSDs, je netapp oder sowas habt 😉

Asooo, läuft alles auf einem Netapp mit HDDs.

War etwas verwirrt wegen InfluxDB. Soll ja Leute geben die ihren ganzen Müll in eine InfluxDB werfen, und ich weiß, dass es da Schnittstellen gibt. Vielleicht kann man CheckMK ja umkonfigurieren dass der alles in InfluxDB speichert? Hab mich nie tiefer damit befasst...


//Edit: 10 Sekunden wäre geil, aber sowas wollen auch die wenigsten. Wir haben das Monitoring "zentralisiert" weil die einzelnen Abteilungen es nicht richtig hingekriegt haben, obwohl das immer alle selbst machen wollten. Und da am Ende zu 90% nur wir reinschauen und den anderen dann bescheid geben... macht noch zu wenig Sinn. Die einzelnen Mitarbeiter interessiert es meist zu wenig sowas zu sehen, als dass sie auch mal fragen würden. Muss regelmäßig aufs neue erklären, dass man sogar Prozesse überwachen kann...
 
Skysnake schrieb:
Checkmk ist ja auch nicht gerade günstig, was einen dann weniger Monitoren lässt als man eigentlich könnte
Jain. Es gibt ja die raw Edition, die ist kostenfrei nutzbar aber ab einer gewissen Anzahl überwachender Nodes und Services viel Disk IO braucht oder man dezentralisiert das (was machbar ist). Die Enterprise Edition bringt dann viele Zusatzfeatures für größere Umgebungen. Generell nimmt einem checkmk vieles ab, was man bei zabbix oder icinga2 beispielsweise manuell erst einrichten muss. Die Einstiegshürde ist daher niedriger und am Ende ist Zeit eben doch Geld^^.
Ich weiß von einem größeren Managed Service Provider, dass dieser intern und für viele Kunden die raw Edition verwendet aber die sind auch NetApp Partner und bekommen die all-Flash-Systeme hinterher geschmissen.
Aber wenn man spezialisiert genug ist oder die Anforderungen höher werden, würde ich auch nicht (mehr) unbedingt checkmk einsetzen. Für die durchschnittliche KMU Umgebung der "Verwaltungs-IT" ist es ne brauchbare Option.

@Snowi Afaik kann man inzwischen anstatt klassischer RRDs auch influxDB/Graphite verwenden in der Enterprise Edition.
Enterprise Edition mit lokalen 6x SSDs im Raid 10 (je 3x Mirrors, dann striped) konnten ~60k Checks weg schreiben bei einem polling von einer Minute, mehr wurde bei manchen Systemen schon knapp weil diese teilweise fast eine Minute brauchten um die Daten zurück zu liefern. War aber auch ne klassische IT eines Konzerns und kein HPC o.ä.
Vielleicht bin ich da etwas sehr vorsichtig und zurückhaltender aber ich würde das Monitoring nicht unbedingt abhängig von den Systemen machen, die überwacht werden sollen... Also klar wenn das SAN still steht bekommt man das auch ohne Monitoring verdammt schnell mit aber vielleicht möchte man im Nachgang manches so auswerten und/oder nach der Wiederherstellung schnell sehen was wieder läuft^^
 
snaxilian schrieb:
Vielleicht bin ich da etwas sehr vorsichtig und zurückhaltender aber ich würde das Monitoring nicht unbedingt abhängig von den Systemen machen, die überwacht werden sollen... Also klar wenn das SAN still steht bekommt man das auch ohne Monitoring verdammt schnell mit aber vielleicht möchte man im Nachgang manches so auswerten und/oder nach der Wiederherstellung schnell sehen was wieder läuft^^

Da bin ich absolut auf deiner Seite, und ich verstehe die Entscheidung auch nicht. Die wurde allerdings getroffen bevor ich ins Unternehmen gekommen bin, und auch so bin ich eigentlich eher Anwender von CheckMK, um das System dadrunter und die Performance etc. kümmert sich ein Kollege.
Prinzipiell würde ich ja gerne die Hardware nehmen, die wir für ein anderes Monitoringprodukt verwenden. Da wurde einfach der Empfehlung des Herstellers gefolgt, der uns da richtig überzogene Hardware hingestellt hat. Ich mein... läuft super. Für die Nische die wir damit abdecken aber eigentlich viel zu viel Power. Die beiden Kisten haben jeweils mehr Power als alle 5 CheckMK Server zusammen, nur mehr SSDs müssten rein.

Aber nun gut - nicht meine Entscheidung, ich muss auch die Verantwortung nicht tragen, und ausbügeln auch nur begrenzt.
 
Ja, das ist immer so ne Sache mit der Verantwortung beim sizing. Ich stehe/stand auch davor und man weiß am Ende halt nicht, was wirklich alles gemacht wird...

Am Ende kommt es halt immer darauf an, für was man es braucht. Wir hatten auch schon Dinge jede Sekunde gepollt, weil wir ein dynamisches Verhalten analysieren mussten. Und da ist es schon sehr angenehm, wenn man einfach machen kann. So lange die Systeme auch noch was anderes machen, tut es ja nicht so weh, wenn man sie etwas stärker auslegt. Zumal ja 96/128GB RAM ja eigentlich eh das Minimum sind wenn man nicht auf Single Socket geht.

@Snowi Mit der Natapp habt ihr halt io ohne Ende. Ich gehe mal von ner FAS aus. Oder? Ich denke jetzt nicht das es ne E Serie ist.

Am Ende kommt es halt schon stark darauf an wieviel man Monitoren muss und was
 
Skysnake schrieb:
Ja, das ist immer so ne Sache mit der Verantwortung beim sizing. Ich stehe/stand auch davor und man weiß am Ende halt nicht, was wirklich alles gemacht wird...
Das war, soweit ich weiß, bei uns alles klar. Wir hatten ja ein Vorgängerprodukt das nicht mehr weiterentwickelt wurde, welches "nur ersetzt werden sollte".
Warum man dann mehrere Abhängigkeiten da rein wirft...

Skysnake schrieb:
@Snowi Mit der Natapp habt ihr halt io ohne Ende. Ich gehe mal von ner FAS aus. Oder? Ich denke jetzt nicht das es ne E Serie ist.

Jup, haben mehrere FAS in Betrieb. Muss NetApp an der Stelle aber auch lassen, dass das Zeug super performed und quasi nie Probleme macht. Eins der wenigen Produkte in der IT, wo ich tatsächlich Vertrauen drin habe :D Kann man dann schon als Basis nehmen, auch wenn's natürlich blöd wird, wenn es ausfällt und auch das Monitoring nix mehr macht.
 
Dann lag ich ja ganz richtig mit meiner Vermutung ;)

Bezüglich dem Ausfall muss ja aber schon einiges passieren. Und wenn das nicht ausreicht, muss man halt ne Spiegelung machen. Also ich meine FAS kann ne online Spiegelung machen. Zur Not muss man dann auf das andere System umziehen. Das deckt dann ja aber schon fast Fälle ab wo das halbe Rechenzentrum abgefackelt. Und ja das kostet, aber wenn man hohe Anforderungen hat muss man halt auch hohe Kosten hinnehmen.

Aber ich glaube der Thread starter sollte mal sagen, was er genau machen will/muss. Wenn's in den Bereich Container geht wird er denke ich mit keinem von beiden wirklich glücklich
 
  • Gefällt mir
Reaktionen: snaxilian
Zurück
Oben