Austausch unter IT-Professionals - Erfahrungen, Tipps, Fachsimpelei

Mac_Leod · 6. Februar 2025

Danke für euer Feedback, es wird am Ende ein HP ProLiant DL345 Gen11 mit AMD EPYC 9475F CPU und 8x 32 GB Ram.
Der Terminalserver mit seinen 30 Usern läuft Im HyperV dann mit 8 Kernen pro Sockel, von denen es 4 Stk. gibt.
Die Aufteilung ist bei 6 NUMA Knoten die optimale (behaupte ich).

Nun habe ich aber noch einen weiteren Gedanken zum Thema Backup.
Letztes Jahr hatte ich das Problem, dass bei einem Kunden 2 Terminalserver VMs wiederhergestellt werden mussten.
Diese waren jeweils etwa ca. 2,8 TB groß. Der Restore lief mit ca. 110 MB/s
Jumbo Frames waren überall aktiv. Anbindung am ESX Host war ist 1x10G SFP+.
Der Restore lief parallel.
Als Backup lief bis dahin ein Server Qnap TS-435XeU-4G.
P/L ist es einfach unschlagbar und macht bei mehreren Kunden bisher einen echt guten Job.
Nur hat es diesmal echt ewig gedauert bis alles wieder lief.
ca. 30 Personen waren 13h nicht einsatzfähig.
Flaschenhals waren da die 4 HDDs (Exos 7E8 8TB im Raid5) welche nicht aus dem Knick gekommen sind.

Beim neuen Kundenprojekt soll die Qnap auch wieder zum Einsatz kommen. Bei min 14 TB netto.
Nun spiele ich mit dem Gedanken, entweder pack beim neuen Kunden-Projekt die Platten in einen Raid10 und bestell ggf. größere oder geh gleich auf 4x Samsung PM893 mit 8 TB, was den Preis fürs Backup natürlich extrem in die Höhe treibt. (4600€ vs. 1700€)
Problem ist dann auch, dass SSDs + Raid5, immer eine echt dumme Idee ist, auch bei Enterprise SSDs, also wird auch hier ein Raid10 gebaut.

Ich frage mich gerade wieviel Zeit man dadurch spart, bei der 3-4 Fachen Lesegeschwindigkeit im Restore Fall sollte der nächste Flaschenhals dann die 10G Karte sein oder?

Skysnake · 6. Februar 2025

Naja, mit 10G schaffst du knapp 1GB/s libe rate. Ob das aber wirklich ankommt ist halt die Frage. Da hilft am Ende nur testen

Stock86 · 6. Februar 2025

Mac_Leod schrieb:
8 Kernen pro Sockel, von denen es 4 Stk. gibt.

Wie genau meinst du das? Vielleicht hänge ich gerade auch gedanklich im Nachmittagstief.

Aber du hast doch nur einen Sockel im HPE 345.

Mac_Leod · 6. Februar 2025

Ich meinte damit, der Terminalserver bekommt von den 96 verfügbaren virtuellen Kernen, 32 Kerne ab.
Die 32 vpus werden auf 4 virtuelle Sockel mit jeweil 8 virtuellen Kernen aufgeteilt.

Thaddelino · 7. Februar 2025

Wie bekommst Du Deine TS auf diese Größe? Bei uns sind die mit maximal 100 GB unterwegs. Vielleicht kann man die noch optimieren (Netzwerkprofile etc.)?

xexex · 7. Februar 2025

Mac_Leod schrieb:
Problem ist dann auch, dass SSDs + Raid5, immer eine echt dumme Idee ist, auch bei Enterprise SSDs, also wird auch hier ein Raid10 gebaut.

RAID ist bei SSDs grundsätzlich eine "dumme Idee", es gibt keine mechanischen Teile, die Ausfallwahrscheinlichkeit ist gering und wir reden hier von einem Backup. Du brauchst 15TB dann kauf auch 15TB und baue dir eine zusätzliche Ebene ein, indem du diese Sicherung auf ein externes Gerät oder die Cloud spiegelst.
https://geizhals.de/western-digital...15-36tb-0ts2375-wus5ea1a1esp5e3-a2877697.html

Mac_Leod schrieb:
Ich frage mich gerade wieviel Zeit man dadurch spart, bei der 3-4 Fachen Lesegeschwindigkeit im Restore Fall sollte der nächste Flaschenhals dann die 10G Karte sein oder?

Die sicherste Idee, ein billiger Zweitserver oder schlichtweg der Server der ersetzt werden soll. Hyper-V Replikation einrichten und schon hast du jederzeit ein "Instant" Backup. Wenn du Hyper-V einsetzt, hast du zudem Zugriff auf Snapshots, komplette Wiederherstellungen sollten da nur noch beim kompletten Ausfall der Hardware erforderlich sein.

Oben drauf ist dein Geschwindigkeitsproblem bei der Rücksicherung, letztlich auch eher ein Softwareproblem. Bessere Software einsetzen und du kannst die VMs direkt aus der Sicherung starten, ohne nur eine Minute an Zeit zu verlieren. Alternativ holst du dir nur die in den letzten Tagen geänderten Daten und nicht die kompletten Datenträger.

https://www.altaro.com/de/vm-backup.php

Wie fast immer in der IT, es gibt dutzende Wege die zum Ziel führen. Mehrere TB an Daten wiederherstellen zu müssen und erst danach VMs wieder starten zu können, braucht heutzutage jedenfalls kaum noch jemand.

Mac_Leod · 7. Februar 2025

@Thaddelino
Ist doch nicht meiner, ich hol mal etwas aus

Es ist so, wie in letzer Zeit so oft.
Kunde geht in die Cloud mit deinem Workload. Bekommt es nach 5 Monaten mit der angst zu tun, weil es mehr Geld kostet geplant.
Niemand erklärt dem Kunden richtig, dass die beste P/L Lösung meist eine Mischung aus privat und public Cloud ist, denn da verdienen die Berater ja weniger Geld.
Meistens ist das Blech dann schon nicht mehr vorhanden oder viel alt und alle Daten müssen wieder zurück.
30 User mit 100GB mit genug Platz nach oben.
Dazu kommen noch diverse andere Dienste, die leider viel zu selten als Container unterwegs sind, somit kommt man relativ schnell auf solche Größen.

Skysnake · 7. Februar 2025

Und im "Optimalfall" ist Firmenintern dann schon das KnowHow verschwunden wenn man merkt das Cloud ganz schön teuer ist...

Mac_Leod · 7. Februar 2025

Dem ist leider nichts hinzuzufügen

Rickmer · 7. Februar 2025

Weiß jemand, mit was für einer Workload man auf 36k Betriebsstunden, 1 TB Reads und 6,5 TB Writes kommt? Die SSD wurde über Jahre Dauerbetrieb nicht einmal voll geschrieben. Außer Hot Spare fällt mir da nicht viel ein... -_-

(Ich habe eine gebrauchte SSD gekauft um ein wenig mehr Platz für AI Spielereien zu haben. LLMs und )

Mac_Leod schrieb:
Beim neuen Kundenprojekt soll die Qnap auch wieder zum Einsatz kommen. Bei min 14 TB netto.
Nun spiele ich mit dem Gedanken, entweder pack beim neuen Kunden-Projekt die Platten in einen Raid10 und bestell ggf. größere oder geh gleich auf 4x Samsung PM893 mit 8 TB, was den Preis fürs Backup natürlich extrem in die Höhe treibt. (4600€ vs. 1700€)

Zu 14TB Netto kommt man ja relativ einfach...

Wenn bei solchen Kleinumgebungen mehr Performance benötigt wird als 3-4 große HDDs bereitstellen könne, haben wir auch schon absichtlich mehr kleinere HDDs verbaut. Blöd nur, dass dir die Qnap TS-435XeU-4G keinen Platz für mehr als 4 HDDs gibt.

Ich denke ich würde da den Weg des RAID10 gehen. Blöd, dass da keine Platz für eine hot spare vorhanden ist.

Wie ist der Investitionswille vom Kunden? Vielleicht kann man die bestehende QNAP mit Raid 5 als backup copy weiter verwenden und als primäres Backup einen Storage mit 2U und Platz für 12 HDDs anschaffen. Dann könnte man 6-8 HDDs im Raid 10 + hot spare verbauen und hätte noch Platz falls der Bedarf drastisch steigt.

~~Alternativ eventuell sowas wie ein QNAP Rack Expansion TL-R400S ansprechen.~~
Ups die Qnap TS-435XeU-4G ist nicht kompatibel

konkretor · 7. Februar 2025

Ich brauch bitte mal etwas austausch zum Thema GPU Cluster bauen. Es werden jetzt wohl noch mehr Kisten nach geschoben. Aktuell läuft das GPU Zeug mit Ollama um die Modelle entsprechend abzufragen. Ich sehe halt, das ist nicht wirklich übersichtlich und effizient. Ich hätte gerne etwas um die 4 Kisten in einen Cluster zu verwandeln. Hat da schon jemand etwas gebaut?

Das beobachte ich immer wieder ist sehr Mac lastig
https://github.com/exo-explore/exo

Das könnte etwas sein
https://docs.vllm.ai/en/latest/serving/distributed_serving.html#running-vllm-on-multiple-nodes

Oder das hier
https://github.com/gpustack/gpustack

Skysnake · 8. Februar 2025

Also nen nutzbaren Cluster bekommst du durch 4 Punkte.

1. Ein gemeinsames Netzwerk
2. Ein shared Filesystem
3. Einen Job Scheduler
4. Einheitlicher Softwarestack

Im Prinzip brauchst du nur einen Job Scheduler, der die Ressourcen verteilt. Den Rest müssen die Anwender machen.

Und ja die Leute müssen dann halt auch mal selbst was wissen und verstehen. Damit besteht dann aber auch die Chance das es vernünftig tut und nicht nur irgendwie...

Wenn Leute keine Ahnung haben was Clusterbetrieb bzw HPC bedeutet, dann hast du schnell mal den Fall das etwas um Faktoren langsamer läuft als möglich.

Und ja auch Größenordnungen sind ohne weiteres möglich....

Und bitte bitte NIE erwarten das Leute wissen was Sie tun... Erst kürzlich Software von nem Forschungsinstitut gehabt die auf meinem Systemen um Faktoren langsamer lief als unter Windows. Tjo ohne den Code zu haben denen klar gemacht das die keine Ahnung haben und kacke bauen. Am Ende war es dann auf meinen Maschinen um Faktoren bis hin zu >10 schneller....

Also bitte nimm das ernst wenn ihr skalieren wollt. 4 Systeme ist noch nicht viel, aber man ist dann doch schnell bei 100+ und da fängt der Spaß dann so langsam an und wird so richtig nett ab 1000 Systemen bei CPU only.

Bei GPU würde ich die Grenzen um Faktor 2-4 tiefer ansetzen für den Spaß.

LasseSamenström · 11. Februar 2025

Heute den ganzen Tag Assessment bzgl NIS2 Anforderungen. Hab richtig Bock. IMmerhin kann ich dann meinen Chef endlich Geld aus der Taschen ziehen (für die Infra)

Schauen wir mal was wird...

Mac_Leod · 21. Februar 2025

hmm kann es sein, dass das die server von ms gerade Probleme haben?
ich bekomm beim sas key anzeigen, einen 500 zurück, häng aber in meinem + Kunden VPN und kann es gerade nicht wirklich verifizieren.

https://purview.microsoft.com/datalifecyclemanagement/import

Error:
Diagnostic information:{Version:1.0.1661.3,Environment:NEUPROD,DeploymentId:aks-scc-prod-northeurope,InstanceId:akswpool00006l,SID:3e31a0b7-2b35-426c-be9e-800f5381c493,CID:e979b410-ccbe-40c8-a35f-d8ba31a50543}
Time:2025-02-21T08:17:31.8511806Z

LasseSamenström · 26. Februar 2025

LasseSamenström schrieb:
Heute den ganzen Tag Assessment bzgl NIS2 Anforderungen.

Update:

Erste Analyse und Fazit:

IT-Infrastruktur nicht nur unzureichend
deutlichen Investitionsstau
Hätte beim Datenschutz schon auffallen müssen

Abschlussgespräch erst Anfang April. Bis dahin kann ich erstmal bisschen Doku (über Netbox) machen und die Füße hochlegen

Mac_Leod · 26. Februar 2025

Netbox

LasseSamenström · 26. Februar 2025

Ist halt auch fast die eierlegende Wollmilchsau. Netzwerkplan, Floorplan, Asset Management, IPAM

Würde schon einiges von NIS2 abdecken

Mac_Leod · 26. Februar 2025

Bin damit soweit, dass die 3 Docker Container + PostgreSQL sich per Ansible Playbook dafür ausrollen lassen.
Was besseres kenn ich tatsächlich nicht.

Skysnake · 26. Februar 2025

LasseSamenström schrieb:
Update:

Erste Analyse und Fazit:

IT-Infrastruktur nicht nur unzureichend

deutlichen Investitionsstau

Hätte beim Datenschutz schon auffallen müssen

Abschlussgespräch erst Anfang April. Bis dahin kann ich erstmal bisschen Doku (über Netbox) machen und die Füße hochlegen

Und was heißt dad jetzt? Augen zu und weiter wie bisher????

LasseSamenström · 27. Februar 2025

Zeigt sich Anfang April, dann ist quasi nochmal "Abschlussgespräch"

Entweder weiß ich im oder nach dem Termin wie viel Budget ich für die Modernisierung bekomme.
Gestern hatte ich eigentlich auch einen Termin mit meinem Chef ob es nun Office 2024 oder 365 werden soll, sein Haus war ihm allerdings wichtiger :')

Austausch unter IT-Professionals - Erfahrungen, Tipps, Fachsimpelei

Captain

Captain

Commander

Captain

Cadet 4th Year

Fleet Admiral Pro

Captain

Captain

Captain

Silent-Fanatiker Pro

Artikeldetektiv

Captain

Lieutenant

Captain

Anhänge

Lieutenant

Captain

Lieutenant

Captain

Captain

Lieutenant