Austausch unter IT-Professionals - Erfahrungen, Tipps, Fachsimpelei

Danke für euer Feedback, es wird am Ende ein HP ProLiant DL345 Gen11 mit AMD EPYC 9475F CPU und 8x 32 GB Ram.
Der Terminalserver mit seinen 30 Usern läuft Im HyperV dann mit 8 Kernen pro Sockel, von denen es 4 Stk. gibt.
Die Aufteilung ist bei 6 NUMA Knoten die optimale (behaupte ich).

Nun habe ich aber noch einen weiteren Gedanken zum Thema Backup.
Letztes Jahr hatte ich das Problem, dass bei einem Kunden 2 Terminalserver VMs wiederhergestellt werden mussten.
Diese waren jeweils etwa ca. 2,8 TB groß. Der Restore lief mit ca. 110 MB/s
Jumbo Frames waren überall aktiv. Anbindung am ESX Host war ist 1x10G SFP+.
Der Restore lief parallel.
Als Backup lief bis dahin ein Server Qnap TS-435XeU-4G.
P/L ist es einfach unschlagbar und macht bei mehreren Kunden bisher einen echt guten Job.
Nur hat es diesmal echt ewig gedauert bis alles wieder lief.
ca. 30 Personen waren 13h nicht einsatzfähig.
Flaschenhals waren da die 4 HDDs (Exos 7E8 8TB im Raid5) welche nicht aus dem Knick gekommen sind.

Beim neuen Kundenprojekt soll die Qnap auch wieder zum Einsatz kommen. Bei min 14 TB netto.
Nun spiele ich mit dem Gedanken, entweder pack beim neuen Kunden-Projekt die Platten in einen Raid10 und bestell ggf. größere oder geh gleich auf 4x Samsung PM893 mit 8 TB, was den Preis fürs Backup natürlich extrem in die Höhe treibt. (4600€ vs. 1700€)
Problem ist dann auch, dass SSDs + Raid5, immer eine echt dumme Idee ist, auch bei Enterprise SSDs, also wird auch hier ein Raid10 gebaut.

Ich frage mich gerade wieviel Zeit man dadurch spart, bei der 3-4 Fachen Lesegeschwindigkeit im Restore Fall sollte der nächste Flaschenhals dann die 10G Karte sein oder?
 
Zuletzt bearbeitet:
Naja, mit 10G schaffst du knapp 1GB/s libe rate. Ob das aber wirklich ankommt ist halt die Frage. Da hilft am Ende nur testen
 
Mac_Leod schrieb:
8 Kernen pro Sockel, von denen es 4 Stk. gibt.
Wie genau meinst du das? Vielleicht hänge ich gerade auch gedanklich im Nachmittagstief. :D Aber du hast doch nur einen Sockel im HPE 345.
 
Ich meinte damit, der Terminalserver bekommt von den 96 verfügbaren virtuellen Kernen, 32 Kerne ab.
Die 32 vpus werden auf 4 virtuelle Sockel mit jeweil 8 virtuellen Kernen aufgeteilt.
 
  • Gefällt mir
Reaktionen: Stock86
Wie bekommst Du Deine TS auf diese Größe? Bei uns sind die mit maximal 100 GB unterwegs. Vielleicht kann man die noch optimieren (Netzwerkprofile etc.)?
 
Mac_Leod schrieb:
Problem ist dann auch, dass SSDs + Raid5, immer eine echt dumme Idee ist, auch bei Enterprise SSDs, also wird auch hier ein Raid10 gebaut.
RAID ist bei SSDs grundsätzlich eine "dumme Idee", es gibt keine mechanischen Teile, die Ausfallwahrscheinlichkeit ist gering und wir reden hier von einem Backup. Du brauchst 15TB dann kauf auch 15TB und baue dir eine zusätzliche Ebene ein, indem du diese Sicherung auf ein externes Gerät oder die Cloud spiegelst.
https://geizhals.de/western-digital...15-36tb-0ts2375-wus5ea1a1esp5e3-a2877697.html

Mac_Leod schrieb:
Ich frage mich gerade wieviel Zeit man dadurch spart, bei der 3-4 Fachen Lesegeschwindigkeit im Restore Fall sollte der nächste Flaschenhals dann die 10G Karte sein oder?
Die sicherste Idee, ein billiger Zweitserver oder schlichtweg der Server der ersetzt werden soll. Hyper-V Replikation einrichten und schon hast du jederzeit ein "Instant" Backup. Wenn du Hyper-V einsetzt, hast du zudem Zugriff auf Snapshots, komplette Wiederherstellungen sollten da nur noch beim kompletten Ausfall der Hardware erforderlich sein.

Oben drauf ist dein Geschwindigkeitsproblem bei der Rücksicherung, letztlich auch eher ein Softwareproblem. Bessere Software einsetzen und du kannst die VMs direkt aus der Sicherung starten, ohne nur eine Minute an Zeit zu verlieren. Alternativ holst du dir nur die in den letzten Tagen geänderten Daten und nicht die kompletten Datenträger.

1738889115627.png

https://www.altaro.com/de/vm-backup.php

Wie fast immer in der IT, es gibt dutzende Wege die zum Ziel führen. Mehrere TB an Daten wiederherstellen zu müssen und erst danach VMs wieder starten zu können, braucht heutzutage jedenfalls kaum noch jemand.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Mac_Leod
@Thaddelino
Ist doch nicht meiner, ich hol mal etwas aus :)

Es ist so, wie in letzer Zeit so oft.
Kunde geht in die Cloud mit deinem Workload. Bekommt es nach 5 Monaten mit der angst zu tun, weil es mehr Geld kostet geplant.
Niemand erklärt dem Kunden richtig, dass die beste P/L Lösung meist eine Mischung aus privat und public Cloud ist, denn da verdienen die Berater ja weniger Geld.
Meistens ist das Blech dann schon nicht mehr vorhanden oder viel alt und alle Daten müssen wieder zurück.
30 User mit 100GB mit genug Platz nach oben.
Dazu kommen noch diverse andere Dienste, die leider viel zu selten als Container unterwegs sind, somit kommt man relativ schnell auf solche Größen.
 
Und im "Optimalfall" ist Firmenintern dann schon das KnowHow verschwunden wenn man merkt das Cloud ganz schön teuer ist...
 
  • Gefällt mir
Reaktionen: Mac_Leod
Dem ist leider nichts hinzuzufügen
 
Weiß jemand, mit was für einer Workload man auf 36k Betriebsstunden, 1 TB Reads und 6,5 TB Writes kommt? Die SSD wurde über Jahre Dauerbetrieb nicht einmal voll geschrieben. Außer Hot Spare fällt mir da nicht viel ein... -_-

1738958661823.png

(Ich habe eine gebrauchte SSD gekauft um ein wenig mehr Platz für AI Spielereien zu haben. LLMs und )

Mac_Leod schrieb:
Beim neuen Kundenprojekt soll die Qnap auch wieder zum Einsatz kommen. Bei min 14 TB netto.
Nun spiele ich mit dem Gedanken, entweder pack beim neuen Kunden-Projekt die Platten in einen Raid10 und bestell ggf. größere oder geh gleich auf 4x Samsung PM893 mit 8 TB, was den Preis fürs Backup natürlich extrem in die Höhe treibt. (4600€ vs. 1700€)
Zu 14TB Netto kommt man ja relativ einfach...

Wenn bei solchen Kleinumgebungen mehr Performance benötigt wird als 3-4 große HDDs bereitstellen könne, haben wir auch schon absichtlich mehr kleinere HDDs verbaut. Blöd nur, dass dir die Qnap TS-435XeU-4G keinen Platz für mehr als 4 HDDs gibt.

Ich denke ich würde da den Weg des RAID10 gehen. Blöd, dass da keine Platz für eine hot spare vorhanden ist.

Wie ist der Investitionswille vom Kunden? Vielleicht kann man die bestehende QNAP mit Raid 5 als backup copy weiter verwenden und als primäres Backup einen Storage mit 2U und Platz für 12 HDDs anschaffen. Dann könnte man 6-8 HDDs im Raid 10 + hot spare verbauen und hätte noch Platz falls der Bedarf drastisch steigt.

Alternativ eventuell sowas wie ein QNAP Rack Expansion TL-R400S ansprechen.
Ups die Qnap TS-435XeU-4G ist nicht kompatibel
 
Ich brauch bitte mal etwas austausch zum Thema GPU Cluster bauen. Es werden jetzt wohl noch mehr Kisten nach geschoben. Aktuell läuft das GPU Zeug mit Ollama um die Modelle entsprechend abzufragen. Ich sehe halt, das ist nicht wirklich übersichtlich und effizient. Ich hätte gerne etwas um die 4 Kisten in einen Cluster zu verwandeln. Hat da schon jemand etwas gebaut?

Das beobachte ich immer wieder ist sehr Mac lastig
https://github.com/exo-explore/exo

Das könnte etwas sein
https://docs.vllm.ai/en/latest/serving/distributed_serving.html#running-vllm-on-multiple-nodes

Oder das hier
https://github.com/gpustack/gpustack
 
Also nen nutzbaren Cluster bekommst du durch 4 Punkte.

1. Ein gemeinsames Netzwerk
2. Ein shared Filesystem
3. Einen Job Scheduler
4. Einheitlicher Softwarestack

Im Prinzip brauchst du nur einen Job Scheduler, der die Ressourcen verteilt. Den Rest müssen die Anwender machen.

Und ja die Leute müssen dann halt auch mal selbst was wissen und verstehen. Damit besteht dann aber auch die Chance das es vernünftig tut und nicht nur irgendwie...

Wenn Leute keine Ahnung haben was Clusterbetrieb bzw HPC bedeutet, dann hast du schnell mal den Fall das etwas um Faktoren langsamer läuft als möglich.

Und ja auch Größenordnungen sind ohne weiteres möglich....

Und bitte bitte NIE erwarten das Leute wissen was Sie tun... Erst kürzlich Software von nem Forschungsinstitut gehabt die auf meinem Systemen um Faktoren langsamer lief als unter Windows. Tjo ohne den Code zu haben denen klar gemacht das die keine Ahnung haben und kacke bauen. Am Ende war es dann auf meinen Maschinen um Faktoren bis hin zu >10 schneller....

Also bitte nimm das ernst wenn ihr skalieren wollt. 4 Systeme ist noch nicht viel, aber man ist dann doch schnell bei 100+ und da fängt der Spaß dann so langsam an und wird so richtig nett ab 1000 Systemen bei CPU only.

Bei GPU würde ich die Grenzen um Faktor 2-4 tiefer ansetzen für den Spaß.
 
  • Gefällt mir
Reaktionen: konkretor
Zurück
Oben