Austausch unter IT-Professionals - Erfahrungen, Tipps, Fachsimpelei

Ist halt die Frage ob man nicht massiv konsolidieren kann.

Ich hätte da halt so 40+ Knoten mit viel Speicher wo die Auslastung natürlich extrem schwankt. Zudem stehen einige davon auch blöd in der Gegend rum weil man gerade nichts hat was auch wirklich so viel Speicher braucht.

Man könnte da also schon massiv konsolidieren. Ich denke man würde mit so ca 50% des Speichers auskommen den man aktuell verbaut wenn er shared ist.

Ich wäre da nur halt sehr ungern das Versuchskanninchen bzw. Der Räumpflug der den Weg für andere bereitet.

Zwei Themen wie CXL Memory Pool, GPUs und UltraEthernet will man sich sicherlich nicht in einem einzelnen Rebuild ans Bein binden wenn man Produktivsysteme und kein Forschungssystem hat. Die User usw steigen einem ansonsten zu Recht aufs Dach. Denn ich würde bei keinem der Themen erwarten, dass das reibungslos abläuft.
 
  • Gefällt mir
Reaktionen: holdes
Mal ne andere Sache. Wie sind eure Erfahrungen mit SMX GPUs von nVidia?

Ich bin echt ziemlich enttäuscht. Die Ausfallraten scheinen deutlich höher als bei PCIe GPUs zu sein und zusätzlich ist es win riesen Akt bis da mal was getauscht wird. Also sowohl Ersatzteilverfügbarkeit als auch der Tausch an sich. Inzwischen werden auch mal einzelne GPUs getauscht aber es kann einem je nach Anbieter noch immer passieren, dass das komplette MultiGPU Board nach Asien geschickt werden muss um nur eine einzelne GPU zu tauschen....

Für mich lässt sich so ein stabiler Clusternetrieb nur schwer realisieren. Also selbst wenn man hunderte von Kisten hätte wo der Ausfall von einer Kiste nicht so sehr schmerzt. Einfach weil das viel zu häufig passiert und die Reparatur viel zu lange dauert.....

Wäre mal interessant zu wissen ob ihr auch ähnliche Erfahrungen gemacht habt.
 
Aktuell nicht, im Januar bekomm ich etwas futter von 2x H200 NVL aber als PCIe und nicht als SMX
Dafür ist aktuell noch zu klein.
 
Wie gesagt, PCIe und SMX sind zwei Paar Stiefel. Hat das echt niemand im Einsatz? Ist doch absolut 0815 off the shelf Hardware, oder täuscht mich da gerade wieder meine HPC Bubbel?
 
Das ist HPC Bubblel.

Schau mal hier, da stehen keine Preise dabei, kannst du ungefähr denken wo du preislich raus kommst, wenn du als "KMU" solch einen broken kaufst. Nur mal etwas LLM oder so aufzusetzen.

https://www.primeline-solutions.com...eck/supercomputing/nvidia-hgx-supercomputing/

Hier kannst mal etwas konfigurieren, die meisten werden das wohl kaufen.

https://www.primeline-solutions.com/de/server/nach-gpu/nvidia-h200/

Genauso eine Box ist es bei mir dann auch geworden. Klar 8x200H zu haben wäre auch gut, nur wäre dann das IT Budget etwas arg ausgeschöpft.
 
Absolut. Für meine ESXi Hosts hätte ich aber auch gerne mal ne kleine Karte um die vApps zu beschleunigen, mal schauen was da so lauffähig wäre.

Ansonsten teste ich demnächst die neuen Unifi Enterprise Campus Aggregation mal aus, bin mal gespannt was man für den Preis denn so alles bekommt im Hinblick auf künftige Updates.
 
😞

Naja, dann funktioniert immerhin das nVidia Marketing doch nicht ganz so gut wie befürchtet. Wenn man so sieht wir die SMX mit MIG Mode verwendet werden, dann fragt man sich schon teils warum.

Aber wundert mich unterm Strich dann doch dad es soooo wenig verwendet wird. Hätte jetzt schon erwartet, dass das der eine oder andere im Einsatz hat. Jetzt keine 100 Knoten oder so, aber gerade mit 1-10 machen die Zuverlässigkeitsprobleme ja so richtig "Spaß" weil jeder Ausfall direkt weh tut.
 
Hat jemand einen Workaround parat, um trotz der Störung bei Microsoft an Nachrichtenablaufverfolgungsberichte zu kommen?
Generierung funktioniert, aber Downloads nicht.

Ich bräuchte recht dringend Infos, die älter als 10 Tage sind. MS will das erst bis 23.12. fixen.
 
h00bi schrieb:
Generierung funktioniert, aber Downloads nicht.
Ich hab's grad mal mit Powershell versucht und bekomme denselben Fehler wie in der UI. Das ist wohl der Webservice der die Downloads hostet, der kaputt ist.
 
Mal wieder spannend wie Cloud Anbieter einfach mal so für Tage ihren Service nicht bereitstellen können...

Aber wehe on Prem tut mal was für ne halbe Stunde nicht....
 
Ich bin so froh das wir wieder ein on prem MDM haben und von dem drecks Intune weg sind. Das ist echt die Pest.
 
Da steht halt in den Verträgen einen SLA von 98 oder weniger und schon kann das Stunden oder Tage ausfallen ohne das der Vertrag verletzt wird. Das super, dann ist Microsoft schuld. Keine Ahnung was in den Verträgen für SLA definiert sind von Microsoft

Meine Kollegen migrieren alles auf Intune gerade. Mobile Iron ist halt auch nicht mehr was es mal war. Seit Jahren die übelsten Zero Day lücken
 
Wir haben es versucht (sind auch erst von MobileIron nach Intune weil die Lizenzen eh schon da sind). Aber das ist alles sehr umständlich und intransparent und unglaublich langsam. Ich habe jetzt Baramundi MDM am laufen und das flutscht einfach. Fehlt nur noch der Sync nach Entra damit die Geräte dort für conditional access registriert sind, aber das soll mit dem nächsten Update kommen.
 
konkretor schrieb:
Da steht halt in den Verträgen einen SLA von 98 oder weniger und schon kann das Stunden oder Tage ausfallen ohne das der Vertrag verletzt wird. Das super, dann ist Microsoft schuld. Keine Ahnung was in den Verträgen für SLA definiert sind von Microsoft
Ja, aber bei so etwas muss der Einkauf doch eigentlich sagen. Danke für das Gespräch nächster bitte....

Das ist ja Consumer level....
 
Die Standardverträge sind öffentlich und recht genau definiert.
https://www.microsoft.com/licensing/docs/view/Service-Level-Agreements-SLA-for-Online-Services

Es gibt keine Instandsetzungszeiten. Stattdessen gibt es Geld zurück, wenn die Verfügbarkeit von Services unter bestimmte Level fällt.
Für die meisten Services ist das:
Verfügbarkeit fällt unter 99,9% (Ausfall 8,75h pro Jahr) -> 25% zurück
Verfügbarkeit fällt unter 99% (Ausfall 3,6 Tage pro Jahr) -> 50% zurück
Verfügbarkeit fällt unter 95% (Ausfall15,25 Tage pro Jahr) -> 100% zurück.

Die typische Dienstverfügbarkeit ist weit höher, siehe https://learn.microsoft.com/de-de/o...ice-description/service-health-and-continuity:
1734594904923.png


So ein Ausfall betrifft zB in 99% der Fälle immer nur einen Teil der Leute (meistens weil halt grad irgendwo ein Teil des verteilten Systems weggeflogen ist, und wer auf diesem System in dem Moment gehostet war, bekommt halt die Auswirkungen ab, weils vllt dauert, bis die Replica aus einem anderen RZ vollständig rübergespielt ist - sehr laienhaft umrissen), seltenst den ganzen Service.
Was man im Netz immer liest, ist - mal etwas weiter betrachtet - halt meist (!) nur ein Teil der Wahrheit. Typischerweise melden sich ja auch meist die Leute, bei denen was kaputt ist oder die, die gar nicht mitspielen, aber trotzdem das sagen wollen :D

Jetzt kann man natürlich sagen "Glaub ich ned, man hört doch ständig von Problemen!", in dem Fall hängt es meistens auch wieder hieran:
Was man im Netz immer liest, ist - mal etwas weiter betrachtet - halt meist (!) nur ein Teil der Wahrheit. Typischerweise melden sich ja auch meist die Leute, bei denen was kaputt ist oder die, die gar nicht mitspielen, aber trotzdem das sagen wollen :D

Jeder Kunde kann jederzeit sehen (und muss das monitoren!), welche Themen es grade seinen Tenant bezogen gibt, Beispiel:
1734595636869.png

Siehe auch:
https://learn.microsoft.com/de-de/m...o365-worldwide&WT.mc_id=365AdminCSH_inproduct
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Mordi, konkretor, xexex und eine weitere Person
Wir hatten jedenfalls diese Woche auf Adminseite ziemliche Probleme. Zeitweise konnte ich das Teams Admin Center komplett nicht erreichen, und wenn es erreichbar war, war es ziemlich schneckig.
Aber das hatte zum Glueck bei uns keinen - oder nur einen kleinen - Impact fuer die User. Da war nichts auffaellig, nichts besonderes am Helpdesk.
 
Zensai schrieb:
Es gibt keine Instandsetzungszeiten. Stattdessen gibt es Geld zurück, wenn die Verfügbarkeit von Services unter bestimmte Level fällt.
Wenn - aktuelles Beispiel - alles funktioniert außer dem Download von Nachrichtenablaufverfolgungen... zählt der Service für Microsoft dann als 'up' oder 'gestört'?

Insbesondere, da das im Health als 'Dienstbeeinträchtigung' mit Status 'Info' gelistet ist.
 
Zurück
Oben