Intel Optane SSD DC P4800X: Das leistet 3D XPoint im Server-Format
2/3Testsystem und Benchmarks
Intel hat ComputerBase vor wenigen Tagen ein Testsystem mit der neuen Optane SSD DC P4800X in der Größe von 750 GByte zur Verfügung gestellt. Dabei handelt es sich um ein vollständiges 2U-System, in dem ein Server Board S2600WF steckt. Darauf sind zwei Xeon Gold 6154 platziert, die jeweils 18 Kerne und 36 Threads bei Taktraten von 3,0 bis 3,7 GHz bieten. Die beiden 200-Watt-CPUs sind explizit auf hohen Takt ausgelegt, denn wie Intel betont sind höher taktende CPUs besser für die Leistung der SSD.
Zur Seite stehen den CPUs insgesamt 192 GByte DDR4-Arbeitsspeicher. Das Betriebssystem ist auf einer SATA-SSD installiert, die Optane-SSD ist als zweites Laufwerk konfiguriert und nicht mit Daten befüllt – ein reiner Benchmark-Datenträger. Der Gesamtwert des Systems liegt damit im fünfstelligen Bereich.
Benchmarks: Server-SSD trifft High-End-Consumer-Lösung
Da es der erste Ausflug von ComputerBase in die Welt der Server-SSDs ist und nur wenig Zeit vor dem Fall des NDA blieb, muss es bei den Benchmarks eine Kompromisslösung geben. Denn es liegen keine Vergleichswerte von anderen Server-Storage-Lösungen vor, die Einordnung erfolgt deshalb zum Teil gegenüber Consumer-SSDs. Dafür wird eine Samsung SSD 960 Pro (Test) genutzt, die aktuell schnellste Lösung aus dem Enthusiast-Markt. Sie erlaubt Erkenntnisse in den Bereichen, in denen die herkömmliche SSD ausreicht, aber auch wo die Stärken von Optane liegen.
Zur Vorbereitung (Pre-conditioning) zählt, dass die Optane-SSDs nach ihrer Installation ruhen müssen. Dies liegt an der periodischen Auffrischung der Daten (periodic refresh), die per Firmware geregelt im Hintergrund abläuft. Intel gibt an, wenigstens drei Stunden nichts mit den Laufwerken zu machen (Idle), um die möglichst optimale Leistung zu erreichen. Der Server sollte demnach mindestens drei Stunden vorher in Betrieb sein, bevor mit den Messungen begonnen werden kann. Wie ComputerBase im Test feststellen musste, ist daran in der Tat etwas dran: Während die IOPS immer konstant bleiben, sind es insbesondere die Latenzen, die nach sauberer Konditionierung vorab deutlich geringer ausfallen.
Windows Server 2016 enttäuscht, Windows 10 überrascht, Linux solide
Eine Server-SSD sollte auch unter den passenden Betriebssystemen getestet werden. Intel empfiehlt neben Linux das neue Windows Server 2016, worauf der ComputerBase-Test hauptsächlich zurückgreift und was eine Nutzung mehrerer Benchmarks auch unter Windows 10 erlaubt.
Von Betriebssystemen und Treibern...
Beim Einsatz der neuen Optane-SSD als auch dem Vergleichslaufwerk kam es aber zu Problemen respektive Ergebnissen, die nicht stimmen konnten. Da die Optane SSD DC P4800X eine einfache PCI-Express-Lösung ist, wurde sie zur Kontrolle auch in einem Windows-10-System verbaut, welches mit dem Intel Core i7-8700K samt neuester Plattform bestückt war. Der Intel-NVMe-Treiber ist identisch, eine spezielle Version mit der Nummer 2.0.0.1015 nur für die Data-Center-SSDs inklusive Optane.
In einigen Fällen war die Leistung unter Windows 10 deutlich besser, auch die Latenzen waren niedriger. Rund läuft Windows Server 2016 auch mit einem umfangreichen Optimierungsprogramm als Storage-Lösung nicht. Zumindest verbreitete Client-Benchmarks wie AS SSD und CrystalDiskMark liefern weitaus niedrigere Werte als unter Windows 10.
Mit der Samsung-SSD tauchte ein altbekanntes Problem auf: der NVMe-Treiber lässt sich nicht installieren, einige Ergebnisse fallen deshalb zu niedrig aus, da der Windows-Standard-Treiber auch beim Server-Betriebssystem nach wie vor nicht das Optimum erzielt. Doch selbst wenn über Umwege der aktuelle Treiber installiert werden kann, fällt die Leistung schlecht aus. Für Windows Server 2016 ist die SSD nicht gedacht, macht aber noch einmal eines ganz klar: Einer der Ursprungsgedanken hinter dem NVMe-Standard wird so auch heute noch mit Füßen getreten, von dem Wunschtraum nach einem einheitlichen Treiber für alle SSDs ist auch Ende 2017 nichts zu sehen.
Benchmarks und Windows Server 2016, Windows 10 und Linux
Mit einem der beeindruckendsten Ergebnisse soll der Benchmark-Überblick starten. Dabei handelt es sich um den Langzeit-Test von I/O-Meter, der die IOPS über einen längeren Zeitraum ausgibt. Definiert sind dabei die klassischen Parameter für eine SSD, 4KB Random Write mit einer Queue Depth von 32.
Das Ergebnis: Wo jede andere SSD einbricht, bleibt Optane konstant auf hohem Niveau. Das Desktop-Flaggschiff 960 Pro liefert zum Start des Tests zwar ähnliche hohe IOPS, ist binnen einer Minute aber massiv eingebrochen und pendelt sich bei 30.000 IOPS ein, während die P4800X im Schnitt weiterhin knapp 180.000 IOPS liefert – egal ob unter Windows Server 2016 oder Windows 10.
Doch das Abschneiden der Samsung-SSD ist kein Beinbruch, vielmehr verdeutlicht es das Einsatzgebiet. Denn im heimischen PC sind derart hohe Schreibraten kaum länger als wenige Sekunden vonnöten, die hohe Peak-Leistung fängt in der Regel fast alle Einsatzfälle ab. Der Server hingegen muss auch über längere Zeiten sehr hohe Datenmengen verarbeiten.
Mit Diskspd 2.0.17 unter Windows Server 2016 und auch Windows 10 werden die Zahlen untermauert. Alle Tests werden für mindestens zehn Minuten durchgeführt, um Spitzen abzufangen und die Leistung zu zeigen, die im Dauerbetrieb eines Servers relevant ist. Mit dem Befehl diskspd.exe -d600 -b4k -w100 -r -o4 -t8 -h -L #1 wird auch in dem Test als erstes der IOPS-Wert mit 4KB Random Write bei QD32 ermittelt. Die Änderung der Parameter auf -w0 spuckt mit gleichen Einstellungen den passenden Random-Read-Wert in Form von IOPS aus. Nicht weniger Beachtung gilt aber der Mischung aus beiden Tests, 70 Prozent Lesen und 30 Prozent Schreiben – der Kommandozeilen-Parameter wechselt dementsprechend mit -w30.
QD32 ist eine gute Aufgabe auch für klassische SSDs, die Samsung-Platte kann über kurze Zeit dementsprechend gut mithalten, wenngleich diese trotz zwischen den Tests gewährten Verschnaufspausen samt manuell ausgeführtem TRIM-Befehl mitunter auch sehr inkonsistente Ergebnisse liefert. Die Optane-SSD liefert selbst im dritten, vierten und fünften Lauf exakt die gleichen IOPS in den Tests, ohne Pausen oder Notwendigkeit von Tools und TRIM selbst bei stetig wechselnden Workloads. Hier zeigt sich der erste gewaltige Vorteil der neuen Speichertechnik.
Um die maximale Leistung der Schreib- und Leserate sowie der niedrigsten Latenz in Erfahrung zu bringen, bedarf es Anpassungen des Tests. Für die maximalen sequenziellen Datentransferraten wird die Blockgröße von 4 auf 64 KB erhöht (-b64k), QD32 bleibt erhalten. Bei der niedrigsten Latenz hingegen wird zurück auf 4KB gegangen, aber auch von QD32 auf QD1 (-o1 -t1) – der Extremfall.
Linux ist das solide Arbeitstier
Linux zeigt mit dem integrierten Benchmarktool fio ganz ähnliche oder gar leicht bessere Ergebnisse als unter Windows Server 2016 und landet so kurioserweise in viele Fällen auf dem Niveau von Windows 10. Die Konfigurationsmöglichkeiten sind dabei ganz ähnlich wie bei Diskspd unter Windows, weshalb die Ergebnisse am Ende auch nahezu identisch ausfallen. Doch auch Linux bedarf vorab einer umfangreichen Konfiguration, Intel hat diese unter anderem in einem Blog-Posting beschrieben. Dies beginnt mit BIOS-Einstellungen, denn die höchste stabile Leistung gibt es nur ohne C- und P-States, ohne Hyper-Threading und Turbo-Modus sowie diversen Kniffen im Betriebssystem selbst – ähnlich ist auch der reguläre SSD-Benchmark-Parcours von ComputerBase konfiguriert.
Die von Intel so beschriebenen erreichbaren IOPS von 550.000 (PDF-Dokument) sind dabei die einfachere Aufgabe, die überbietet das ComputerBase-Testsystem mit 573K oder gar 587K IOPS sogar leicht. Schwieriger wird es bei den Latenzen, insbesondere für die Sondertests und dem viel beworbenen Quality of Service (QoS). Den 99-Prozent-Wert von 10 Mikrosekunden schafft dabei auch das ComputerBase-Testsystem, laut Intel sind sogar Latenzen möglich, die bei 7 Mikrosekunden liegen.
Das Kriterium QoS, das den Grad der Vorhersagbarkeit von Antwortzeiten beschreibt und damit einen Hinweis auf die Leistungsbeständigkeit gibt, schließt aber auch noch das 99,999th Percentile ein. Eine Grafik veranschaulicht, dass bei 99 Prozent der Messwerte die Antwortzeit um den Faktor 60 niedriger ausfalle. In 99 Prozent der Fälle soll die Latenz weniger als 200 µs betragen.
Doch diesen Wert zu erreichen ist die echte Schwierigkeit. Denn dabei kommt die restliche Hardware ins Spiel, wie Intel gegenüber ComputerBase noch einmal deutlich erklärte. So kann sich von einer 3 GHz schnellen CPU im Vergleich zu einer lediglich 2,3 GHz schnellen CPU im System die Latenz glatt verdoppeln, während die IOPS identisch bleiben. Doch die beworbenen „unter 200 μs“ sind möglich, ComputerBase erreichte 139 μs, Intel zeigt mit eigenen Systemen 129 μs. Das 99th Percentile und die Vorgabe von Intel von 63 μs schaffte auch der CB-Server im 4K Random Write QD16-Test fast.
Intel-Testsystem | ComputerBase-Testystem | |
---|---|---|
4K Random Write QD16 | 556K IOPS | 587K IOPS |
4K Random Write QD16 Latenz 99% | 63 μs | 64 μs |
4K Random Write QD16 Latenz 99,999% | 129 μs | 139 μs |
4K Random Read QD16 | up to 550K IOPS | 578K IOPS |
4K Random Read QD16 Latenz 99,999% | <150 μs | 89 μs |
4K Random Read QD1 Latenz 99% | 9 μs | 11 μs |
4K Random Read QD1 Latenz 99,999% | 53 μs (<60μs) | 49 μs |
4K Random Write QD1 Latenz 99,999% | <100 μs | 53 μs |
4K Random 70/30 Read Write QD16 | up to 500K IOPS | 523K IOPS |
Die Samsung SSD 960 Pro kann bei den IOPS in der Regel sehr gut mithalten. Doch geht es an die Latenzen, liegen mitunter Welten zwischen den Modellen. Was 11 μs mit der neuen Optane-SSD dauert, schraubt sich bei der Samsung beispielsweise auf 83 μs. Insbesondere bei kleineren QD fällt die Consumer-SSD weit zurück. Wird der Wert größer als QD32 kommt sie jedoch wieder zurück ins Spiel, was für die grundlegenden Latenzen im 99-Prozent-Rahmen gilt. Wird auf 99,999th Percentile gesehen, hat das Consumer-Modell aber auch weiterhin keine Chance.