Zu wenig Leistung von Samsung 960 Pro mit X299

S

Stuntmp02

Gast
Ich habe ein Gigabyte X299 UD4 zusammen mit einer Samsung 960 Pro im Einsatz und bekomme hier leider nicht die Performance, die beispielsweise Computerbase mit einem viel billigeren Chipsatz Z170 auf Basis von Core i7 6700K bekommt. Vor allem die sequential read und sequential write Werte sind für die 960 Pro bei mir deutlich zu niedrig und scheinen eine Art Limit bei der Verwendung der Schnittstelle zu haben, die bei etwa 2,9GB/s liegt, anstatt der 3,5GB/s bei dem Computerbase Testsystem.
CDM.jpg

Folgende Einstellungen sind getätigt:
- Energiesparplan "High Performance" ausgewählt
- Spectre/Meltdown Patches sind deaktiviert
- BIOS Factory Reset gemacht
- Die PCIe Lanes des M.2 Slots teilen sich Bandbreite mit SATA 4,5,6,7 - alle genannten SATA-Ports sind im BIOS deaktiviert und nichts daran angeschlossen
- Läuft laut Samsung Magician mit PCIe Gen. 3 x 4
- Samsung NVMe Treiber ist installiert (Mit Windows Treiber sind die Ergebnisse noch schlechter)
- SSD Optimization von Windows 10 durchgeführt
- Windows 10 wurde frisch auf die neue SSD installiert, kein Klon oder sowas

Hat irgendjemand eine Idee, wie ich die volle Leistung der 960 Pro abrufen kann?
 
Meltdown Patch vielleicht?
https://www.google.de/amp/s/www.heise.de/amp/meldung/Intel-Benchmarks-zu-Meltdown-Spectre-Performance-sackt-um-bis-zu-10-Prozent-ab-SSD-I-O-deutlich-mehr-3938747.html

EDIT:
Sorry überlesen..
 
Zuletzt bearbeitet von einem Moderator:
Er hat doch in seiner Aufzählung mit drin stehen, dass Meltdown-/Spectre nicht aktiv ist. Eine zündende Idee habe ich allerdings auch nicht.
 
Stunrise schrieb:
- Spectre/Meltdown Patches sind deaktiviert

Ich habe gerade einen User bei Overclock.net gefunden, der ähnliche "Probleme" hat. Es scheint wohl am X299 Chipsatz zu liegen. Die vielen PCIe Lanes werden bei X299 wohl ausschließlich auf die PCIe x16 Slots gebunden, weil sonst die Kompatibilität zu den total sinnfreien Kaby Lake X kaum möglich wäre, dadurch sind alle M.2 Slots über den Chipsatz angebunden und der ist deutlich langsamer, als die Lanes der CPU. Aber so richtig ganz kann ich das trotzdem nicht verstehen, weil ja ein Core i7 6700 insgesamt auch nur 16 PCIe Lanes hat und die gehen alle für die Grafikkarte drauf - ergo ist auch dort die M.2 SSD über den Chipsatz angebunden?!
 
Zuletzt bearbeitet:
Ich mag vielleicht falsch liegen, aber wenn du die genannten SATA Ports im BIOS deaktiviert hast,
kann es nicht sein, dass du auch einen Teil der "Leitung" mit deaktivierst und somit der Geschwindigkeitsverlust entsteht?
 
Der Grund für das Deaktivieren dieser Ports war, dass die Leistung hier so mau war. Es macht keinen Unterschied, ob Enabled oder Disabled, die Leistung ist immer identisch.
 
Testfilesize ist nur 1gb. Würde ich mal viel höher stellen.
 
Stunrise schrieb:
dadurch sind alle M.2 Slots über den Chipsatz angebunden und der ist deutlich langsamer, als die Lanes der CPU. Aber so richtig ganz kann ich das trotzdem nicht verstehen, weil ja ein Core i7 6700 insgesamt auch nur 16 PCIe Lanes hat und die gehen alle für die Grafikkarte drauf - ergo ist auch dort die M.2 SSD über den Chipsatz angebunden?!
Richtig, auch bei den S. 1151 Boards sind die M.2 Slots immer am Chipsatz angebunden, daran kann es nicht liegen.

Stunrise, lass mal den AS-SSD Benchmark laufen und posten den Screnshot mit dem Ergebniss und führe auch mal den CDM Benchmark im Abgesicherten Modus von Windows durch. Der Chipsatztreiber ist installiert? Wenn nicht, mache dies vorher unbedingt! Nimm ggf. auch noch mal das OC raus und benche mit den Default Einstellungen.
 
Ich wollte hier nur noch ein Update geben: Es ist scheinbar normal, dass die High End Plattform X299 schlechtere Ergebnisse mit dem M.2 Slot liefert, als die Budget-Plattform - warum auch immer das so ist. Gleich mehrere User haben mir das Verhalten bestätigt.

Wirklich erklärbar ist es nicht, mein CPU hat 44 PCIe Lanes und mein Chipsatz 24, trotzdem ist die Realperformance bei NVMe unterhalb von zx70, die nur mit 16+20/24 angebunden sind. Die Lösung wäre hier ein M.2 PCIe Adapter, den ich an einen PCIe Slot stecken kann, der über die CPU angebunden ist - aber da sehe ich die 20€ einfach rausgeworfen, deshalb lasse ich es so, wie es ist.
 
Vielleicht hat der Chipsatz eben durch seinen Umfang mehr "Ballast" der bremst? Geht mich zwar nichts an, aber bei 2k€ für die Plattform, spielen da dann die 20€ wirklich noch eine Rolle?
 
Stunrise schrieb:
Wirklich erklärbar ist es nicht, mein CPU hat 44 PCIe Lanes und mein Chipsatz 24, trotzdem ist die Realperformance bei NVMe unterhalb von zx70, die nur mit 16+20/24 angebunden sind.
Vielleicht liegt es an Mesh statt Ringbus?
Stunrise schrieb:
Die Lösung wäre hier ein M.2 PCIe Adapter, den ich an einen PCIe Slot stecken kann, der über die CPU angebunden ist - aber da sehe ich die 20€ einfach rausgeworfen, deshalb lasse ich es so, wie es ist.
Leider habe ich noch an keiner Stelle eine Test gesehen wo genau dies mal vergleichen wird, also beim X299 einmal über Chipsatz und einmal direkt an den PCIe Lanes der CPU. Theoretisch sollte es an den Lanes der CPU ja ein wenig schneller sein, praktisch könnten Energiespareinstellungen aber dann doch bremsen, diese lohnen sich für die 44 Lanes der CPU natürlich weit mehr als für die 4 Lanes an denen der Chipsatz hängt und wo es sowieso dauernd Traffic geben dürfte.

Außerdem sollte man nicht vergessen, dass die CPUs für den S. 2066 auf die Last von Servern optimiert sind, die müssen also vor allem intern hohe Bandbreiten haben, die Latenzen sind da nicht so wichtig wie auf der Mainstreamplattform bei der vor allem Singleuseranwendungen laufen, wo also Latenzen gegenüber der Bandbreite Vorrang haben. Beides lässt sich meist schlecht unter einen Hut bekommen, aber wenn eine Serverplattform wenig Bandbreite hat, z.B. eben auf den internen Kommunikationspfaden der CPU, dann steigen die realen Latenzen der Anwendungen an, die diese nutzen wollen, da diese Bandbreite dann sehr wahrscheinlich häufig von anderen belegt wird. Daher entscheidet man sich dort lieber für eine große Bandbreite, auch wenn die Latenz für eine einzelne Anwendung dann höher ausfällt, aber für viele parallele Anwendungen wird die realen Latenz im Durchschnitt dann geringer ausfallen.

So ein S.2066 System ist eben nicht in jeder Hinsicht überlegen und man muss schon schauen was man damit machen möchte, wenn man vermeiden möchte das die Nachteile überwiegen.
r4yn3 schrieb:
Vielleicht hat der Chipsatz eben durch seinen Umfang mehr "Ballast" der bremst?
Da der C236 auch 8 SATA Ports hat, würde ich mich nicht Wundern, wenn die ganzen aktuellen Intel Chipsätze und schon der Z170 alle auf dem gleichen Die beruhen und da nur beim Wechsel von Z170 auf Z270 die 4 HSIOs und PCIe Lanes freigegeben wurden die schon drin waren und ebenso alle 8 SATA Ports, wie sie ja der C236 schon hat. Damit wäre der X299 nur der Maximalausbau des Chips bei dem alles freigeschaltet ist.
 
r4yn3 schrieb:
aber bei 2k€ für die Plattform, spielen da dann die 20€ wirklich noch eine Rolle?
Es sind weniger die 20€ selbst, als mehr das drumherum. Ich muss meinen PC wieder aus dem Schreibtisch holen, aufschrauben, die Grafikkarte entfernen um an den M.2 Slot zu kommen, dann die Erweiterungskarte kaufen und recht nah unter der 3-Slot Grafikkarte verbauen. Dadurch habe ich schlechteren Airflow zur Grafikkarte, viel Aufwand und fraglichen Ertrag. Wäre es eine Einstellung gewesen, hätte ich gern die 100% Leistung gehabt, aber so macht es keinen Sinn. Zudem habe ich Board und CPU gebraucht für 750€ zusammen gekauft, der RAM lag neu bei 380€, da sind wir schon noch weit weg von 2000€.
Wenn ich die Wahl zwischen einer 8700k Plattform für 550€ und einer i9 7900X Plattform für 750€ habe (RAM brauch ich ja auf beiden), würde ich jederzeit wieder die X299 Variante wählen - und so waren meine Optionen im Dezember, als ich mit Ryzen unzufrieden war.

@Holt: Der Core i9 hat in der Tat höhere Latenzen, als die kleine Plattform mit wenig Kernen und Ringbus. Schauen wir mal, wie viel sich die Latenzen bei Ringbus und steigender Kernzahl erhöhen. Hier muss ich die Kröte einfach schlucken...
 
Stunrise schrieb:
Schauen wir mal, wie viel sich die Latenzen bei Ringbus und steigender Kernzahl erhöhen.
Die waren bei den großen Xeon CPUs mit sogar zwei Ringen ja schon sehr hoch, deshalb hat Intel ja auch auf Mesh umgestellt, wobei dies dann erst ab einer bestimmten Anzahl von Kernen, ich meine 12 oder 14 wurde mal irgendwo genannt, dann vorteilhaft ist, die kleinen Dies bis zu dem 10 Kernern sind also eigentlich die Leidtragenden dieser Umstellung, da bei ihnen der Vorteil gar nicht ankommen kann, sie den Wechsel der wegen der großen gemacht wurde, aber auch vollziehen mussten.
 
Zurück
Oben