Das wäre quasi mit jedem neuen Taktzyklus ein DDoS auf den IF, lol.stevefrogs schrieb:Dass die Synchronisierung der beiden Caches eine Herausforderung sein könnte, ist aber ein guter Einwand, hier habe ich womöglich den Aufwand unterschätzt. Ich hätte angenommen, dass man das im Hintergrund über den IF macht.
Doch, leider funktioniert es sonst nicht und richtet mehr Schaden an als es nutzt.stevefrogs schrieb:Die beiden Caches müssen ja nicht perfekt in Echtzeit synchronisiert sein.
Aber woher weiß denn CCD1, dass das der Fall ist und in CCD0 Daten zum abrufen liegen? Er müsste vor jedem Cache-Zugriff auf eine Zelle seines "eigenen" L3 erstmal bei CCD0 Nachhören, ob der gerade was in seine Pendant-Zelle reinschreiben mag. Das ist halt ein grundlegendes Kommunikationsproblem. Bei verteilten Rechennetzen ist genau sowas im Grunde genommen stets das Limit, das mit sehr viel Aufwand und komplizierten Algorithmen umschifft werden muss. In einer einzelnen CPU willst du sowas echt nicht haben und Echtzeitanwendungen (= Spiele) schießt es sowieso ab. Stell dir quasi SLI innerhalb der CPU vor, Hilfe.stevefrogs schrieb:In den (seltenen) Fällen, wo die Daten von einem Kern des CCD_0 benötigt werden, die zwar schon im Cache des CCD_1 liegen, aber noch nicht synchronisiert wurden, würden die Daten einfach auf die selbe Weise geladen werden, wie dies schon im CCD_1 erfolgt ist (also "langsam" aus dem Speicher).
Wie? Je voller der Cache, desto seltener soll es vorkommen, dass unsynchronisierte Daten im Cache sind? Vielleicht denken wir komplett aneinander vorbei, aber es wäre imho genau andersherum.stevefrogs schrieb:Sofern dieser Umstand entsprechend selten eintritt, sollte es sich meinem Verständnis nach nicht sonderlich auf die Performance auswirken, oder übersehe ich da was? Mit zunehmender Füllung des Cache (bzw der Caches) sollten diese Situationen ja tendenziell nahezu null sein.
AMD sagt laut HWL eben nicht, ob es überhaupt einen Vorteil gibt. Er kann halt auch denkbar klein sein. Wenn er groß wäre, wäre das Reasoning ja eh anders und man würde einen doppelten X3D nicht direkt abschreiben.stevefrogs schrieb:Der Original-Artikel von Hardwareluxx (der natürlich brav im Artikel verlinkt ist) sagt ja schon ganz klar aus, dass es technisch absolut möglich ist (und schon mehrmals erwogen wurde) und es rein aus finanziellen Überlegungen nicht gemacht wurde. Außerdem wird nicht der Leistungsvorteil an sich geleugnet, sondern nur, dass dieser womöglich nicht so hoch ist, wie ihn sich viele vielleicht vorstellen.
Anderer Redaktionen haben da (verständlicherweise) einfach nicht den Aufwand betrieben, einen Informatiker nach seiner fachlichen Einschätzung zu fragen, was ich als Redakteur praktischerweise nicht musste, weil ich selbst einer bin. Abgesehen davon ist "fraglich" aber auch nicht = "ausgeschlossen".stevefrogs schrieb:Klingt dort schon ganz anders als die Formulierung (und Ausführungen) hier auf CB: "Mehrleistung durch zweiten 3D V-Cache ist fraglich". Auch andere Publikationen, die sich auf den Hardwareluxx-Beitrag beziehen, sehen das nicht so pessimistisch wie CB hier.
Ich lese das ehrlich gesagt so, dass durchaus offen bleibt, ob überhaupt eine konstruktive Mehrleistung drin ist.stevefrogs schrieb:Sofern also Hardwareluxx hier AMD nicht falsch wiedergegeben hat, steht außer Frage, dass eine Mehrleistung drin ist (wie hoch genau weiß nur AMD und ist sicher davon abhängig, wie viele Kerne ein Spiel bzw Anwendung auslasten kann).
Ne, das ist ja eben die Krux. Die bleibt bestehen, nur eben in abgewandelter Form. Aber das erläutere ich jetzt nicht noch ein drittes Mal, sorry. ^^stevefrogs schrieb:Und die Scheduler-Problematik wäre dann sowieso Geschichte, welche ja das Hauptärgernis ist.
Man kann das noch weiter nachvollziehen und feststellen, dass der Vorteil daraus entsteht, dass die Daten schneller (= mit niedrigerer Latenz) geladen werden können als beim Schritt zur nächsten Stufe der Speicherhierarchie, also dem System-RAM. D.h. das ganze ist streng genommen kein Speicherplatzproblem, sondern ein Speicherlatenzproblem. Und diese Sichtweise hilft vielleicht auch noch einmal, um zu verstehen, dass es mit dem Weg über IF und I/O-Die zum Cache des zweiten CCDs nicht gelöst wird. Eben weil die Latenz hier signifikant schlechter ausfällt als zu alloziertem Speicher im "eigenen" X3D-Chiplet.stefan92x schrieb:Der einzige Grund, warum die X3D besser performen als die normalen, ist die Tatsache, dass die 32 MB L3 pro CCD volllaufen und die 96 MB halt deutlich mehr enthalten.
Zuletzt bearbeitet: