Test GeForce GTX 1080 im Test: Ein Paukenschlag in 16 nm mit 1,8 GHz und GDDR5X

r4yn3 · 21. Mai 2016

Wäre auch meine Vermutung, ja. Wie gesagt konnte ich das aber so auf die schnelle nirgend schriftlich als Beleg finden.

Pizza! schrieb:
Die Shader-Einheiten von AMD und nvidia sind nicht 1:1 vergleichbar, dazu ist alles drum herum auch verschieden aufgebaut.

Die Leistung eines einzelnen Shaders ist afaik schon vergleichbar. Nai hat glaub ich dazu mal was vorgerechnet. Aber wie du schon sagtest, das drum herum ist einfach zu verschieden um rein aus der Shaderzahl einen Performancerückschluss zu ziehen.
Einzig anhand der Flops Leistung könnte man vergleichen. Als Beispiel würde hier Hitman dienen, wo ein Fiji mit einem GP104 beinahe gleichauf liegt. Beide auch annähernd die selben Flops.

ampre · 21. Mai 2016

Du hast 0 Ahnug was Async Compute ist oder Pizza?

Was mir noch zur taktbarkeit einfällt ist das sie auch von Architektur abhängt. Denn durch je mehr Transistore ein Signal muss, um so schwächer kommt es raus. Deshalb muss man bei langen wegen durch die Architektur vorne mehr Spannung reinstecken, das hinten noch etwas raus kommt. Das senkt die Effizienz und begrenzt den Takt da eine gewisse Spannung von Nöten ist um den Transistor zu schalten und der brauch immer mehr Spannung bei mehr Takt.

IBISXI · 21. Mai 2016

Wadenbeisser schrieb:
Wenn die Transistoren dichter zusammen sitzen konzentriert sich deren Abwärme auf einen kleineren Raum die dann erst einmal abgeleitet werden will und nebenbei würde ich sagen das sie sich aufgrund der räumlichen Enge auch gegenseitig stärker beeinflussen, was sich ebenfalls negativ auf die Taktbarkeit auswirken könnte.

Genau das Gegenteil ist der Fall.

Bei jedem Shrink sitzen die Transitstoren näher beieinander und gleichzeitig gibt es mehr Takt.

Sonst hätten wir heute 10 Milliarden Transistoren die (wie bei meinem ersten 486 PC) mit 25 Mhz laufen.

r4yn3 · 21. Mai 2016

Wie schon gesagt muss man hier unterscheiden, vergleicht man Packdichte und Takt zwischen einzelnen Nodes, also 14nm und 28nm. Oder vergleicht man das Verhältnis der Packdichte innerhalb eines Nodes.
Bei einem Shrink sitzen die Transistoren natürlich im absoluten Verhältnis näher beisammen, relativ gesehen wird der Abstand wenn es ein reiner Shrink ist gleich bleiben.
Dennoch kann ich bei einer Fertigungsgröße eine unterschiedliche Packdichte haben, was ja mein Bild des Bulldozer Dies zeigt.

IBISXI · 21. Mai 2016

Die Transistoren produzieren weniger Wärme weil sie kleiner werden.
Die Gesamtschaltung braucht weniger Spannung weil die Wege kürzer werden.

Andyw1228 · 21. Mai 2016

ampre schrieb:
Du hast 0 Ahnug was Async Compute ist oder Pizza?

Was mir noch zur taktbarkeit einfällt ist das sie auch von Architektur abhängt. Denn durch je mehr Transistore ein Signal muss, um so schwächer kommt es raus. Deshalb muss man bei langen wegen durch die Architektur vorne mehr Spannung reinstecken, das hinten noch etwas raus kommt. Das senkt die Effizienz und begrenzt den Takt da eine gewisse Spannung von Nöten ist um den Transistor zu schalten und der brauch immer mehr Spannung bei mehr Takt.

Deswegen hatte ich das Beispiel P4 genannt...Intel hatte ein Zeit lang in die CPUs immer ausgefeiltere Controller-Algorithmen und Hardware (Prefetching, Sprungvorhersage, Stack, Decoder) eine sehr lange Pipeline zu integrieren. Eine lange Pipeline bringt nur mehr IPC, wenn sie ausgelstet ist un nicht leer läuft (stall), weil irgendein Adresse nicht in einem Register liegt, dann kommen die Latenzen vom RAM zum schlagen.
Es gibt also Architekturen, die sich höher takten lassen, als andere.
Aber der Rest ist Unfug. In einer parallelen Schaltung (egal wie viele Elemente) liegt an jedem Bauteil die gleiche SPannung an- sofern es die gleichen Teile (z.B. Transistoren). Strom ist dann auch über alle gleich, wenn man es denn will.
Strom ist nicht wie Schall, dass er nach mehreren hundert Metern abflaut.
Je kleiner die Fertigung, detso niedriger kann die Spannung sein, damit die Transistoren noch schalten und zischen 01 und 1 unterschieden werden kann.
Das Problem bei kleinerer Fertigung sind Phantom-, Leck- und Querströme. Deshalb brauchen die Karten zwar wenig Spannung, aber recht viel Strom (1V, aber bis zu 50A!). Der Strom hingegen teilt sich auf alle Transistoren auf- 1 mini Transistor wäre bei 100mA wahrscheinlich schon durchgebraten. Strom erhöht Abwärme, Takt erhöht Abwärme, Architektur beeinflusst Takt...
Ist nicht so einfach, wie ne kleine Verstärkerschaltung zu braten.

BTW: Bei der aktuellen Fertigung in 16nm sind die kleinsten Einheiten wenige Silizium-Atome groß- also viel kleiner wird es nicht mehr und wir können uns bald von Moores-Law verabschieden.

r4yn3 · 21. Mai 2016

IBISXI schrieb:
Die Transistoren produzieren weniger Wärme weil sie kleiner werden.
Die Gesamtschaltung braucht weniger Spannung weil die Wege kürzer werden.

Die Transistoren produzieren weniger Wärme weil die Schaltspannung sinkt. Hab aber an sich nichts damit zu tun, was ich erklären wollte.

Andyw1228 · 21. Mai 2016

IBISXI schrieb:
Die Transistoren produzieren weniger Wärme weil sie kleiner werden.
Die Gesamtschaltung braucht weniger Spannung weil die Wege kürzer werden.

Die Schaltungen brauchen nicht automatisch weniger Spannung und die Wege werden länger.
Es gibt für verschiedene Halbleiter versch. "Durchlass-SPannugen", im Falle von alten Germanium Dioden sind es genau
1.2 V wenn ich mich recht erinnere. Diese FinFets wieder ein andere Spannung
Das ist elementare Physik, genaus wie eine Zink-Kohle Batterie 1.5V und eine NiCd Akku 1.2V hat.
Es werden nur andere Glechricht-Schaltungen benutzt, die andere Restwelligkeiten haben müssen. Im Falle der Pascal reichen weniger mV aus, als bei der Maxwell. Spannung ist aber nicht das Problem, sondern Strom.

ampre · 21. Mai 2016

Andyw1228 schrieb:
Zitat entfernt.

So What???

Auch in einer Parallelen Struktur kannst du viele und wenige Transistoren hintereinander haben. Jenachdem wie man die Interne Logik gestaltet.

Bei Nvidia meinte ich das eher in die serielle Richtung entwickelt mit immer weniger Shadern und immer mehr Takt. Natürlich ist es immer noch parallel aber stark verschlankt um auf mehr Takt zu kommen. Auch hier zeigt sich das das Signal bis zum fertigen Pixel eine kürzere Strecke durchlaufen muss was in einem höheren Takt endet dank verschlankung.

Wenn man möchte könnte man auch 1 Shader nehmen der bei 1000GHz taktet das wäre dann genau so schnell wie 1000 Shader bei 1GHZ. Der 1 Shader wäre dann natürlich voll Serielle und er würde sich super auslasten lassen was bei 1000Shadern dann schon nicht mehr so einfach ist.

Faust2011 · 22. Mai 2016

ampre schrieb:
Wenn man möchte könnte man auch 1 Shader nehmen der bei 1000GHz taktet das wäre dann genau so schnell wie 1000 Shader bei 1GHZ. Der 1 Shader wäre dann natürlich voll Serielle und er würde sich super auslasten lassen was bei 1000Shadern dann schon nicht mehr so einfach ist.

Genau! Irgendwann kommt man bei massiv vielen Shadern in die Sättigung und kann nicht mehr alle auslasten, siehe den Fiji-Chip auf der Fury von AMD. Dessen 4000 Shader wollen erstmal parallel gefüttert werden. Heutzutage hat man Unified Shader, d.h. man kann sie sowohl für Geometrieberechnung als auch die finale Bildpunktberechnung auf dem Ausgabegerät verwenden. Wenn nun die Geometrieberechnung nicht so aufwändig ist (was eigentlich in den meisten Spielen der Fall ist), dann bleibt nur noch die Bildpunktberechnung. Je höher nun die Auflösung, desto besser kann parallelisiert werden, was auch die Praxiswerte der Fury bestätigt hat (während sie in FullHD eher lahm unterwegs ist, rennt sie bei 4k allen davon).

rentex · 22. Mai 2016

Mr.Seymour Buds schrieb:
Sollte kein Problem sein. Im Test ist extra eine Sandy-Bridge CPU aufgenommen worden.

https://www.computerbase.de/artikel/grafikkarten/geforce-gtx-1080-test.54881/seite-8

Es war glaube ich noch nie der Fall, dass man dermaßen lange an einer CPU Generation hängen konnte. Das ist für uns alle natürlich außerordentlich gut. Wir brauchen nur alle paar Jahre eine neue GPU und das wars (zumindest die Spieler unter uns).

Reichen tut vieles! Hab meinen Umstieg auf Skylake, keine Minute bereut. Neue Infrastruktur (PCIe 3.0, M.2, USB 3.0 nativ) und Steigerung der Leistungsreserve nach oben hin. Ein Sandy reicht bei GPU lastigen Titeln, das ändert sich aber wenn es CPU lastig wird...und außerdem ICH WILL BASTELN!!!

TheOpenfield · 22. Mai 2016

Wenn meine Sandy mal ersetzt wird, dann sicher nicht schon wieder durch einen Vierkerner

BlackhandTV · 22. Mai 2016

@ TheOpenfield
aber ein Zweikerner, ist doch plött!

Nai · 22. Mai 2016

@ampre

Was mir noch zur taktbarkeit einfällt ist das sie auch von Architektur abhängt. Denn durch je mehr Transistore ein Signal muss, um so schwächer kommt es raus.

Transistor(schaltungen) haben idr eine verstärkende Wirkung auf ein Signal, da sie von einer Versorgungssappnung gespeist werden.

Auch in einer Parallelen Struktur kannst du viele und wenige Transistoren hintereinander haben. Jenachdem wie man die Interne Logik gestaltet.

Da Transistoren eine gewisse Latenz für das Schalten benötigen ist es für einen hohen Takt sogar schädlich viele Logik-Gatter sequentiell hintereinander zu schalten. Deswegen versucht man afaik um die Latenzen zu minimieren und um damit wiederum einen möglichst hohen Takt zu erreichen die Transistorschaltungen (paradoxerweise) möglichst parallel anzulegen.

Mr.Smith · 22. Mai 2016

ampre schrieb:
Du hast 0 Ahnug was Async Compute ist oder Pizza?

Was mir noch zur taktbarkeit einfällt ist das sie auch von Architektur abhängt. Denn durch je mehr Transistore ein Signal muss, um so schwächer kommt es raus. Deshalb muss man bei langen wegen durch die Architektur vorne mehr Spannung reinstecken, das hinten noch etwas raus kommt. Das senkt die Effizienz und begrenzt den Takt da eine gewisse Spannung von Nöten ist um den Transistor zu schalten und der brauch immer mehr Spannung bei mehr Takt.

Du weißt schon was ein Transistor ist

D
Und von Elektronik hast du auch keine Ahnung, dann hoffen wir mal, dass du von "Asynchronous Compute" mehr Ahnung hast …

ampre · 22. Mai 2016

Nai schrieb:
@ampre

Transistor(schaltungen) haben idr eine verstärkende Wirkung auf ein Signal, da sie von einer Versorgungssappnung gespeist werden.

Das gilt aber nur für den einfachen Transistor nicht wie aber für Transistoren die in einer Logikschaltung verwendet werden.

Denn das ist ja der Trick eines Transistor in einer Logikschaltung das die Speisespannung ja von einem vorherigen Transistor durchgeschalten wird. So kommen die unterschiedlichen Logikverknüfungen ja erst zustande.

Außer man setzt in reglmäßigen Abstänenden einen zusätzlichen Transistor der das Signal als Verstärkung natürlich speist. Das erhöt aber die Latenz um 1 Schaltzyklus.

Andyw1228 · 22. Mai 2016

Erstmal sorry, habe mich bei der Durchlassspannung voll verhauen...
Germanium hat 0.3V. Silizum hat 0.6V Ich hatte es mit irgendeinem anderen Wert (Z-Dioden; LED oder irgendsowas...ist lange her) durcheinander gebracht. Auf jeden Fall hat jeder Werkstoff ein festen Wert.

ampre schrieb:
Bei Nvidia meinte ich das eher in die serielle Richtung entwickelt mit immer weniger Shadern und immer mehr Takt.

Das kommt dir nur so vor...sie halten sich alle Trümpfe offen. Pascal kann in Vollausstattung glaube ich 3860 Shader (oder so, müsste nachschauen). Eine Titan 1080 könnte dann auch noch HBM2 und NVlink haben und wäre ein wahrer Killer. Das lassen die sich natürlich dann fürstlich bezahlen.

ampre schrieb:
Wenn man möchte könnte man auch 1 Shader nehmen der bei 1000GHz taktet das wäre dann genau so schnell wie 1000 Shader bei 1GHZ. Der 1 Shader wäre dann natürlich voll Serielle und er würde sich super auslasten lassen was bei 1000Shadern dann schon nicht mehr so einfach ist.

Du verwechselst da was. Es gibt einmal die GPU mit ihren Steuereinheiten, ALUs, TMUs,ROPs Register.. mit mehrern Renderpipelines halt. Jede Pipeline hat eine Anzahl an Shadern zur Verfügung.
Diese Schader können quasi als Coprozessoren (wie früher der x387) angesehen werden, die nur ganz wenig können, das aber sehr sehr schnell (Matrizenrechnung). Der Treiber der Grafikkarte selbst kommuniziert mit dem Hauptprozessor und dessen Pipelines. Alle speziellen Befehle (Shaerprogramme) müssen über den Treiber in die Pipeline un an bestimmten Stellen im Rendering geht halt ein Datenpaket an die Shader). Früher gab es nur 1 Pipeline und ein TMU (3DFX), dann kam ein RIVA TNT (Twintexture) mit 2 Pipelines, da gab es noch überhaupt keine Shader, aber trotzdem wurde schon paralellisiert...
Und 1 Shader könnte GAR NICHTS. Der hätte noch nicht mal genug Logikbausteine, um mit dem Treiber oder der PCIE Bridge zu kommunizieren, noch hatder ein Memorymanagement. Also: Grafikkarten bestehen nicht nur aus Shadern.
Das Problem sind heute nicht die Shader, sonder eher Füllrate und Speichergeschwindigkeit.

Nai schrieb:
Je höher nun die Auflösung, desto besser kann parallelisiert werden, was auch die Praxiswerte der Fury bestätigt hat (während sie in FullHD eher lahm unterwegs ist, rennt sie bei 4k allen davon).

Das kommt dir auch nur so vor. Die Auflösung hat NICHTS mit der Parallelisierung zu tun. Intern rechnet die Karte sowieso viel genauer (was Vektoren angeht), das was mit der Auflösung zu tun hat (Füllrate) kommt in der Pipeline erst ziemlich zum Schluss, nämlich nach Transforming/lighting und Shading kommt zum Schluss erst die Rasterisierung und das hängt von der Anzahl der Rasterizer, Speichergeschwindigkeit und Füllrate ab. Mit einer effizient parallen Pipeline kann man das natürlich optimiern und die verfügbaren Logiken in den Pipelines besser auslasten.

Nai schrieb:
Transistor(schaltungen) haben idr eine verstärkende Wirkung auf ein Signal, da sie von einer Versorgungssappnung gespeist werden.

Nein, entweder wird eine Transe als Schalter genutzt oder als Verstärker. Beides geht nicht unbedingt...in einem Class D Verstäker z.B. wird das Musiksignal in einem hohen Takt (MHz) zerhakt und dann per Transistor wieder (verstärkt) zusammengestetzt. Die Verstärkung passiert hier aber in anderen (Vorstufen-) Transitoren. Also auch hier entweder Schalter oder Verstärker.

Transistoren an sich haben KEINE Latenz (sie können theoretisch unendlich schnell schalten) , die Latenzen entstehen in der Logik, die aus den Transen gebildet wird. Latenzen entstehen immer dann, wenn ein Logikteil auf einen andern warten muss (Cache Miss).
Ich glaube einige haben ein falsches Verständnis von Transistoren : es sind fast stromlos schaltbare Schalter."fast" bezieht sich auf den Übergangsbereich, in dem der Widerstand steigt, bis sei endlich leiten. Wenn sie sperren und wenn sie voll leiten werden sie nicht warm (als Schalter, als Verstärker schon).
Am besten Wikipedia lesen oder hier eine kleine Zusammenfassung:

Bei den alten normalen Transitoren gibt es einen NPN oder PNP Übergang. Also Schichten, die leiten und welche die nicht leiten. Legt man ein Spannung an, vergrößert sich die Leitfähige Schicht (Valenzband) und irgendwann (Durchlassspannung) ist sie so groß, dass ein Verbindung zwischen Kolektor und Emitter besteht. Bei FETs (Feldeffekt) ist es ähnlich, nur das dort ein el. Feld für (wie in einem Kondensator) entsteht, was die Leitfähigkeit des Transistors ändern kann: man kann STROMLOS schalten, nur mit einer SPannung.
Und trotzdem werden die Dinger warm, obwohl sie stromlos schalten. Der Schalter öffnet ja zu einer bestimmten anderen Logik hin (Latch, Register, FLipFlop, ALU was weiß ich) und dorthin fließt natürlcih ein Strom.

Zu beachten ist bei all den Veklerinerungen folgendes: die Leitungen Verhalten sich unterinander wie Kondensatoren und mann kann sie nicht unendlich dicht zusammebringen, denn dann würde die Kapazität der Leitungen steigen und somit der kapzitäre Blindwiderstand -> mehr Stom nötig, heißer...es ist also nicht so einfach eine CPU/GPU zu verkleinern und sie verbraucht automatisch weniger Strom. Iss nich.

ampre · 22. Mai 2016

Andyw1228 um noch mal genauer aussohlen:

Die Renderpipline sieht heute wie folgt grob aus.

CPU-> Gemoetriepozessor-> Rasterizer->Shader->Rops

Die CPU gibt die 3d Daten als Matrixschreibweise an den Geometrieprozessor. Dieser fügt noch ein paar weitere Dreiecke hinzu was wir unter Tesselation verstehen. Danach kommt der Rasterizer der die Dreiecke in Pixel umrechnet und diese dann weiter an den Shader gibt, wo dann die Lichtberechnung (und andere Berechnungen) für jeden einzelnen Pixel erfolgt. Nvidia hat nun wenig Shader an den Rasterizer gehängt, dann aber die ganze Pipline schneller gemacht, wodurch sich eine bessere Befüllung der Shader ergibt. Denn der Rasterizer muss nicht viel Aufwand betreiben die Daten auf die wenigen Shader zu verteilen. Das ist der unterschied zu AMD.

AMD hängt an ihren Rasterizer ziemlich viele Shader ran und kann sie folglich nicht auslasten. Deshalb hat mann noch die ACE Einheiten hinzugefügt die nichts anderes tun als die Shader zu befüllen wenn sie ungünstig durch den Rasterizer ausgelastet werden und dies passiert öfters bei vielen Shadern.

Andyw1228 · 22. Mai 2016

ampre schrieb:
Andyw1228 um noch mal genauer aussohlen:

Die Renderpipline sieht heute wie folgt grob aus.

CPU-> Gemoetriepozessor-> Rasterizer->Shader->Rops

Was heißt "heute" ? Bei welcher Karte ? Normalerweise ist Rasterizer im ROP (Raster Operation Processor)... aber ist ja nicht wichtig. Wichtig ist, dass es mehrere dieser Pipelines gibt und...

ampre schrieb:
Nvidia hat nun wenig Shader an den Rasterizer gehängt, dann aber die ganze Pipline schneller gemacht, wodurch sich eine bessere Bettfüllung der Shader ergibt. Denn der Rasterizer muss nicht viel Aufwand betreiben die Daten auf die wenigen Shader zu verteilen. Das ist der unterschied zu AMD.

AMD hängt an ihren Rasterizer ziemlich viele Shader ran und kann sie folglich nicht auslasten. Deshalb hat mann noch die ACE Einheiten hinzugefügt die nichts anderes tun als die Shader zu befüllen wenn sie ungünstig durch den Rasterizer ausgelastet werden und dies passiert öfters bei vielen Shadern.

Beide Firmen habe eine endliche Anzahl an Shadern (beide um die 2560). Wenn also AMD viele Shader pro Pipeline hat, dann folgt daraus, dass sie weniger Pipelines haben müssen... also weniger parallel. Beides geht nicht

Ich habe gerade mal nachgeschaut. Die R390 hat weniger ROPs (GTX 64, Radeon 32), aber etwas mehr Schadercluster pro ROP...
Ich weiß nicht, ich kann da keinen riesigen Unterschied feststelle und schon gar nicht : Nvidia geht auf hohen Takt und AMD auf parallele Verarbeitung.
Beide Firmen versuchen durch Clusterbildung ihre ALUs, TMUs und Shader optimalm auszureitzen und die Unterschiede sind mittlerweile gering. Das war vor ein paar Jahren noch anders.

ampre · 22. Mai 2016

Es geht mir hier um die einzelne Pipipline. Ja Nvidia hat mehr Piplines. Aber jede einzelne Pipline ist eher Seriell ausgelegt mit einem Schnellen Datendurchsatzt mit wenigen Komponenten. Was das Frontend unnötig aufbläht denn man braucht mehr Rasterizer etc. Fury X hat 4 Rasterizer Nvidia GM200 hat 6 Rasterizer. Desweiteren hat der GM200 Chip ingseamt weniger Shader. Das heißt ein Rasterizer bei Nvidia muss definitive weniger Shader füttern, was das verteilen einfacher macht. Hierdurch erhöht Nvidia die Auslastung der Shader, hat aber auch weniger Shader zu Verfügung, die die Rechenaufgaben übernehmen können. Da Nvidia aber weniger Shader hat können sie diese mit größeren Abstand auf den Chip packen was der Taktrate entgegen kommt und die Shaderschwäche ausgleicht.

Ich habe ja auch nie von rein Seriell gesprochen ich meinte dies nur Bildlich gesprochen. Nvidia versucht zwanghaft Ihre Pipline so schlank aber dafür so schnell wie möglich zu machen, was eher Seriell ist. AMD versucht sie so breit wie möglich zu machen was eher parallel entspricht.

Vega und Volta sind dann die nächsten krassen beispiele. AMD wird mit 6000 Shadern auftrumpfen Nvidia mit nur 4000 Shadern. Wenn sich Async Compute durchsetzen sollte hat Nvidia ein Problem denn AMD hat dann definitiv mehr Rohleistung die sie dann auch mal auf die Straße bekommen. Nicht umsonst hat AMD Druck mit Mantle gemacht um diese Schwäche endlich auszugleichen.

Test GeForce GTX 1080 im Test: Ein Paukenschlag in 16 nm mit 1,8 GHz und GDDR5X

Admiral

Lt. Commander

Admiral

Admiral

Admiral

Lt. Junior Grade

Admiral

Lt. Junior Grade

Lt. Commander

HTTP 418 - I'm a teapot

Captain Pro

Captain

Commander

Lt. Commander

Banned

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Lt. Commander