News Intels „Knights Corner“ erreicht über 1 TFLOP/s

twilight · 17. November 2011

knights corner hat "nur" 50 kerne, tesla 2075 hat 512 kerne, also mehr als das zehnfache. wenn man nun berechnungen anstellt, die den x86-befehlssatz untestützen, dann ist natürlich ein x86-prozessor im vorteil, wenn es aber um simple rechenoperationen geht, sieht knights corner kein land mehr, auch nicht gegen eine "kleine" tesla 2050. was schneller ist, hängt einzig und allein vom anwendungsgebiet ab.

Dir ist schon klar, dass jeder Knights Corner Core eine 512bit Vectorunit besitzt, die 512/32=16 SP Flop pro Clock erziehlt, während die von NVidia als Cuda Cores bezeichneten Units gerade ein SP Flop per Clock schaffen. KC hat laut Intel 50+ Cores, vermutlich im Vollausbau deren 64, was dann auf 1024 SP Flop hinauslaufen würde und somit über dem liegen dürfte, was NVida mit Kepler aufbieten kann.

Lübke · 17. November 2011

@pezli: dann sag mir mal was eine simd mit verschiedenartigen operationen macht? richtig, sie arbeitet sie nacheinander ab, wärend sie bei der gpu parallel verarbeitet werden. eine simd kann nur die gleiche operation auf mehrere daten simultan anwenden. aber du als simd fachmann weist das ja sicher schon

:

ich hatte es eigentlich ganz primitiv geschrieben, dass es ein kind versteht, ohne technisches geplänkel. und dann kommen solche kommentare...

jede architektur hat ihre ganz spezifischen stärken und schwächen. auf dem einen gebiet ist die eine architektur deutlich überlegen, auf dem anderen maßlos unterlegen. man kann nicht pauschal sagen das eine ist besser und das andere schlechter. was glaubst du warum moderne milliardenteure supercomputer einen mix aus beidem enthalten? weil die wissenschaftler, die die entwickeln, doof sind und nicht wissen was eine simd ist?

.mojo · 17. November 2011

können wir uns nicht drauf einigen dass beide Technologien verdammt krasser shice sind?
rabääähh, usain bolt ist aber schneller als Haile Gebrselassie...

der eine ist halt sprinter, der andere langstrecke. beide sind aber krasse performer. ok?

Nero Atreides schrieb:
Krasse Sache: Im November 1997... weltweit stärkste Supercomputer 1,3 GFlops. ...Fläche eines Tennisplatzes verteilt waren ...ASCI_Red).

Und jetzt, keine 15 Jahre später, hat man das auf EINEM Chip den man sich unter den Schreibtisch stellen könnte. Krass

digitalangel18 schrieb:
Paar Daten zum ASCI Red aus Wikipedia der hier als Vergleich zitiert wurde:

9298 separate Pentium II Xeon Core Processors
Power 850kW
Space 1,600 ft² (149 m²)
Speed 1.3 teraflops (peak)
Ranking TOP500: 1, June 2000

http://en.wikipedia.org/wiki/ASCI_Red

.mojo schrieb:
wenn man sich das mal vor augen führt.. TOP1 von vor 11 Jahren auf der fläche von grob 2/3 eines Doppel-Tennisplatzes heute als "SoC"..

ata2core · 17. November 2011

BMWM3N400 schrieb:
Hm, mal sehen, was das Teil schluckt..

Selbst wenn der 250 W braucht ist der effizienter als 9.680 Pentium-Pro-Prozessoren.

calluna · 17. November 2011

theorist schrieb:
Hier hat übrigens schon Jemand knapp 500 GFlops in DGEMM mit einer Radeon HD 5870 erreicht [...]

Die Werte sind nicht vergleichbar, denn Intel hat ein breites Spektrum an Matrix-Operationen gewählt... für eine CPU-ähnliche Architektur eher kein Problem, während die Leistung von GPUs von der Matrixgröße beeinflusst wird.

Das ist der Punkt, den Lübke angesprochen hat... der Anwendungsfall ist wichtig. Und die Entwicklung bei Nvidia bleibt ja nicht stehen. Gespannt bin ich auch auf das, was AMD vorhat, die Sache mit dem Zugriff der GPU auf den Hauptspeicher an der CPU vorbei.

theorist · 17. November 2011

@calluna: Was verstehst du unter breitem Spektrum an Matrixoperationen? DGEMM ist fp64-Matrixmultiplikation, da gibts keinen Spielraum für andere Operationen. Und um nahe an die Peak-Rechenleistung ranzukommen, wählt man große Matrizen, das gilt auch für Intels MIC-Lösungen. Die Optimierung der Tilesize spielt natürlich auch eine Rolle, gerade beim Einsatz in Rechenclustern. Aber da ist es wohl legitim, auf die jeweilige Architektur zu optimieren. Warum sollte man ein Problem langsam berechnen lassen, wenn es auch schnell geht?
Wenn du dich ein bischen zu den Optimierungssschritten für DGEMM, mit der man der HD 5870 90% ihrer Peak-Rechenleistung entlocken konnte, auf dem Loewe-CSC-Cluster einlesen willst: http://code.compeng.uni-frankfurt.de/documents/1.

In TOP500.org-Nomenklatur hat eine Tesla C2075 übrigens nur 16 Cores und nicht 512 Cores wie von Lübke behauptet. Die CUDA-Cores in Nvidia-Nomenklatur beherrschen für sich genommen nichtmal fp64-Operationen.

/EDIT: Zum Kommentar unter mir: Stimmt natürlich die Tesla C2075 hat nur 448 CUDA-Cores bzw. 14 Cores in TOP500.org-Nomenklatur. Das schnellste Modell ist die Tesla M2090 ohne Monitorausgänge. Dort sind 16 SMs bzw. 512 "CUDA-Cores" aktiv.

Lübke · 17. November 2011

es sind genaugenommen 448 "cuda-cores" bei der 2075. hatte mich da vertan. die ich meinte heißt 2090

auf dem gebiet, wo knights corner besonders stark ist (immer die gleiche rechenoperation) ist die 5870 übrigends die aktuell stärkste gpu-lösung, da sie dank 5d shader theoretische 1600 recheneinheiten (320 * 5d) aufweisen kann. die 6970 kommt auf "nur" 1536 shader (384 * 4d), die gtx580/tesla 2090 bleibt bei 512 recheneinheiten, (512 *1d).

im umgekehrten fall (jede rechnung mit anderen operationen) dreht sich die reihenfolge um. da liegt die gtx580 mit 512 vor der 6970 mit 384 und die vor der 5870 mit 320 recheneinheiten...

und das sind nur die beiden extremfälle. in der praxis wird man sich wohl meist irgendwo dazwischen bewegen...

und da reden wir nur von architekturunterschieden bei gpus. der unterschied im vergleich der architektur cpu zu gpu ist um ein vielfaches größer, bzw gar nicht mehr vergleichbar. also versucht lieber nicht zu verallgemeinern und von einem aufs andere zu schließen. das kann nur daneben gehen

Kasmopaya · 17. November 2011

Kannst ja gerne versuchen die Quake3 Raytracingengine auf einer Fermi laufen zu lassen, funktioniert bestimmt schlechter als bei Larrabee

Ka wie das funktioniert, aber Fermi ist schneller. Raytracing lässt sich sehr gut auf NV und AMD GPU ausführen. Hab mich schon so gefreut das Intels Pradedisziplin herangezogen wird beim Larrabee und dann eine HD 5870/Fermi dann Intel zeigt wie man richtig raytraced. Aber nein, Intel hat vorher schon die Reißleine gezogen.

d das es immer noch Leute gibt, die Larrabee als Fail abstempeln, nur weil es nicht Mainstreamtauglich war/ist, finde ich erstaunlich.

Larrabee war vor allem ein Fehlschlag weil das Hauptgebiet nicht bedient werden konnte und zwar Server oder Supercomputer. Nicht weil es nicht im Desktop geladet ist, sondern weil für rein gar nix gut war, außer zum Verschenken an Entwickler. Bulldozer ist ja wenigstens bei den Servern brauchbar. Larrabee ist ein einziger massiver Fehlschlag, ohne auch nur einen einzigen positiven Hauch von Hoffnung. Erst mit 22nm TRI-Gates ist das teil dann einigermaßen konkurrenzfähig. Bin schon gespannt auf die Tests, Intel wird wohl X86 Code vorziehen, was dann eher einer enormen CPU gleich kommt weniger einer extrem schnellen effizienten GPU.

Karre · 17. November 2011

was ihr hier diskutiert ..
die ansätze von gpgpu und knight sind doch 2 gänzlich verschiedene

calluna · 17. November 2011

@theorist

"Was verstehst du unter breitem Spektrum an Matrixoperationen?"

Verschiedene Matrixgrößen meinte ich. Das "Operationen" bezieht sich nicht auf die Matrixmultiplikation als Operation. Multiplikationen von Matrizen verschiedener Größen sind für mich verschiedene Operationen... das war also eine sprachliche Ungenauigkeit meinerseits.

Danke für den Link, ich finde das interessant.

@Karre

Die Ansätze sind verschieden, zielen aber letztendlich beide auf vektorisierbare Probleme ab.

@Kasmopaya

Worum geht es dir eigentlich? Verspürst du kein Interesse an solchen Techniken? Offensichtlich hast du eine Abneigung gegen Intel... so etwas hat die gleiche Wirkung wie eingefärbte Brillengläser.

Lübke · 17. November 2011

das bringts eigentlich am besten auf den punkt...

danke karre ^^

pipip · 17. November 2011

r4yn3

für die forschung ist Larrabee sicher kein Fail. Aber man hat ja große Folien und Kampange gemacht dass das ja für den Endkunden auf den Markt kommt.
Übrigens Hobby, schön verharmlost... Intel ist keine Person, genauso wie AMD. Beides ist da um Geld zu verdienen

calluna
Was sind die 300 watt schon sicher ??? wo steht das fest.

twilight
nächste frage, was is billiger zu produzieren ?? eine GPU oder diese CPU ?
Denk dass sogar eine dual gpu günstiger sein könnte.
Naja alles schön und gut, aber mit den Daten was man weiß kann man nix anfangen, ob das teil auch so wirtschaftlich ist. Wenn man schon beim Bulldozer zweifelt, sehe ich keinen Grund warum dieser prozessor um welten besser sein soll. Is jz ein doofer vergleich... da beide andere Aufgaben verfolgen. Aber ich hoffe man versteht was ich ca meine.

twilight · 17. November 2011

Für die Forschung war Larrabee bisher nicht so der Hit, weil Knights Ferry nur SP unterstützt hat und im Scientific Computing aber nahezu ausschließlich auf DP gesetzt wird. Da hat es dann auch nicht viel geholfen, dass ein auf Xeon Cluster optimierter Code sich in unter einer Stunde nach kleinen Anpassungen und ein bisschen Recompilieren auf KF portieren ließ und dann mit ca. 700GFLOPS nahe der Peak Performance lief.
Tesla Karten liegen üblicherweise bei mehreren 1000$ das Stück und Knights Corner wird vermutlich in einer ähnlichen Liga spielen, womit die Produktionskosten dann nicht allzusehr ins Gewicht fallen. Wenn wir mal davon ausgehen, dass NVidia nichts dazugelernt hat und mit GK100 wieder so einen Monster Die abliefert, düften bei 500+mm² ca 100 davon auf einen Wafer passen. Wenn wir mal von 6k$ pro Wafer bei TSMC ausgehen und (hoffnungslos) optimistisch ein Yield von 20% ansetzen, wären das rein rechnerrich 300$ pro Die. Afaik ist zur Die Size von KC noch nichts gesagt worden, aber die dürfte relativ groß ausfallen. Unter dem Heatspreader ist Gerüchten zu Folge zwar auch noch per Silicon Interposer angebundenes Stacked DRAM, aber trotzdem ist das Ding auf dem Foto einfach riesig.

r4yn3 · 18. November 2011

Ich denke eher Forschung war hier gemeint als foschung an MIC Systemen und Multithreadsoftware.

@pipip: Wieso verharmlost? Intel hat nunmal die finanziellen Mittel um so ein Projekt ins Leben zu rufen, und wäre es gescheitert, tja dan Pech gehabt. Und denkt ihr wirklich, es gäbe Knights Ferry und sogar Knights Corner wenn Intel nicht irgendein Potential darin sehen würde?

Ach, und AMD ist ernsthaft da um Geld zu verdienen? (insert Trollface here)

@Kasmopaya: Ganz ehrlich? Sowas: "Larrabee ist ein einziger massiver Fehlschlag, ohne auch nur einen einzigen positiven Hauch von Hoffnung." würde ich erst von mir geben, wenn Intel wie bei Itanium offiziell verlautbaren lässt, dass man es das Produkt einstellt.

Wie die Leute immer gleich mit Ausschlag reagieren wenn sie Larrabee lesen. Und ich dachte immer Konkurrenz belebt das Geschäft

Kasmopaya · 18. November 2011

Worum geht es dir eigentlich? Verspürst du kein Interesse an solchen Techniken?

Hierzu meine alte Signatur:
Programme, die mit der GPU rechnen,GPGPU,CUDA;AMD APP (AMD Stream)
[Benchmarks] PhysX, welche Grafikkarte reicht aus?
[Sammelthread] Grafikkarten mit mehr als 1GB Vram
[Sammelthread] Eure Grafikkarten-Historie

War schon im GPGPU Sektor unterwegs, da warst du noch nicht mal geboren, äh angemeldet auf CB.

Offizieller GPGPU; Vram; PhysX Guru auf CB...

dass man es das Produkt einstellt.

Es ist eingestampft worden, erst jetzt hat man mit dem neusten vom neuen die Technologie um das Monster überhaupt fertigen zu können. 22nm und 3D Transistoren müssen es sein, also ein Doppelschlag wie selten zuvor um eine Kernschmelze zu verhindern.

Offensichtlich hast du eine Abneigung gegen Intel...

Das kannst du laut sogen, Intel CPUs top, Intel GPUs flop.

theorist · 18. November 2011

Knights Corner ist keine GPU, sondern ein General-Purpose-Co-Prozessor. Knights Corner unterstützt weder OpenGL, noch Direct3D, es sind keine Hardwareeinheiten für Rasterizing oder Texturverarbeitung vorhanden, Displayinterfaces fehlen auch.
Die Fähigkeit, einen Softwarerenderer auf Knights Ferry/Knights Corner laufen zu lassen, macht diese Chips noch lange nicht zu GPUs. Sonst müsste man auch jede CPU als GPU bezeichnen.

calluna · 18. November 2011

@Kasmopaya

Das Thema GPGPU hatte ich schon 2006 im Studium, am Beispiel der Geforce 7xxx

Und arbeite jetzt mit Matlab, wofür sich eine GPU geradezu anbietet.

Ich finde deine Äußerungen zum Thema Larrabee / Knights Corner einfach überzogen.

Man kann das, was du schreibst, auch so sagen: Larrabee hat die Erwartungen nicht erfüllt und wäre nur eine Mittelklasse-Grafikkarte geworden. Das Vorhaben, Larrabee als GPU zu verwenden, wurde verworfen und Larrabee als Forschungsprojekt fortgeführt. Teile aus diesem Forschungsprojekt sind in Sandy Bridge eingeflossen und noch etwas mehr wird in Haswell in Form von AVX2 einfließen.

Ich finde Knights Corner jedenfalls interessant.

PS: Danke für die Links aus deiner alten Signatur.

@twilight

Knights Ferry ist zum Testen bestimmt. Bisher gibt es keinerlei Produkte.

@pipip

Geschrieben habe ich, dass Knights Ferry rund 300 Watt verbrauchen soll. Den Verbrauch von Knights Corner kenne ich nicht, aber ich habe die Vermutung geäußert, dass der Verbrauch sicher nicht höher sein wird.

Lübke · 18. November 2011

ich bin mir sicher, dass ein knights corner nachfolger auch tatsächlich den weg in die supercomputer finden wird... und ich bin mir ebenso sicher, dass er dort meist mit gpus wie tesla zusammenarbeiten wird.

die beiden systeme ergänzen sich doch sehr gut. die schwächen des einen sind die stärken des anderen.

FatFire · 18. November 2011

Lübke schrieb:
die schwächen des einen sind die stärken des anderen.

Also mir präsentiert sich das so, dass beide auf Flops-Jagd sind. Wenn man ein möglichst ausgeglichenes System haben möchte, wo sowohl Integer- als auch Floating-Point-Leistung gefordert sind, müsste man Knights Corner eigentlich mit Bulldozer zusammenpacken. Denn Bulldozer soll ja Integerleistung en Masse mitbringen. Deswegen humpelt er doch in Spielen so rum.
Eine Paarung von Tesla mit Knights Corner macht in meinen Augen keinen Sinn.

Gruß FatFire

Lübke · 18. November 2011

ein knights corner ist ein x86-prozessor ebenso wie der bulldozer. die flops sind imho primär marketing. 1 tflop, sowas schindet eindruck. wieviel flop schaffen denn >25 bulldozermodule, also 50+ rechenkerne? hab grad keinen plan davon und kein lust das rauszusuchen, aber im wesentlichen sind beides x86er und imho wäre die schnittmenge der eigenschaften zu groß, als dass sich ein mix lohnen würde...

News Intels „Knights Corner“ erreicht über 1 TFLOP/s

Lt. Junior Grade

Fleet Admiral

Fleet Admiral

Lieutenant

Commander

Lt. Commander

Fleet Admiral

Banned

Admiral

Commander

Fleet Admiral

Fleet Admiral

Lt. Junior Grade

Admiral

Banned

Lt. Commander

Commander

Fleet Admiral

Lt. Commander

Fleet Admiral