News Intel stellt „Knights Corner“ als Xeon Phi vor

@GTX480


Wo steht das ?
 
@Voyager10 bei golem.de

@Cool Master hm ok und wie schnell ist die? denn die beschriebene Karte bei golem hat auch min 50 Kerne
 
Wie soll das eigentlich mit dem Speicher sein? Die Karte verfügt über 8GB GDDR5 Speicher, aber das wäre ja viel zu wenig für irgendetwas aufwendiges. Wenn die Kerne nicht auf den "normalen" Ram zugreifen können, ist hier schon ein Flaschenhals da. Da hätte man das gleiche Problem wie bei GPUs. Für Rendering wäre damit die Karte völlig ungeeignet. Da sollten es schon so 100GB Ram sein xD
 
Vitec schrieb:
Ich glaub sogar als intel mit larrabe das erste mal irgendwo erwähnt hat waren noch P90 kerne im gespräch oder wars schon PIII oder ich 8irre mich und es war tasächlich P4 ?
Auch muss man bedenken das intel schon im 22nm Prozess arbeitet ,

Die verbauten Kerne basieren auf dem Pentium I. Die Kerne wurden dann um einen Ringbus, um diverse neue Befehlssätze spendiert bekommen und eine Power Control Unit.
 
Die Performance der Karte mit denen einer Grafikkarte direkt zu vergleichen ist einfach nur Quatsch. Das Ding ist (wie man auch aus dem Artikel herauslesen kann) einfach keine Grafikkarte sondern für einen Supercomputer gedacht.
Es gibt einfach sehr viele Codes die bei SIMD nicht performant laufen oder nur mit sehr hohem Aufwand portierbar sind. Hier hat man den Vorteil das man einfach bestehenden MPI oder OpenMP Code, der in diesem Bereich oft Standart ist, in MIC code konvertieren kann.
Wer tatsächlich der Meinung ist das eine Grafikkarte einer CPU überlegen ist nur weil da mehr Flops dran stehen, dem kann ich gern mal nen paar einfache Algorithmen schicken die er dann mal für CUDA oder OpenCL portieren kann. :D
 
Für 75w ist die gekauft :D
 
Vitec schrieb:
Ich glaub sogar als intel mit larrabe das erste mal irgendwo erwähnt hat waren noch P90 kerne im gespräch oder wars schon PIII oder ich 8irre mich und es war tasächlich P4 ?
P4 wäre dir sofort weggebrutzelt... es waren P90 Kerne im geshrinkten 22nm plus alle CPU's als Bus :)
 
1.) Die TFlops/s spiegeln nur die Rohleistung im Idealfall wieder. Das muss nicht unbedingt viel mit der realen Leistung zu tun haben.

Die 1 TF beziehen sich eben nicht einfach auf einen Idealfall wie das bei den Angaben zu den GPUs der Fall ist. Intel hat einen Benchmark gewählt, bei dem viele verschiedene Matrizengrößen zur Anwendung kommen, was sich bei Knights Corner kaum negativ auswirkt, während GPUs in solchen Fällen wesentlich schlechter abschneiden.

Die Leistung ist also durchaus beachtlich.
 
Zuletzt bearbeitet:
Naja vergleich der beiden "Karten" ist ja schön, aber es wird einen grund geben wieso amd opteron auf apu basis vorgestellt hat und diese klar in microserver anbieten wird. Fraglich ist ob die abwarme eines solchen mics gering genug ist um auch so kleine effiziente Systeme zu verwirklichen. Intel setzt da ahnlich wie eine gpu auf maße (Anzahl der cores). Man wird sehen was effizienter ist, solche karten oder ein kleineres system (micro server). Ganz klar ist NV aber abhangig von intel oder amd bis sie ihre tegra versionen vorstellen. was man nicht vergessen darf, Intel braucht vllt selbst mit der kleineren fertigung (amd karte is ja 28 nm) gleich viel strom... ( von mit angenommen) somit ist amd vllt mit ihren konzept weiterhin nicht verkehrt, naturlich muss man sehen wie toll avx 2 ist

man sieht aber die unterschiede, intel setzt auf cores, nv auf gpu cores und kleine cores, Amd den mittelweg mit deren APU konzept (bulldozer + GNC)
 
Zuletzt bearbeitet:
OK, der Energieverbrauch ist wohl doch konkurrenzfähig... bleibt das Thema "was von der Leistung übrig bleibt"...

Wenn du einen Supercomputer aufbaust, dann hast du auch Programmierer, die sich um den Mist kümmern. Du sagst ihnen, was sie für Hardware haben, sie schreiben den Code für diese Hardware. Es gibt doch schon mehr als genug wirklich üble Supercomputer auf Basis von FireGL oder Tesla. Das beweist ja, dass es vielleicht SCHWIERIGER ist, in OpenCL oder CUDA zu schreiben, aber alles andere als unmöglich.
Es stellt sich nicht ernsthaft die Frage, ob man seinen totalen Gülle-Code auf einer CUDA-Karte laufen lassen kann oder ob man durch seine unfähigen Programmierer dazu gezwungen wird, Knights Corner zu nutzen. Wenn du ne halbe Millionen in ein Rechenzentrum investierst und jährlich noch ein stattliches Sümmchen in die Stromrechnung, dann nimmst du einfach nur die Programmierer, die für deine Hardware den besten Code schreiben.
 
Kann man die jetzt als Privatnutzer verwenden?

Also zum Video-Encoding wäre die Karte doch genial?!? Jedenfalls ne Überlegung wert
 
Also zum Video-Encoding wäre die Karte doch genial?!?

Ich wage zu bezweifeln das die Befehlssätze dazu vorhanden sind .
 
Daaron schrieb:
Wenn du einen Supercomputer aufbaust, dann hast du auch Programmierer, die sich um den Mist kümmern. Du sagst ihnen, was sie für Hardware haben, sie schreiben den Code für diese Hardware. Es gibt doch schon mehr als genug wirklich üble Supercomputer auf Basis von FireGL oder Tesla. Das beweist ja, dass es vielleicht SCHWIERIGER ist, in OpenCL oder CUDA zu schreiben, aber alles andere als unmöglich.
Es stellt sich nicht ernsthaft die Frage, ob man seinen totalen Gülle-Code auf einer CUDA-Karte laufen lassen kann oder ob man durch seine unfähigen Programmierer dazu gezwungen wird, Knights Corner zu nutzen.

Wie gesagt, das hängt zum größten Teil von der Problemstellung und nicht dem Skill der Programmierer ab. Wenn z.B. die Matrizengrösse deiner Modelgleichung nur um 1 von dem Optimalfall für deine GPU abweicht, ist Essig mit Rechenpower. Da hilft dann auch der besten Programmierer nicht weiter. Wie man an den zahlreichen Benchmarks aus den Fachpublikationen der letzten Jahre sehen kann, sind Intels x86 Cluster diesbezüglich wesentlich tolleranter bzw. stabiler.
Intel gibt auch nicht wie AMD oder NV die Peakperformance an, sondern einen gewichteten Mittelwert aus mehreren Benchmarks.
 
Ein Kern einer GPU stellt Pi mal Daumen 30 Befehle zur Verfügung, die sich hauptsächlich um Vektorberechnung drehen.

Nvidia kennt nur skalare Befehle, keine Vektorbefehle. Vektoren in GPGPU Source Code dienen bei Nvidia nur zur besseren übersicht, und werden in Skalare Operationen übersetzt.

@Daaron

Man sucht sich die Hardware bei solchen SuperComputern allerdings abhängig davon aus, welche die beste Performance bei einem bestimmten Anwendungsgebiet liefert. Will man eher einen allgemeinen Supercomputer haben, der beliebig komplexe Aufgaben übernehmen kann, wird man eher einen CPU Cluster kaufen und bei relativ einfachen peinlich parallelen Aufgaben, wie es sie bei den @ Home Projekten gibt, wird man sich eher für einen GPU Cluster entscheiden.
Das Problem hierbei ist, nicht dass es nur schwieriger ist auf GPUs zu programmieren, sondern dass sie Architekturbedingt bei manchen Aufgaben viel ihrer Performance verlieren.
Mal so die wesentlichen Probleme im Überblick:

Branching:
Ein Prozessor der GPU hat mehrere Ausführungseinheiten und nur eine Steuerungseinheit. Teilt sich der Codefluss auf, dann legen sich diejenigen Ausführungseinheiten schlafen, die nicht in den Branch springen. Deshalb verlieren GPUs zB bei Graph operationen viel ihrer Performance.

Rekursion:
Nicht möglich. Man kann sie sich zwar zT etwas er-cheaten, verliert dadurch aber viel an Performance.

CodeKomplexität:
-Anzahl der Instruktionen im Programm begrenzt.
-Je Complexer der Code, desto mehr Chipspeicherplatz (Register) werden belegt. Dadurch können weniger Threads, die gerade abgearbeitet werden, gleichzeitig im Speicher der GPU sein. Da die GPU Threads schlafen legt, die auf Speicherzugriffe warten, führt dies wiederum dazu, dass keine Threads ausführungsbereit sein können, und die Performance abnimmt.
-Wenn überhaupt(?) nur eine primitive Sprungvorhersage, primitives Pipelining
-Nur einen sehr kleinen Cache, bei komplexeren Zugriffen auf den Speicher viele Cache Misse

Scheduling:
-kaum Einfluss darauf, auch ist keine preemption möglich. Ein Thread läuft so lange bis er terminiert, oder man das komlplette Programm abbricht. Threads können sich auch nicht Schlafen legen und auf ein Ereignis warten, um dann später weiterzurechnen. Dadurch ist die Threadzusammenarbeit stark eingeschränkt.
 
Zuletzt bearbeitet:
@Haldi

Es sind Tri-Gate.

Was dein Zitat von John Carmack betrifft... aus welchem Grund zitierst du es? Die Aussage ist korrekt. Nur etwas unglücklich formuliert. Man darf nicht vergessen, dass es dabei nicht um den Punkt der höchsten Sehschärfe geht, sondern um die Bewegungswahrnehmung, die vor allem auch in den Außenbereichen sehr gut funktioniert (und die bei Bildschirmen keine Rolle spielen, bei einer Brille mit 180° Blickwinkel dagegen schon). Das nur mal so nebenbei. ;-)
 
Zuletzt bearbeitet:
Wer diese Karte mit Grakas vergleicht, kann auch Äpfel mit Birnen vergleichen.
Ich bin auf die technischen Details gespannt. Bis dahin muss man wohl abwarten und Tee trinken
 
Echt Komisch das nur Intel es hin bekommt die Gehäuse komplett zu verschließen um den Luftstrom auch wirklich aus dem Gehäuse zu bekommen...
 
Zurück
Oben