Hardware T&L, Sinn und Unsinn

Carsten · 31. August 2001

So, da bin ich wieder...

Du, graka0815, stellst hier eine behauptung nach der anderen auf, die du vielleicht erst einmal belegen solltest...diesen Verriß bei 3dcenter kann man nicht wirklich ernst nehmen. es sind keine referenzen angegeben, genau wie in deinen Posts.

Sag mir gerne mal ein BeiSPIEL, wo ab 1GHz software TnL (à la SIMD) schneller als TnL per Hardware ist?

In synthetischen Benchmarks kann man beweisen was man möchte, man muss nur den entsprechenden Bench heraussuchen...

Und wenn ich mal den "Einbruch" einer GF3 in z.B. Quake3 nehme, dann finde ich es wirklich beschämend, daß sie von 640 fastest auf 1024MAX ganze 15fps verliert!
Die Firma gehört verklagt!

Bei KyroI gab es, genau wie bei nVidias GF2 anleitungen zur verbesserung der Bildqualität. das war bei beiden teilweise auch unbestritten nötig, je nach Hersteller (ich hatte mit meiner ELSA Gladiac bis 1600 keine Probleme).

Auch der vergleich mit der GF2ultra hinkt. welche "unzäligen" Benchmarks wären das denn bitte? ich gebe gerne zu, das der KyroII in *einigen* benches mit der Ultra *mithalten* kann, aber im allgemeinen liegt er zwischen der GTS und der pro mit deutlicher Tendenz nach oben!

Und wo wir gerade bei eindeutig bewiesen sind, es sind mitnichten die Grafikchips, die alleine das bild liefern, sondern die ganzen zwischengeschalteten Filter und Konverter, die für das verantwortlich sind, was letzten Endes auf den schirm kommt!

Ich muss erst mal zur LAN-Party, leider nur mit ner GTS bewaffnet, da kann ich ja wohl nur verlieren, da ich in dem ganzen pixelbrei die Wände nicht von Gegnern unterscheiden kann!

Quasar

GRAKA0815 · 31. August 2001

Quasar du gibst Dir die Anworten doch selbst!
1.) Nimm 3DMark 2000 und teste es selbst. Hioer kann man ja nun einmal zwischen HW T&L und SSE / 3dNow umschalten.

2.) ENDLICH! Genau. Man kann in synthetischen Benchmarks beweisen was man will, es kommt darauf an, was die Karte in realen Spielen bringt. Genau hier ist aber doch verkehrte Welt in 3DMark2000/2001 mit einer GeForce2 und einer Kyro2 oder? Die Kyro2 kommt hier mit dem Arsch nicht hoch aber in reellen Spielen läuft die Super!

3.) Redest du mir mit Deiner Meinung bezüglich der Chips doch nach dem Mund. Es kommt wirklich nicht alleine auf den Chip an, sondern auch um das drumherum. Ist doch genau das was ich sage. Ab irgenteinem Wert sollte man doch meinen das Qualität und STABILE FPS vor noch mehr fps gehen sollten. Was aber allgemein Hochgejubelt wird sind noch mehr fps und noch mehr fps.

4.) Denke ich nicht das der Artikel ein "Verriss" ist, sondern auch wenn einige Dinge nicht ganz koscher sind, zumindest über den HEUTIGEN Sinn oder Unsinn von HW T&L das durch "fast" alle Magazine oder Webzines hochgejubelt wird, in Frage gestellt wird. In dem Bericht sind einige Beispiele sehr gut verdeutlicht und auch Belegt.

5.) Siehe Dir doch die Benchmarks an welche nicht nur mit 3Dmark gestestt wurden. Auch auf Computerbase wirst du Benchmarks zu Kyro2 zu GF2 finden.

Carsten · 31. August 2001

1.) Was soll ich mir mit 3dMark ansehen?
daß HW TnL langsamer als Software ist? das stimmt leider nicht. nicht mal bei 1.5GHz....9935 zu 6957!

2.) Gut, hier können wir freunde werden, natürlich gibt es in den 3dMarks keinerlei Praxisbezug!

3.)Sicher, das hab ich auch nie bestritten, nur hast du in einer deiner letzten äußerungen die 2d-signalqualität für alles verantwortlich gemacht...
Stabile FPS sind was tolles, gute Grafikqualität auch, deswegen bin ich auch sehr begeistert von Serious SAM!

4.) In dem artikel finde ich leider fast nichts wieder was gut verdeutlicht oder gar belegt ist.

5.) Ich hab gerade mal den neuesten KyroII test hier auf computerbase überflogen (mir die diagramme angeguckt), der übrigens von synthetischen Benchmarks nur so strotzt! klar ist die KyroII oft schneller als die GTS, aber das sind noch lange keine Dimensionen, in denen sich ne Ultra tummelt, zumindest außer UT, von dem ja bekannt ist, wie schlecht es mit grafikleistung skaliert...

ich hab aber auch mal zwei Bitten:
1.) weich nicht immer aus und verdreh/veränder nicht den Punkt, über den diskutiert wird, solange das nicht klar ist
2.) gib mir doch mal ein paar beispiele, wo die Kyro *durchgehend* ne ultra alt aussehen lässt...

ja, ich weiß, Ultima9, Villagemark und evtl. UT sind kandidaten dafür....es gibt aber noch ne menge andere games!
in Q3 sieht sie meist keinen stich, in MBTR auch nicht, keiner hat sie bis jetzt in Simulationen gebencht....vielleicht, weil sie das aufgrund des wenigen Overdraw schlecht aussehen würde..

ich freue mich auf weitere Beiträge, wenigstens verteidigst du deinen Standpunkt!

Quasar

Crazy_Bon · 31. August 2001

Also ich finde auch, dass Hardware T&L allzu sehr vom Nvidia hochgelobt wurde und John Carmack dabei mitgezogen hat. Na, der schlägt sich immer auf die Seite des schnellsten Grafikchips, Renditeré, 3Dfx und nun auf Nvidia, und die wird sicher nicht die letzte Station sein wenn Nvidia die 3D-Krone verliert.
Nun zu SSE, es wurde nicht entwickelt um 3D-Spiele zu beschleunigen, die Marketingabteilung machte nun mal durch geschicktes PR zum unzerzichtbares Muss beim CPU-Kauf von Zockern.
Nun, heute wollen die uns weissmachen, dass der P4 das Non-plus-Ultra ist.

Um meine Aussage der Nichtnotwendigkeit von SSE zu unterstützen nehme ich das folgende Bild, auf die schnelle liess sich kein anderes oder vergleichbares finden.

Zwar handeln es sich hier nur um Celeron1/2-Prozessoren, aber bei den 2 SSE-unterstützenden Spielen (Quake3 und Expendable) ist kein ungewöhnlicher Leistungsansprung zwischen den Nicht-SSE-Prozessoren (Celeron bis 533MHz) und den SSE-Prozessoren (Celeron2 ab 566MHz) zu bemerken.
Die Kurve flaut sogar etwas ab, Leistungsschub so gut wie Null durch SSE.
Eigentlich sollte doch eigentlich bei schwächeren Prozessoren eine spezielle Unterstützung besonderst gut bemerkbar und sein.

GRAKA0815 · 31. August 2001

1.) Nicht SW T&L einstellen, sondern 3Dnow/sse/. Geht nicht mehr in 3DMark2001 nur in 3DMark2000! Hier kann man es testen und dies ist der einzige Test füe den 3DMark taugt.

2.) Also hier sind wir dann Freunde!

3.) Möchte ich NIE irgendetwas GENERELL machen, den wer GENERELL für oder gegen etwas ist, ist in meinen Augen GENERELL ein Idiot. Ich lasse mich gerne durch gute Argumente überzeugen. Aber es gibt auch andere, bei den selbst die BESTEN Argumente soviel helfen wie Schokoladenplätzchen bei Verstopfung. OK?

4.) Heist doch "fast" das es zumindest Dinge gibt! Ich habe ja auch lediglich behauptet, das EINIGE (nicht alles) gut dargestellt ist.

5.) Soweit ich weiss, gibt es aber grade mehr Spiele die auf der UT-Engine aufsitzten als auf der Quake. Auch dies ist in dem Artikel beschrieben und durch "einige Beispiele" belegt.

6.) Habe ich NIE behauptet, das eine Kyro2 *durchgehend* eine GF2Ultra den Rang abläuft, sondern lediglich das eine Kyro2 einer GF2 in 32Bit Benchmarks den Rang ablaufen "KANN". Das mit den Benchmarks ist einfach so zu sehen das es einzelne Szenen eines Benchmarks geben dürfte in denen die Kyro2 Ihre Stärken gegenüber einer GF2Ultra auspielen kann. Zudem ist die Antwort mit Ultima IX usw. deiner Ausführung ja schon so ziemlich beantwortet.

7.) Ich möchte mich hier nicht verteidigen! Wozu auch? Ich bin nicht der Verfasser dieses Artikels und auch nicht in jedem Punkt seiner Meinung. Siehe nur mein Beitrag in dem ich EINDEUTIG zu verstehen gebe, dass eine GF unter 1Ghz durchaus Sinn macht, da schneller als die CPU!!!

8.) Will ich hier keine Chips vergleichen, sondern lediglich den Sinn von HW T&L HEUTE! Genauso finde ich es idiotisch das wenn der KYRO3 kommen sollte eine T&L Einheit besitzten soll. Wozu? Ich denke das mit HSR, einer Starken CPU und anderen Features, insofern diese auch von Spieleentwicklern berücksichtigt werden, es kein Manko sein kann. Ein Manko wird es wohl eher nur wieder in der Presse aber nicht in der Realität werden.

So! Jetzt geh ich erst mal auf die Kirmes. Bauernball ist angesagt. PROST.

Graka0815 · 31. August 2001

Nun GRAZY_Bon:

Erinnern wir uns mal an die Einführung von MMX! Hier wurde eindeutig DURCH Intel bewiesen, dass der PentiumMMX mit MMX schneller ist als sein Vertreter ohne MMX. Hierzu wurde mal wieder ein eigens dafür gestricktes Benchmark hergestellt. (von Intel) Verschwiegen wurde aber, dass sich die Steigerung maßgeblich aus der Erhöhung des L1 Caches ergab und nicht aus den MMX Erweiterungen. Pentium1 ohne MMX L1 Cache 8kb/8kb und Pentium1MMX L1 Cache 16kb/16kb. Oder der Pentium III mit SSE soll das Internet beschleunigen!?! Das war die PR Strategie von Intel bei Einführung von SSE im Pentium III. Was für ein Quatsch. Es ist eben schade, das die Spieleentwickler kaum Rücksicht auf SSE / 3DNow genommen haben, da ja HW T&L und damit der Marktführer nVIDIA dies auf den Grakas bereit stellte.

Ich habe vor ca. einem Jahr einen Bericht über SSE gelesen. Hier wurde gesagt, dass die Entwickler die SSE Einheit lediglich für die Soundberechnung benutzten und sich dadurch bei keinem Spiel ein Geschwindigkeitsvorsprung durch SSE herbeiführen lasse. Aber warum haben die nicht auch 3D Szenen berechnen lassen? Na es gab ja nvidia.

Marcus Err · 31. August 2001

sse bringt bei q3a NICHTS

also ich hab vorhin mal gebencht:

1024 32bit:

mit sse: 61,7
ohne sse: 62,3 ("Disable support for enhanced cpu instruction sets" im treiber aktiviert)

640 16bit und alles was füllfate schluckt runtergestellt:

mit sse: 67
ohne sse: 67

also beim ersten test ohne SSE sogar etwas schneller als mit, und beim zweiten, wo es fast nur auf cpu-leistung ankommt, exakt die gleichen werte.

Dann hab ich mittels rivatuner noch den tnt compatibility mode eingestellt, um das T&L auszuschalten (ich weiß nicht, ob dann auch noch 2 renderpipelines abgeschaltet werden, k.A.)

1024 32bit:

full acceleration mode: 61,7
tnt compatibility mode: 27

fazit: hardware T&L bringt BEI MIR was, sse nicht PUNKT

GRAKA0815 · 31. August 2001

Also ist es doch geau das was ich sage. Wenn du schon auf einem Celeron mit ca. 800 Mhz fast die gleichen Werte erreichst wie mit HW T&L dürfte wohl klar sein, das bei CPU´s AB 1 Ghz die Werte bei SSE / 3Dnow besser werden als mit HW T&L.

Crazy_Bon · 31. August 2001

Mogadischu, ist dein Vergleich von TNT-Modus und T&L mit oder ohne SSE?

Crazy_Bon · 31. August 2001

Also ich hab mal selbst ein bisschen in Quake3 gebenchmarkt und zu schauen was dran ist an der SSE-Geschichte.
Zu meiner Konfiguration:
Intel Celeron2 600@900
256MB SDR-RAM 3-3-3
Elsa Erazer X (GeForce256 SDR, Standarttakt)
Abit BH6 1.1 (BX-Chipsatz)
Creative Live! 1024 Player
Detonator 6.50

Über den Detonator habe ich die erweiterte CPU-Befehlsätze (also SSE) an/abgeschaltet unter OpenGL.
Gebencht wurde das Demo Demo001 von Version 1.17, der Benchmark lief 2 mal durch und erst der zweite Wert wurde notiert, V-Synch ist aus.
Option FASTEST:
Mit SSE: 96,3
ohne SSE: 100,1
Differenz: 3.8 fps / 3,94%

Option NORMAL:
Mit SSE: 87,4
Ohne SSE: 90,9
Differenz: 3,5 fps / 4%

Option HIGH QUALITIY:
Mit SSE: 78,8
Ohne SSE: 79,1
Differenz: 0,3 fps / 3,8%

Option CUSTOM (1152x864, 32Bit, Lightmaps, Geometrie und Texturen auf maximal):
Mit SSE: 37,9
Ohne SSE: 37,9
Differenz: 0,0 fps /0,0%

Erstaunlicherweise bremst die CPU-Befehlsatzerweiterung SSE das Gesamtsystem aus, bei immerhin beträchtlichen knapp 4%, anstatt zu beschleunigen wie Intel es kund tut.

Der letzte Benchmark auf der Option Custom ist eindeutig die Grafikkarte am schlechten Ergebniss und an keiner Differenz schuld, bei der veralteten GeForce256 mit SDR-RAM läuft der Benchmark nur noch wie Joghurt. Aber sicherlich würde selbst auf einem viel schnelleren System die Differenz zwischen SSE und ohne allmächlich verkleinern, keinesfalls würde der Wert mit SSE dem ohne übersteigen.
Vielleicht sollte mal einer mit einer stärkeren CPU und modernen Grafikkarte ebenso benchen. Auf schwächeren Systemen verliert SSE eindeutig auf ganzer Linie und zeigt bestimmt ab 1GHz-CPU´s auch kein besseres Bild.

Vielleicht werde ich auch unter UT benchen mit SSE und ohne, falls mir einer dabei zuvorkommt würde ich das begrüssen.
Schliesslich würde ich mir die Arbeit und Mühe ersparen.

Marcus Err · 1. September 2001

@crazy_bon: mit sse

dazu soll noch gesagt sein, dass ich version 1.27h druff hab und die demo "four" genommen hab

Bombwurzel · 1. September 2001

Moin Jungs,

ich hab mir die sehr interessante Diskussion mal ne Weile mit angesehen und denke, ich werde jetzt auch mal meinen Senf dazugeben

Mich interessieren eigentlich keine Benchmarks sondern nur technische Fakten, und da sieht es erst einmal so aus, das T&L scheinbar ziemlich nutzlos ist.
Die T&L-Unit einer GPU ist nur mit einer bestimmten Frequenz getaktet und kann auch nur eine bestimmte Anzahl von Rechenoperationen durchführen. Übersteigt die Anzahl der möglichen Operationen des Prozessors die der GPU ist völlig klar - Hardware T&L holt hier keinen Stich mehr. Besonders auffällig ist dieser Effekt bei einer älteren GeForce256, da dort die T&L-Unit nicht sehr leistungsstark ist. Da Prozessoren mit Frequenzen jenseits einem Gigahertz nicht mehr nur Luxus sind (weil billig) stellt sich sicherlich der Sinn und Zweck von Hardware-T&L in Frage.
Nun sollte man allerdings mal drüber nachdenken was die CPU noch alles machen muss. Da wäre das Betriebsystem, die Grundroutine des Spiels und die KI, um nur das wichtigste zu nennen. Gerne erinnere ich mich hierbei an den AMIGA bei dem damals die CPU nicht viel machte, sondern sämtliche Aufgaben an die sogenannten Custom-Chips weiter deligierte. Diese technologie war durchaus vergleichbar mit HW-T&L, da dort auch schon die gesammte Grafik vom Grafikchip übernommen wurde und somit die CPU stark entlastete womit die guten Amiga-Games erst möglich wurden.
Fakt ist auch, das HW-T&L von vielen Spielen nicht oder nur schlecht genutzt wird, da es auch viele GraKas ohne dieses Feature gibt und man potentielle Käufer nicht verlieren möchte.
Fakt ist auch, das heutige T&L-Units den Anforderungen derzeitiger Games ausnahmslos gewachsen sind.
Aus meiner Zeit als Hobby-Programmierer weiß ich wie wichtig es ist sich für bestimmte Routinen entsprechende Resourcen freizuhalten, und ehrlich gesagt, mir würde eine T&L-Unit sehr gelegen kommen. Hinzu kommt die Tatsache, daß , wenn man die CPU-internen Erweiterungen wie 3Dnow und SSE nutzen will muß man in der CPU ein paar Register umprogrammieren um an diese Befehle überhaupt erst einmal ran zu kommen, benötigt man dann wieder einen *normalen* Befehl geht´s wieder zurück. Diese Schaltvorgänge kosten wertvolle Rechenzeit die man gut und gerne für etwas anderes nutzen könnte. Die GPU von nVidia muß solche Schaltvorgänge imo nicht vollziehen, sondern hat sofortigen Zugriff auf entspr. Befehle.

Also ihr könnt mir erzählen was ihr wollt.
Wo in einem sythetischen Benchmark (ohne Gameplay und ohne KI) T&L sich noch von einer schnellen CPU abhängen lässt, da siehts im entgültigen Spiel mit Sicherheit anders aus.
Die Kyro2 holt ihren Geschwindigkeitsvorteil hauptsächlich aus dem intelligenteren Renderingverfahren. Aber auch nur, weil viele Game-Engines recht schlampig programmiert wurden indem sie die Entfernung überflüssiger Polygone der Grafikkarte überlassen. In ernsthaften Simulationen sieht es sicherlich anders aus, da hier die Engine schon vieles rausnimmt und gar nicht erst der CPU/GPU zur Grafik-Berechnung vorsetzt.
Ich denke Hardware T&L ist eine sehr sinnvole Sache, sollte halt nur kosequenter eingesetzt werden. Überhaupt bin ich ein großer Freund von Arbeitsteilung im Computer. Irgendwann stehen wir nämlich vor dem Problem, das unsere Chips aufgrund physikalischer Grenzen nicht mehr schneller werden können. Der Ausweg liegt dann in der Spezialisierung der einzelnen Chips und deren Zusammenspiel in einer MultiProzessorPlatform (wie damals beim Amiga). Sicherlich ist das derzeitig HW-T&L nicht der Weisheit letzter Schluss, aber es ist ein Konzept welches in die richtige Richtung geht. Es ist nämlich nicht sehr intelligent alles von der CPU berechnen zu lassen, blos weil sie es könnte und entsprechend vorhandene Resourcen der Grafikkarte liegen brach, blos weil Kollege CPU schnell genug ist - das bringt uns in Zukunft nicht mehr weiter. Ganz im Gegenteil. Was machen wir denn zur Zeit? CPU-Overclocking um auch noch das letzte Frame/s aus unserem Rechner zu kitzeln. Die Folge sind gigantische Kühltürme auf unseren CPUs damit sie nicht platzen. Und wozu das ganze? Nur um zu beweisen das ein 2GHz Prozessor die 300MHz GPU einer GeForce3 übertrumpfen kann? Na toll, dann können wir auch ´n Corsa mit nem Ferrari vergleichen. In den Corsa fährt 160 Sachen und nimmt dabei ca. 7l/100km - der Ferrari fährt über 300 Sachen (gut doppelt soviel) nimmt dabei aber gut 30l Sprit für 100km. Das witzige daran ist, das das Vehältnis von Leistung und eingesetzen Resourcen in beiden Fällen nicht stimmt.
Wenn wir auf der Grafikkarte 2 T&L-Units hätten (je 300MHz -> effektiv ca. 600MHz) wäre diese Hochspezialisierte GPU in Sachen Grafikleistung einem 2GHz P4 (ca. 3x hoch getaktet) mit Sicherheit stark überlegen.

Crazy_Bon · 1. September 2001

Nun, ich hab mal jetzt die UT-Engine gebenchmarkt wie stark sie erweiterte CPU-Befehlsätze (MMX und SSE) unterstützt. Die Ergebnisse gebe ich später frei, erstmal hinlegen, hab heut genug gebenchmarkt. Hab die UT-Engine über 35 mal benchen mit verschiedenen Einstellungen (ohne SSE, ohne MMX, mit SSE, hohe und niedrige Auflösung).

NoName · 1. September 2001

Original erstellt von Bombwurzel
Moin Jungs,

ich hab mir die sehr interessante Diskussion mal ne Weile mit angesehen und denke, ich werde jetzt auch mal meinen Senf dazugeben

Mich interessieren eigentlich keine Benchmarks sondern nur technische Fakten, und da sieht es erst einmal so aus, das T&L scheinbar ziemlich nutzlos ist.
Die T&L-Unit einer GPU ist nur mit einer bestimmten Frequenz getaktet und kann auch nur eine bestimmte Anzahl von Rechenoperationen durchführen. Übersteigt die Anzahl der möglichen Operationen des Prozessors die der GPU ist völlig klar - Hardware T&L holt hier keinen Stich mehr. Besonders auffällig ist dieser Effekt bei einer älteren GeForce256, da dort die T&L-Unit nicht sehr leistungsstark ist. Da Prozessoren mit Frequenzen jenseits einem Gigahertz nicht mehr nur Luxus sind (weil billig) stellt sich sicherlich der Sinn und Zweck von Hardware-T&L in Frage.
Nun sollte man allerdings mal drüber nachdenken was die CPU noch alles machen muss. Da wäre das Betriebsystem, die Grundroutine des Spiels und die KI, um nur das wichtigste zu nennen. Gerne erinnere ich mich hierbei an den AMIGA bei dem damals die CPU nicht viel machte, sondern sämtliche Aufgaben an die sogenannten Custom-Chips weiter deligierte. Diese technologie war durchaus vergleichbar mit HW-T&L, da dort auch schon die gesammte Grafik vom Grafikchip übernommen wurde und somit die CPU stark entlastete womit die guten Amiga-Games erst möglich wurden.
Fakt ist auch, das HW-T&L von vielen Spielen nicht oder nur schlecht genutzt wird, da es auch viele GraKas ohne dieses Feature gibt und man potentielle Käufer nicht verlieren möchte.
Fakt ist auch, das heutige T&L-Units den Anforderungen derzeitiger Games ausnahmslos gewachsen sind.
Aus meiner Zeit als Hobby-Programmierer weiß ich wie wichtig es ist sich für bestimmte Routinen entsprechende Resourcen freizuhalten, und ehrlich gesagt, mir würde eine T&L-Unit sehr gelegen kommen. Hinzu kommt die Tatsache, daß , wenn man die CPU-internen Erweiterungen wie 3Dnow und SSE nutzen will muß man in der CPU ein paar Register umprogrammieren um an diese Befehle überhaupt erst einmal ran zu kommen, benötigt man dann wieder einen *normalen* Befehl geht´s wieder zurück. Diese Schaltvorgänge kosten wertvolle Rechenzeit die man gut und gerne für etwas anderes nutzen könnte. Die GPU von nVidia muß solche Schaltvorgänge imo nicht vollziehen, sondern hat sofortigen Zugriff auf entspr. Befehle.

Also ihr könnt mir erzählen was ihr wollt.
Wo in einem sythetischen Benchmark (ohne Gameplay und ohne KI) T&L sich noch von einer schnellen CPU abhängen lässt, da siehts im entgültigen Spiel mit Sicherheit anders aus.
Die Kyro2 holt ihren Geschwindigkeitsvorteil hauptsächlich aus dem intelligenteren Renderingverfahren. Aber auch nur, weil viele Game-Engines recht schlampig programmiert wurden indem sie die Entfernung überflüssiger Polygone der Grafikkarte überlassen. In ernsthaften Simulationen sieht es sicherlich anders aus, da hier die Engine schon vieles rausnimmt und gar nicht erst der CPU/GPU zur Grafik-Berechnung vorsetzt.
Ich denke Hardware T&L ist eine sehr sinnvole Sache, sollte halt nur kosequenter eingesetzt werden. Überhaupt bin ich ein großer Freund von Arbeitsteilung im Computer. Irgendwann stehen wir nämlich vor dem Problem, das unsere Chips aufgrund physikalischer Grenzen nicht mehr schneller werden können. Der Ausweg liegt dann in der Spezialisierung der einzelnen Chips und deren Zusammenspiel in einer MultiProzessorPlatform (wie damals beim Amiga). Sicherlich ist das derzeitig HW-T&L nicht der Weisheit letzter Schluss, aber es ist ein Konzept welches in die richtige Richtung geht. Es ist nämlich nicht sehr intelligent alles von der CPU berechnen zu lassen, blos weil sie es könnte und entsprechend vorhandene Resourcen der Grafikkarte liegen brach, blos weil Kollege CPU schnell genug ist - das bringt uns in Zukunft nicht mehr weiter. Ganz im Gegenteil. Was machen wir denn zur Zeit? CPU-Overclocking um auch noch das letzte Frame/s aus unserem Rechner zu kitzeln. Die Folge sind gigantische Kühltürme auf unseren CPUs damit sie nicht platzen. Und wozu das ganze? Nur um zu beweisen das ein 2GHz Prozessor die 300MHz GPU einer GeForce3 übertrumpfen kann? Na toll, dann können wir auch ´n Corsa mit nem Ferrari vergleichen. In den Corsa fährt 160 Sachen und nimmt dabei ca. 7l/100km - der Ferrari fährt über 300 Sachen (gut doppelt soviel) nimmt dabei aber gut 30l Sprit für 100km. Das witzige daran ist, das das Vehältnis von Leistung und eingesetzen Resourcen in beiden Fällen nicht stimmt.
Wenn wir auf der Grafikkarte 2 T&L-Units hätten (je 300MHz -> effektiv ca. 600MHz) wäre diese Hochspezialisierte GPU in Sachen Grafikleistung einem 2GHz P4 (ca. 3x hoch getaktet) mit Sicherheit stark überlegen.

@bombwurzel:

Wie versprochen...alles gelesen und nix hinzuzufügen.

P.S.: Doch, ich fahre einen 90 PS TDI der 190 km/h schnell ist bei 6,5 Liter verbrauch (Mit Klima)

NoName · 1. September 2001

Original erstellt von Crazy_Bon
Nun, ich hab mal jetzt die UT-Engine gebenchmarkt wie stark sie erweiterte CPU-Befehlsätze (MMX und SSE) unterstützt. Die Ergebnisse gebe ich später frei, erstmal hinlegen, hab heut genug gebenchmarkt. Hab die UT-Engine über 35 mal benchen mit verschiedenen Einstellungen (ohne SSE, ohne MMX, mit SSE, hohe und niedrige Auflösung).

und dafür jetzt schon mal meinen RESPEKT. Solche Leute braucht das Forum.

Carsten · 1. September 2001

Also mit UT kann ich leider nicht dienen, da ich den commandline switch für die SIMD-abschaltung nicht kenne, aber mit 3dMark2000, wie graka0815 es eingefordert hat.
Ich habe also einen Durchlauf mit ganz normalen Default-Settings gemacht, 1024 in 16bit, HW TnL. Die CPU lief dabei auf 10,5x145=1522MHz, die GF3 GPU und ihr speicher auf 230/530DDR.
Der zweite Durchlauf wurde mit den selben Einstellungen durchgeführt, nur wurde diesmal Athlon 3Dnow! Optimierung gewählt. Die 3dMark Version war v1.1, die den 3DNow support angeblich verbessern sollte. Hier nun die gesamten Ergebnisse:

CPU Optimization: D3D Hardware T&L

RESULTS
Platform: Internal
3DMark Result: 9935 3D marks
CPU Speed: 618 CPU 3D marks
Game 1 - Helicopter - Low Detail: 191,4 FPS
Game 1 - Helicopter - Medium Detail: 144,1 FPS
Game 1 - Helicopter - High Detail: 90,8 FPS
Game 2 - Adventure - Low Detail: 223,9 FPS
Game 2 - Adventure - Medium Detail: 110,9 FPS
Game 2 - Adventure - High Detail: 66,8 FPS
Fill Rate (Single-Texturing): 805,2 MTexels/s
Fill Rate (Multi-Texturing): 1581,1 MTexels/s
High Polygon Count (1 Light): 22652 KTriangles/s
High Polygon Count (4 Lights): 12714 KTriangles/s
High Polygon Count (8 Lights): 6769 KTriangles/s

CPU Optimization: AMD Athlon(tm)

RESULTS
Platform: Internal
3DMark Result: 6957 3D marks
CPU Speed: 425 CPU 3D marks
Game 1 - Helicopter - Low Detail: 130,7 FPS
Game 1 - Helicopter - Medium Detail: 89,9 FPS
Game 1 - Helicopter - High Detail: 47,2 FPS
Game 2 - Adventure - Low Detail: 169,4 FPS
Game 2 - Adventure - Medium Detail: 88,8 FPS
Game 2 - Adventure - High Detail: 53,8 FPS
Fill Rate (Single-Texturing): 803,9 MTexels/s
Fill Rate (Multi-Texturing): 1581,5 MTexels/s
High Polygon Count (1 Light): 10435 KTriangles/s
High Polygon Count (4 Lights): 8866 KTriangles/s
High Polygon Count (8 Lights): 6736 KTriangles/s

Bitte zeigt mir stellen auf, wo ein 1,5GHz Prozessor eine 230MHz GPU schlägt!

Ich bitte zu beachten, daß graka0815 und ich uns schon einig waren, daß dieser Benchmark keinen Praxisbezug hat.
Ich habe ihn nur durchgeführt, weil es hieß, 3Dnow wäre schneller als HW TnL!

Gute N8, wir sehn uns morgen
Quasar

P.S.: Da es noch nicht spät genug ist, möchte ich noch ein paar schnelle Q3-Benches nachschieben:
system wie oben (win2k, athlon1522,GF3 230/530 usw..)
Quake3 v129, sound on.
fastest: 152,8 fps mit 3Dnow!
fastest: 153,6 fps ohne 3Dnow!

HQ1024: 140,3 fps mit 3Dnow!
HQ1024: 140,7 fps ohne 3Dnow!

Ich kann mogadischus Benchs also bestätigen...auch hier kein Anzeichen für Treiberlevel SIMD-Support!

Crazy_Bon · 1. September 2001

Hmm.. nach Quasar´s Post sehe ich mich gezwungen schon jetzt meine Ergebnisse zu veröffentlichen.

Mein System:
Intel Celeron2 600@900
256MB SDR-RAM 3-3-3
Elsa Erazer X (GeForce256 SDR, Standarttakt)
Abit BH6 1.1 (BX-Chipsatz)
Creative Live! 1024 Player
Detonator 6.50
DirectX 8.0a German
Win98

Bei UT gibt es folgende Commands die man in der Verknüpfung als Parameter editieren kann um verschiedene Unterstützungen von erweiterten CPU-Befehlsätzen abzuschalten.
-nok6 Deaktiviert AMD 3D-Now! Unterstützung
-nokni Deaktiviert KNI-(Pentium III/SSE) Ünterstützung
-nommx Deaktiviert MMX -Unterstützung
ohne Parameter/normal Mit erweiterten CPU-Befehlsätzen
Da Intel-Prozessoren keine 3D-Now! Befehlsätze können, sind logischerweise nur die 2 anderen Varianten und ohne Commands zum benchen möglich.

Es wurden mehrere Benchmarkdurchgänge gemacht, Ergebnisse wurden erst ab den zweiten Durchgang notiert, da der erste immer verfälscht und daher zu hoch anzeigt wird. Dann wurde 1 Durchgänge "blind" gebencht, dass heisst es wurde nicht zu der Spielgrafik umgeschaltet, sondern das Menü-Bildschirm mit der Eingabekonsole blieb offen. Der Grund ist folgender, somit bleibt der Einfluss der 3D-Karte möglichst gering auf dem Wert, bei dem folgenden Durchlauf danach wurde schliesslich doch auf Spielgrafik umgeschaltet. Verwendet wurde das Demo utbench.dem von http://www.3dcenter.de/

UT-Konfiguration 1:
UT-Version 4.36
Direct3D
1024x768, 16 Bit
Skin&Worldtexturen: high
Texturen: true (eingestellt unter advanced preferences)
keine S3TC-Texturen
kein Precaching von Texturen
Show Decals
Dynamic Lighting
3D-Sound
Sound Quality: high
V-Sync: off

-nokni (blind)
42,54
-nokni (Spielgrafik)
31,68

-nommx (blind)
42,81
-nommx (Spielgrafik)
31,48

ohne Parameter/normal (blind)
42,54
ohne Parameter/normal (Spielgrafik)
31,39

Zu erkennen ist ein kleiner Vorsprung für -nommx beim "blind"-benchen, -nokni führt in der Spielgrafik-Benchmark an. Und dennoch leigt das Feld sehr nahe zusammen, es gibt keinen überragenden Sieger.
Leider spuckt UT nie identische Ergebnisse bei mehrmaligen benchen aus. Das bewegte mich dazu UT mit einer anderen Einstellung zu benchen um Schwankungen zu vermeiden.

UT-Konfiguration 2:
UT-Version 4.36
Direct3D
640x480, 16 Bit
Skin&Worldtexturen: low
Texturen: true (eingestellt unter advanced preferences)
keine S3TC-Texturen
kein Precaching von Texturen
keine Decals
kein Dynamic Lighting
kein 3D-Sound
Sound Quality: high
V-Sync: off

-nokni (blind)
54,14
-nokni (Spielgrafik)
42,28

-nommx (blind)
53,02
-nommx (Spielgrafik)
41,63

ohne Parameter/normal (blind)
53,45
ohne Parameter/normal (Spielgrafik)
42,19

In dieser Einstellung liessen sich die Ergebnisse ziemlich identisch mehrmals republizieren, es waren nur noch sehr minimale (0,01-0,03fps) Abweichungen festestellbar.

Fazit: Auch wenn die Unterschiede sehr minimal sind, ohne KNI/SSE-Unterstützung sind die Werte geringfügig besser. Ob nun der Prozessor MMX oder SSE kann scheint völlig Wurscht zu sein, die Unterschiede bewegen sich im 0,4%-Bereich.
Die erweiterte CPU-Befehlsätze von SSE scheinen kein Garant für mehr Frames in Spielen zu sein, in Quake3 sogar das Gegenteil. Somit hat Intel ein für Zocker völlig unnötiges Feature aus dem Hut gezogen von dem im Spielebereich anscheinend keine brauchbare Verwendung findet.

Schlusswort: Ich habe UT etwa 45 bis 50 mal gebencht und daher kann ich im ruhigen Gewissen sagen, dass die Werte echt sind und stimmen. Ich habe sogar eine weiter Variante (beide Commands -nokni und -nommx in einer Zeile als Parameter) gebencht um jegliche Unterstützung zu unterbinden, aber die Ergebnisse waren unspektulär und daher unbedeutend.

GRAKA0815 · 1. September 2001

Moin zusammen.

Ich habe mal ne Frage zu den verwendeten Benchs. Sind die darin enthaltenen Programme für die Verwendung von MMX/SSE/3Dnow optimiert? Ist ja wohl klar, dass wenn man diese Features zwar ünterstützt, aber nicht so unterstützt wie bsp. weise HW T&L das dann die Wirklichkeit wohl verzerrt ist.

Meine Argumentation geht ja auch in die Richtung, dass wenn die Spiele für diese Features optimiert wären, (und zwar richtig) das dann ein HW T&L auf der Graka wohl überflüssig ist. Zumindest was die heutigen Prozessoren angeht.

@Bombwurzel

Auch ich bin ein Freund von Multichips! Verwende z.B. ein Dual Prozessor System. Hat alles seine Vorteile, aber dennoch stimmt deine Argumentation bezüglich der Zukunft nicht. Soweit mir bekannt ist, liegt wohl die physikalische Grenze der Geschwindigkeit bei der Lichtgeschwindigkeit. Diese Grenze soll wohl bei Prozessoren ab 1000 GHz (glaub ich) erreicht sein. Hier nutzt es also nichts mehr zusätzliche Prozessoren einzusetzten, da ja irgendwo die Informationen zusammenlaufen MÜSSEN. Doch hier wird die Geschwindigkeit auch nur max. Lichtgeschwindigkeit haben. Fazit: Selbst 10 Prozessoren in einem System bringen nichts mehr, da das Board die Informationen ja irgenwo bündeln und zusammenführen muss.

Carsten · 1. September 2001

Ein kleiner Nachtrag bezügl. UT:

die selben Settings wie oben, nur kein 3D Sound...der frißt bei mir locker 10fps...

3D Now!:
blind: 73,65
normal: 49,80

-noK6:
blind: 73,47
normal: 49,79

Also wieder nix mit SIMD...
Aber zumindest für den Athlon ist das erklärbar, da die K6-Optimierung ihn des öfteren auch ausbremsen kann...der K6 hat nur eine vierstufige Pipeline im gegensatz zu den 10-15 Stufen des Athlon, dazu noch die Zeit, die verdaddelt wird mit Register-Remapping und schon fetzt die 3fach-FPU die 1fach-3Dnow! einheit wech....

Quasar

P.S.: Was die verwendeten Benches angeht, du hast doch selber nach 3DMark2000 verlangt, da sollte man doch den Unterschied am besten sehen, was? also bis 1,5GHz noch lockere 45% vorsprung (nicht nachrechnen, nur geschätzt) für HW TnL...ich denke, bei 640x480 ginge es schon richtung 50%...

GRAKA0815 · 1. September 2001

Ich denke das meine Frage durchaus Sinn macht. Ich habe lediglich auf 3DMark2000 verwiesen, da es der einzige Bench ist den ich kenne bei dem man SSE/3DNow und T&L einstellen kann.

Ich sehe, dass einzig nur in 16Bit getestet wurde, mich würde beispielsweise der gleiche Test auch einmal in 32Bit interessieren. Leider kann ich das z.Z. nicht selber machen, da ich ständig die Fehlermeldung "Beta DirectDraw Please update" bekomme. Auch eine Neuinstallation von DirectX 8.0a nutzt nichts.

Laut den Benchs unter Quake3 (oben aufgeführt von Grazy_Bon)sind die Unterschiede "nur um hier mal ein realistisches Spiel zu nehmen" ja wohl sehr sehr dünn. Bedenkt man einfach das man die CPU ja schon hat, stellt sich doch wirklich die Frage warum man sich eine mehrere Hundertmark teure Graka kaufen soll mit HW T&L ! Zumindest sehe ich das so. Zugegeben! Bei den UT Bench ist der Unterschied größer aber dennoch alles im absolut flüssig spielbarem Bereich.
Ich denke das die Argumentation schon zieht warum die SSE/3Dnow Optionen nicht stärker genutzt werden in den Spielen. Würden sie es wie HW T&L, wären die Unterschiede bestimmt nicht mehr so eindeutig bei UT.

Hardware T&L, Sinn und Unsinn

Commodore

GRAKA0815

Gast

Commodore

Rear Admiral

GRAKA0815

Gast

Graka0815

Gast

Lt. Commander

GRAKA0815

Gast

Rear Admiral

Rear Admiral

Lt. Commander

Admiral

Rear Admiral

Lt. Commander

Lt. Commander

Commodore

Rear Admiral

GRAKA0815

Gast

Commodore

GRAKA0815

Gast

Ähnliche Themen