Deep Research für ChatGPT Plus: Würde OpenAIs Recherche-Assistent eine RTX 5090 kaufen?

OpenAIs Recherche-Assistent Deep Research gilt als eines der bis dato leistungsfähigsten Agenten-Tools auf den Markt. Nun wurde es auch für Plus-Nutzer freigeschaltet. ComputerBase gibt einen Einblick in das, was Deep Research bereits kann. Die naheliegende Frage: Würde es eine GeForce RTX 5090 kaufen?
Deep Research ist ein Agenten-Tool. Das heißt: Es kann komplexe Aufgaben in einen mehrstufigen Prozess unterteilen und die einzelnen Schritte systematisch abarbeiten. Technisch basiert Deep Research auf einer frühen Version des Reasoning-Modells o3, das für Web-Browsing optimiert wurde. So ist es in der Lage, Inhalte zu suchen und zu interpretieren sowie große Mengen an Texten, Bildern und PDFs auszuwerten und diese in einen Kontext zu setzen. Ebenso kann es noch Daten und Eingaben von Nutzern für Analysen aufgreifen – eine Fähigkeit, die OpenAI in den letzten Wochen auch verbessert hat.
Bislang war es für ChatGPT-Pro-Abonnenten vorbehalten, man musste also 200 Dollar pro Monat zahlen. Nun hat OpenAI den Nutzerkreis auf Plus-Abonnenten sowie die Varianten Teams, Enterprise und Edu erweitert. Diese können zunächst zehn Deep-Research-Anfragen pro Monat stellen, Pro-Nutzer haben ein Kontingent von 120 Anfragen.
Nutzen lässt sich Deep Research, indem Nutzer eine Anfrage in ChatGPT stellen und den Deep-Research-Schalter auswählen. Das Tool stellt in der Regel dann nochmals Nachfragen, ob die Stoßrichtung zu fundieren, danach startet die Berechnung der Antwort. Das dauert, je nach Komplexität der Anfrage zwischen 10 Minuten und 30 Minuten und mehr. Manchmal sind die Kapazitäten überlastet, dann landet man in der Warteschlange.
Der Ruf ist gut, Branchenbeobachter bezeichnen die Ergebnisse als beeindruckend. Nun stellt sich die Frage, wie sich das Tool bei typischen ComputerBase-Themen schlägt.
Test 1: Die Marktlage von Intel
Auftakt für diesen Testlauf ist ein Bericht über die aktuelle Marktlage von Intel. Der Konzern kämpft derzeit an vielen Stellen, sei es im Prozessorgeschäft oder in der Chip-Produktion. Deep Research soll nun einen Überblick geben und die Situation analysieren. So sieht die Anfrage aus:
Intel war lange Zeit der führende Prozessor-Hersteller, kämpft in den letzten Jahren aber mit zahlreichen Problemen und droht den Anschluss im Markt zu verlieren. AMD bietet leistungsfähigere Gaming-Prozessoren wie die X3D-Modelle, gewinnt Marktanteile und hat Intel bei der Marktkapitalisierung überholt. Ein Grund für die Probleme liegen bei Intels Chipfertigung. Die kostet Intel Milliarden und kämpft damit, technisch den Anschluss an TSMC zu halten. Ich benötige eine Analyse für Intels Probleme. Die soll drei Abschnitte haben:
- Marktlage und wie Intel dasteht
- Welche Probleme hat Intel: Beschreibe diese im Vergleich mit der Prozessor-Entwicklung von AMD und im Vergleich mit der Chipfertigung von TSMC. Fokus soll eine quantitative Analyse sein, ich möchte Zahlen.
- Ausblick: Welche Lösungswege hat Intel? Und welche Chancen bietet das KI-Wettrüsten für Intel? Kann Intel von diesem Milliarden-Markt profitieren?
Danach sollen Angaben noch konkretisiert werden. So soll die Zeitspanne für die Analyse die letzten fünf Jahre sein. Zusätzlich wird gefragt, ob sich das Tool eher auf den Consumer- oder den Server-Markt konzentrieren soll und ob beim KI-Bereich auch GPUs eine Rolle spielen sollen. Die Antwort lautete jeweils ja, dann startete die Berechnung. Erstellt wurde die Analyse, die auf 22 Quellen basiert, in 13 Minuten.
Was zunächst einen positiven Eindruck hinterlässt: Der Umgang mit Quellen funktioniert grundsätzlich. Es werden korrekte Links zu unterschiedlichen Webseiten gesetzt; wenn man diese öffnet, wird die zitierte Passage markiert. Sich einen Überblick über die Quellen zu verschaffen, klappt so ordentlich, Inhalte wirken nachvollziehbar
Zu viele alte Informationen
Inhaltlich ist das Ergebnis hingegen eher ernüchternd. Deep Research arbeitet sich durch die vorgegebene Struktur, die grundsätzliche Einordnung stimmt. An was es jedoch mangelt, ist Aktualität. So ist etwa noch von den „Ausbauplänen in Europa (z.B. Magdeburg, DE)“ die Rede; Meteor Lake wird als neues Produkt im Client-Segment in Aussicht gestellt, obwohl der Start bereits Ende 2023 erfolgte; der ehemalige CEO Pat Gelsinger scheint noch im Amt zu sein. Im Chipfertigungsbereich gibt es ebenfalls Sprünge. Teils sind Daten aktuell, teils Jahre alt. Die Konsequenz: Analysen und Argumentationen sind nicht schlüssig. Neben den Böcken wie dem Verweis auf Meteor Lake als künftige Plattform, die Ende 2023 erscheinen soll, sind es die Fehler im Detail, die insbesondere Kenner der Materie ins Auge stechen.
Stilistisch wirkt der Text auch erstaunlich unrund. Angaben sind bisweilen vage, Erklärungen und Definitionen fehlen oder wirken willkürlich eingestreut. Besser wird es, wenn man den Prompt auf Englisch eingibt. Die Sprache ist präziser, in manchen Bereichen werden Zitate aus den Quellen eingebunden, der Lesefluss fällt leichter. Das Hauptproblem, das auch die englische Analyse plagt, lässt sich aber bereits an der Überschrift erkennen:
Obwohl die Aufforderung war, die letzten fünf Jahre als Zeitraum zu nutzen, landet 2018 bis 2023 in der Überschrift. Insbesondere in einem schnelllebigen Geschäft wie der CPU- und Chipentwicklung ist sowas aber kaum hilfreich. Per Prompt lässt sich zwar nachsteuern, aber auch dann kämpft Deep Research augenscheinlich damit, aktuelle Daten adäquat einzupflegen.
Test 2: Bewertung der Geforce-RTX-50-Modelle
Akutalität der Daten ist ein Problem, dass sich auch beim zweiten Testlauf fortsetzt. In diesem Fall geht es um den Start der GeForce-RTX-50-Reihe. Die Herausfoderung für Deep Research ist also, erst wenige Wochen und zum Teil tagesaktuelle Informationen einzuordnen. Der Prompt lautet in diesem Fall:
Nvidia hat im Januar die neuen Geforce RTX 5000 Modelle mit Blackwell-Chip vorgestellt. Schreibe in einem Bericht, welche Modelle in welchen Varianten vorgestellt worden, wie schnell diese sind und wie das Preis-Leistungsverhältnis ausfällt. Analysiere die Qualität der neuen Modelle im Vergleich zu Nvidias alten Karten und zur Konkurrenz von AMD und Intel. Und die abschließende Frage ist: Lohnt es sich, eine Geforce RTX 5090 zu kaufen?
Per Nachfrage will Deep Research noch wissen, ob es eine eher technische Analyse sein soll und ob Benchmarks integriert werden sollen. Beides wurde bejaht, der Bericht wurde dann erstellt – und gibt generell einen ordentlichen Überblick.
Neben Angaben zur Architektur und den Neuerungen rund um DLSS 4 folgen Benchmarks und Performance-Beschreibungen, im Abschluss Marktanalysen – also die Vergleiche mit der Konkurrenz und den Vorgängergenerationen. Bei den Benchmarks verweist Deep Research auf Tests von Branchenmagazinen, Auszüge wurden etwa auch aus dem ComputerBase-Test zur GeForce RTX 5090 Founders Edition übernommen. Konkret heißt es: „ComputerBase ermittelte in einem Ultra-HD-Testparcours einen Vorsprung von 24% bei den Durchschnitts-FPS (und ~22% bei den 1%-Perzentil-FPS) gegenüber der 4090. Diese Steigerung liegt leicht unter dem theoretischen Hardware-Plus (~27% mehr Shaderleistung), kommt der Erwartung aber sehr nahe.“ Die Sätze finden sich auch so im Test, ansonsten erfolgen Verweise auf Gamersnexus.
Unklar ist an dieser Stelle, wie viele Quellen tatsächlich für den Benchmark-Part ausgewertet worden sind. Generell gehen die Beschreibungen nicht allzu sehr in die Tiefe. Den Anspruch einer technischen Analyse wird der Bericht so nicht gerecht.
Interessant ist zudem: Tests der RTX 5090 und 5080 werden aufgegriffen, bei der RTX 5070 Ti wird aber auf den Mangel unabhängiger Benchmarks verwiesen, obwohl die Tests schon vor rund einer Woche erschienen sind.
Was Deep Research zudem versucht, ist ein kritisches Auseinandersetzen mit Marketing-Aussagen von Nvidia. Offizielle Hersteller-Benchmarks werden als irreführend beschrieben, an einer anderen Stelle heißt es zudem: „Für die Praxis bedeutet das: In Spielen, die DLSS 4 voll ausnutzen, kann selbst eine RTX 5070 mit Frame-Gen unter Umständen eine RTX 4090 (ohne Frame-Gen) in FPS übertreffen. Allerdings erkauft man dies mit mehr künstlichen Frames und potentiell höherer Latenz. NVIDIA adressiert Letzteres mit Reflex 2, doch ganz eliminieren lässt sich der zusätzliche Verarbeitungsaufwand nicht.“ Hier stellt sich aber die Frage, ob man mit Verweis auf Reflex 2 nicht doch zu nah an der Botschaft des Herstellers ist.
Echte Preise fehlen: RTX-5080-Analyse nur mit dem UVP
Fehler und Probleme stecken erneut in den Details. In einer Übersichtstabelle am Anfang steht bei der GeForce RTX 5070 (non-Ti) noch der Februar als Starttermin, obwohl dieser sich verzögert hat. Kleinere Fehler gibt es zudem bei den Spezifikationen, an einer Stelle ist zudem von einer GeForce RTX 4080 TI die Rede, die nicht existiert.
Gravierende Mängel finden sich aber in der Marktanalyse. Das Kernproblem ist: Deep Research nimmt den UVP als Maßstab und nicht die eigentlichen Marktpreise, was das Bild verzerrt und relevante Informationen unter den Tisch fallen lässt. So schneidet eine RTX 5080 laut Deep Research etwa besonders gut im Vergleich zur RTX 4080 ab, weil nur die jeweiligen UVP-Startpreise verglichen werden. Verfügbarkeit ist auch ein Thema, was nur angerissen wird.
Beim allgemeinen Fazit ist das Ergebnis aber solide. Würde Deep Research also eine RTX 5090 kaufen? Zweifel sind angebracht: „Kurz gesagt: Nur wer kompromisslose Leistung will und bereit ist, dafür unverhältnismäßig zu zahlen, „braucht“ eine RTX 5090. Allen anderen bieten die RTX-5000-Familie und Konkurrenzprodukte genügend Alternativen, um in den Genuss der neuen GPU-Generation zu kommen, ohne gleich $2000 investieren zu müssen.“
Test 3: Einfluss von Social Media auf Wahlen
Um den Blick zu weiten, behandelt Test 3 ein Thema, das wenig mit Chips zu tun hat, sondern sich eher mit den Auswirkungen von Technologie auf die Gesellschaft befasst. Deep Research soll analysieren, wie Social Media das Wahlverhalten beeinflusst. Der Prompt dazu:
Schreibe einen Bericht, der sich mit dem Einfluss von Social Media auf das Wahlverhalten befasst. Analysiere, welche Werbemaßnahmen über Social-Media-Plattformen laufen, welche Formen der Wahlbeeinflussung es gibt und inwieweit diese überhaupt für das Wahlverhalten relevant sind.
Die Nachfragen befassen sich in diesem Fall mit der Region, dem Zeitraum, dem Stil und potenziellen Begrenzungen bei Plattformen oder der Art der Inhalte.
Diese Analyse ist es, die den besten Eindruck hinterlässt. Leser erhalten einen breiten Einblick, beschrieben werden Phänomene wie Microtargeting, organische Kampagnen sowie den Einfluss von Desinformation und Bots. Beim Micro-Targeting wird etwa erklärt, wie Werbung in sozialen Netzwerken maßgeschneidert für bestimmte Gruppen geschaltet wird und wie sich die Regulierung entwickelt. Das erfolgt anhand historischer Beispiele, also etwa dem Cambridgte-Analytica-Skandal oder dem Vorgehen deutscher Parteien bei der Bundestagswahl 2021. Bei den Quellen wird auf Studien, Themenportale sowie Institute wie die Bundeszentrale für politische Bildung verwiesen.
Der Text hinterlässt einen ordentlichen Eindruck, interessant ist aber insbesondere der analytische Part. So wird etwa beschrieben, dass selbst destruktive Social-Media-Kampagnen eher nicht das Wahlverhalten beeinflussen, sondern eher langfristige Effekte haben.
Andererseits muss man die Grenzen des Einflusses betonen. Viele wissenschaftliche Studien finden keine drastischen Umpolungen durch Social Media. Politische Einstellungen sind oft tief verankert und werden eher durch das soziale Umfeld, Bildung und langfristige Mediennutzung geprägt als durch einzelne Facebook-Posts. (…) Offenkundig ist jedoch, dass solche Schattenkampagnen das Vertrauen in demokratische Institutionen untergraben können – ein Effekt, der langfristig ebenso bedeutsam ist wie kurzfristige Wahlerfolge.
So ein Text ist noch keine wissenschaftliche Arbeit, dazu sind Aussagen teils zu allgemein, zu wenige Studien als Quellen vorhanden und man kann auch über die Perspektive des Textes diskutieren. Dennoch zeigen sich bei diesem Thema die Stärken von Deep Research. Es ist in der Lage, analytische Zusammenhänge einzuordnen, es kann Fragestellungen auf verschiedenen Ebenen bearbeiten. Die zentralen Probleme und Erkenntnisse werden erfasst. Wer mit diesem Text und der Quellensammlung einsteigt, spart sich einige Tage Arbeit.
So gesehen war es also der erfolgreichste Testlauf. Vermutungen für die Gründe: Die relevanten Informationen sind älter als bei den anderen Analysen, einige Jahre altes Material steht im Mittelpunkt der Analyse – und keine Tests, die kaum drei Wochen alt sind. Zudem stehen weniger Zahlen im Fokus, diese wirken immer noch wie ein Einfallstor für Fehler bei ChatGPT.
Zwei Erkenntnisse nach einem Tag mit Deep Research
Was kann man also nach einem Tag mit Deep Research mitnehmen? Die Qualität kann je nach Thema variieren, selbst die Intel- und RTX-50-Analysen bieten aber noch einen brauchbaren Überblick. Man kann mit dem Tool also in ein Thema einsteigen. Nur steckt der Teufel im Detail. Denn die Berichte sind so komplex und erhalten so viele Details, dass man selbst als interessierter Laie kaum alles prüfen kann. Über grobe Schnitzer stolpert man. Wenn man aber nicht ohnehin komplett in der Materie steckt, ist es kaum möglich, die kleinen – aber bisweilen schwerwiegende – Fehler zu erkennen.
Die erste Erkenntnis ist daher: Vernünftig arbeiten können mit Deep Research derzeit vor allem Personen, die ohnehin tief im jeweiligen Thema drinstecken. Sonst ist das Risiko schlicht zu hoch, gravierende Böcke zu übersehen.
Neu ist das nicht. Damit kämpfen bis dato praktisch alle AI-Tools, wie der Platformer-Journalist Casey Newton beschreibt. Ungewohnt ist bei Deep Research vor allem das Niveau, auf dem sich die Fehler einschleichen.
OpenAI’s deep research suffers from the same design problem that almost all AI products have: its superpowers are completely invisible, and must be harnessed through a frustrating process of trial and error.
Casey Newton
Noch sind aktuelle Daten ein Problem, ebenso scheinen die Ergebnisse auf Englisch noch besser auszufallen, auch Prompts dürften Einfluss auf die Analysen haben. Solche Probleme dürften sich aber ausmerzen lassen. So lautet die zweite Erkenntnis, dass Deep Research bereits einen Ausblick auf das gibt, was in einigen Jahren die Zukunft sein kann.
Dieser Artikel war interessant, hilfreich oder beides? Die Redaktion freut sich über jede Unterstützung durch ComputerBase Pro und deaktivierte Werbeblocker. Mehr zum Thema Anzeigen auf ComputerBase.