Gemini-Präsentation: Googles Werbevideo der neuen KI-Fähigkeiten war geschönt
Bei der Vorstellung der neuen Gemini-Modelle präsentierte Google auch verschiedene Videos, die zeigen sollten, wie leistungsfähig die multimodalen KI-Modelle sind. Ein Hands-On-Video erreichte bei YouTube mittlerweile 2,2 Millionen Aufrufe, beinhaltet aber Interaktionen, die so nicht real sind, berichtet Bloomberg.
Was im Video zu sehen ist, wirkt zunächst beeindruckend. Das Modell – das als multimodale Variante neben Text auch Video- und Audioeingaben verarbeiten kann – identifiziert unter anderem die händische Zeichnung einer Ente und glänzt bei Hütchenspielen. Suggeriert wird, Gemini reagiert in Echtzeit und auf Spracheingaben, es findet also eine Art Gespräch statt. Das war tatsächlich aber nicht der Fall.
Bereits in den Hinweisen des YouTube-Videos schreibt Google, dass die Latenzzeit reduziert und Gemini-Ausgaben gekürzt wurden. Im Video selbst wird das aber nicht erwähnt und selbst diese Angabe greift noch zu kurz. Denn die Steuerung des multimodalen Models erfolgte nicht via Sprache, sondern mit Prompt-Eingaben in Form von Texten. Das bestätigte ein Google-Sprecher auf Anfrage von Bloomberg. In Echtzeit lief die Aufnahme auch nicht. Das Video wurde im Endeffekt also zusammengeschnitten und vertont, zudem hat man die Ausgaben gekürzt.
Wie genau die Interaktion mit Gemini abläuft, zeigte nun Oriol Vinyals (via Golem), Co-Entwickler von Gemini bei Google Deepmind, in einem Beitrag auf X. Demnach wollte Google mit dem Video vor allem zeigen, wie die Interaktion mit einem multimodalen Modell aussehen kann. „Alle Nutzereingaben und Ausgaben in dem Video sind echt, nur wegen der Übersicht gekürzt“, so Vinyals. Man wolle damit Entwickler inspirieren. Details zur Entstehung zeigt man in einem Blog-Beitrag.
Gemini Ultra zieht an GPT-4 vorbei, stellt es aber nicht in den Schatten
Ebenfalls wird im Video nicht erwähnt, welche Gemini-Variante zum Einsatz kommt. Bloomberg-Autorin Parmy Olson vermutet, es handele sich um Gemini Ultra. Das ist die leistungsfähigste Version, die aber noch nicht öffentlich verfügbar ist. Die Entwicklungen laufen noch, vermutlich erscheint diese erst Anfang des kommenden Jahres.
Hinzu kommt, dass die Inhalte im Prinzip nicht neu sind. Ethan Mollick, Professor für AI, Innovationen und Startups an der Wharton School, zeigt auf X, dass sich ein ähnlicher Austausch auch mit ChatGPT durchführen lässt. Was insofern nicht überraschend ist, weil es sich auch bei GPT-4 um ein multimodales Modell handelt.
Angesichts der von Google Deepmind präsentierten Ergebnisse reagieren Branchenexperten wie Mollick ohnehin ernüchternd. Gemini gilt als leistungsfähig, GPT-4 überragt es aber nicht. Resultate wie die 90,04 Prozent im MMLU-Benchmark werden als bemerkenswert eingestuft, in der Regel liegt Gemini Ultra nur einige Prozentpunkte vor GPT-4, obwohl das bereits im März veröffentlicht wurde. Darüber hinaus steht der Start von der Ultra-Version noch aus, verfügbar ist zunächst nur Gemini Pro. Und das siedelt sich zwischen GPT-3.5 und GPT-4 an.
OpenAI hat mit GPT-4 kein Alleinstellungsmerkmal mehr
Interessant wird es zudem, wie sich die Fortschritte in der Praxis auswirken. ArsTechnica hat den auf Gemini Pro basierenden Bard mit ChatGPT verglichen. Laut den ersten Tests verzeichnet Googles Chatbot zwar Fortschritte, in der Summe würde ChatGPT aber noch besser abschneiden. Nächstes Jahr soll aber noch eine „advanced-Bard“-Version kommen, die auf Gemini Ultra basiert.
Für Google kann das dennoch ausreichen. Von einem kommerziellen Standpunkt aus hat GPT-4 kein Alleinstellungsmerkmal mehr, schreibt Gary Marcus auf X. Das kann noch relevant sein, wenn Firmen sich nach Alternativen umsehen. Insbesondere nach dem Drama um Sam Altmans Entlassung und Rückkehr könnten Kunden zweifeln, ob OpenAI langfristig eine sichere Option ist.