Upgrade kurz nach dem Start: Googles Gemini 1.5 Pro kann bis 1 Million Token verarbeiten
Kaum zwei Monate nach der Vorstellung bringt Google bereits ein Upgrade für die Gemini-Modelle. Mit der Version 1.5 sollen diese leistungsfähiger sein, mehr Kontext bei den Prompt-Eingaben verarbeiten können und weniger Ressourcen benötigen.
Der Sprung von 1.0 auf 1.5 klingt nach wenig, Google spricht aber nicht nur von deutlich mehr Leistung, sondern einer neuen Architektur. Wie Demis Hassabis, CEO von Google Deepmind, in einem Blog-Beitrag schreibt, nutzt Gemini 1.5 mit Mixture of Experts (MoE) einen neuen Ansatz.
Einfach dargestellt besteht ein Large Language Model (LLM) bei diesem Ansatz nicht aus einem riesigen Sprachmodell, sondern mehreren kleineren, die für bestimmte Aufgaben spezialisiert sind. Spekulationen zufolge nutzt auch OpenAI einen MoE-Ansatz für GPT-4.
Mehr Kontext, mehr Möglichkeiten
Als erstes Modell aus der neuen Generation ist Gemini 1.5 Pro verfügbar. Bei der Leistung soll es mit Gemini 1.0 Ultra mithalten, obwohl es mit weniger Rechenleistung auskommt. Bemerkenswert ist jedoch insbesondere die Kontextlänge: Die soll bei bis zu einer Million Token liegen. Verbessert wurde zudem das Verständnis bei langen Texteingaben. Davon sollen unter anderem Entwickler profitieren, deren Anwendungen auf den Sprachmodellen basieren.
Das Verarbeiten von Eingaben mit bis zu 1 Million Token ist bislang auf eine private Vorschau für eine begrenzte Gruppe von Entwicklern und Unternehmen beschränkt. Der Zugang erfolgt über AI Studio und Vertex AI, also Googles AI-Tools für Entwickler und Unternehmen.
In der Standardversion kann Gemini 1.5 Pro 128.000 Token verarbeiten, was rund 300 Seiten Text entspricht. Bei den Tokens handelt es sich grundsätzlich um Textbausteine, mit denen die Sprachmodelle neue Wörter generieren. Die technischen Details erklärt ComputerBase in einem Hintergrundartikel zur Künstlichen Intelligenz.
In der Standardversion von Gemini 1.5 bewegt sich das Modell also auf dem GPT-4-Niveau: Während Gemini 1.0 Pro auf 32.000 Token begrenzt war, schafft GPT-4 Turbo 128.000 Token, das Claude-Modell von Anthropic kommt auf 200.000.
Multimodal: Langer Kontext heißt nicht nur Text, sondern auch Video
Bei Gemini 1.5 Pro handelt es sich um ein multimodales Modell, neben Text kann es noch weitere Eingabeformen wie Bilder, Sprache oder Video verarbeiten. Insbesondere das Verarbeiten eines Videos stellt Google bei der Präsentation in den Vordergrund. Als Beispiel nutzt Google einen Stummfilm von Buster Keaton mit einer Länge von 44 Minuten, dieser entspricht knapp 700.000 Token. Gemini 1.5 Pro ist nun in der Lage, auf die Anfrage hin bestimmte Szenen zu erkennen und kann diese dann analysieren oder den Zeitpunkt im Film nennen.
Videos nutzte Google beim Gemini-Start auch für Demonstrationen. Die Aufnahmen waren allerdings geschönt, die dargestellten Interaktionen mit dem Chatbot fanden so nicht real statt.
Gemini 1.5 Pro bislang nur für Tester
Bislang ist Gemini 1.5 Pro nur für Entwickler und Unternehmen über AI Studio und Vertex AI möglich. Für eine breitere Öffentlichkeit soll es zunächst mit einem Kontextfenster von 128.000 Token kommen. Perspektivisch wird es dann Preisstufen geben, die Version mit 1 Million Token ist dann die teuerste.
Noch laufen aber die Sicherheitstests, die Google beim Start der Gemini-Reihe etabliert hat. Diese wurden jedoch noch um Verfahren, die die umfangreichere Kontextlänge berücksichtigen, erweitert.