Meta präsentiert „Code Llama“: Neues KI-Modell speziell für Programmierer
Der Facebook-Mutterkonzern Meta hat heute gemeinsam mit Microsoft die neue Version des Llama-Sprachmodells vorgestellt. Die Llama-2-Modelle stehen sowohl für die Forschung als auch die kommerzielle Nutzung bereit und sind über Microsoft Azure und Windows, Amazon Web Services und Hugging Face verfügbar.
Vorgestellt wurden die vortrainierten und feinabgestimmten Modelle mit 7 Milliarden, 13 Milliarden und 70 Milliarden Parametern von Meta-Chef Mark Zuckerberg und Microsoft-CEO Satya Nadella. Die Anzahl der Parameter beschreiben das Wissen eines Modells. In einem Facebook-Beitrag erklärt Zuckerberg, Llama 2 sei mit 40 Prozent mehr Daten als der Vorgänger trainiert worden und biete zudem eine verbesserte Architektur. Insgesamt wurde es mit zwei Billionen Token trainiert.
Token sind Wortbestandteile, mit denen die Modelle neue Inhalte generieren. Was Parameter, die Architektur im Kontext der komplexen Sprachmodelle bedeuten, beschreibt ComputerBase in einem Hintergrundartikel:
Offenheit von Meta
Bemerkenswert ist bereits die Offenheit, die Meta allein bei den Eckdaten an den Tag legt. Angaben zu Parametern oder Trainingsdaten veröffentlichten zuletzt weder OpenAI bei GPT-4 noch Google bei PaLM 2 – eine Entwicklung, die die KI-Branche kritisch beobachtet. Meta stellt hingegen noch weitergehende Informationen bereit und bietet das Modell samt Gewichten zum Download an. Anfragen lässt sich der Zugang über die entsprechende Meta-Webseite.
Llama 1 war für Meta ein Erfolg, mehr als 100.000 Anfragen hat der Konzern nach eigenen Angaben von Forschenden erhalten. Zudem kursierte das vollständige Modell schon kurz nach der Veröffentlichung im Netz und wurde so eine Art Blaupause für eine Vielzahl an Open-Source-Modellen, die in den letzten Monaten erschienen sind.
Microsoft erweitert KI-Ökosystem
Neben dem lokalen Download ist Llama 2 auch über Microsofts Azure-Cloud sowie bei Amazons AWS-Diensten und bei Hugging Face verfügbar. Im Mittelpunkt steht aber die Kooperation mit Microsoft. Beide Konzerne betonen, wie erfolgreich man in der Vergangenheit im KI-Bereich zusammengearbeitet habe. Das gelte etwa für die Integration einer PyTorch-Umgebung in die Azure Cloud.
Microsoft strickt somit weiter an seinem KI-Ökosystem. Federführend erfolgte der Aufbau bislang mit OpenAIs GPT-Sprachmodellen, die Microsoft etwa in die Bing-Suche und als Copilot in diverse Anwendungen und Windows 11 integrierte. Mit Llama 2 erweitert der Konzern nun die Produktpalette für KI-Entwickler in Azure um ein weiteres leistungsfähiges Sprachmodell. Entwickler sollen beim Umgang zudem von KI-Tools für das Modell-Training oder Feintuning profitieren.
Mit im Boot sind zudem noch weitere Unternehmen. Qualcomm will voraussichtlich ab 2024 eine auf Llama 2 basierende KI-Implementierung anbieten, damit die generativen KI-Modelle auf Smartphones oder VR-Geräten besser laufen.
ChatGPT-Konkurrent für die Festplatte
Deutlich wird also: Llama soll den Weg direkt auf die Geräte der Nutzer finden. Eine Strategie, die im Gegensatz zu OpenAI und Google steht, die KI-Lösungen wie ChatGPT und Bard nur online anbieten. Man setzt somit den Kurs fort, der mit der Veröffentlichung von Llama 1 eingeschlagen wurde. Denkbar sind so ChatGPT-Konkurrenten, die direkt auf dem heimischen Rechner laufen.
Meta erweitert die Llama-Modelle um Varianten, die speziell auf das Programmieren ausgelegt sind. Die Grundlage ist das Llama-2-Sprachmodell, das durch Training angepasst wurde. Wie beim Basismodell ist es frei verfügbar, kann also sowohl für die Forschung als auch die kommerzielle Nutzung verwendet werden.
Meta bietet das als „Code Llama“ bezeichnete Modell in drei Varianten an: Das allgemeine Code-Basismodell, ein für Python spezialisiertes Modell und ein „Instruct“-Version, die durch die Feinabstimmung besonders gut mit natürlichen Spracheingaben umgehen soll. Details zu den Modellen finden sich im Blog-Beitrag und in dem Paper, der Code ist auf GitHub abrufbar und der Download ist bei Meta möglich.
Die Unterstützung beim Programmieren gilt als eine der am meisten genutzten Anwendungsfälle bei den KI-Assistenten, die auf Large Language Models (LLM) basieren. Microsoft bietet das etwa mit dem GitHub Copilot, aber auch generative Chatbots wie ChatGPT und Bard beherrschen entsprechende Funktionen. Nutzer müssen aber – wie bei den KI-Chatbots üblich – mit irreführenden bis falschen Antworten rechnen, laut einer Studie erhalten etwa 52 Prozent der ChatGPT-Ergebnisse Ungenauigkeiten.