Microsoft-CEO Satya Nadella: 20 bis 30 Prozent des Microsoft-Codes sind AI-generiert
20 bis 30 Prozent des Codes in Microsofts Repositories sind bereits von KI geschrieben, sagte Microsoft-CEO Satya Nadella am Dienstag in einem Gespräch mit Meta-Chef Mark Zuckerberg auf der Entwicklerkonferenz LlamaCon.
Wie genau der Code generiert wurde, sagte er nicht. Konkret lautete die Aussage laut einem CNBC-Bericht: „Ich würde sagen, dass vielleicht 20, 30 Prozent des Codes in unseren Repos und in einigen unserer Projekte von Software geschrieben worden sind.“ Der Anteil des Codes, der von Maschinen stammt, soll dabei kontinuierlich steigen.
Zuckerberg selbst konnte nicht sagen, wie viel Code bei Meta derzeit von KI stammt. Für das kommende Jahr geht er aber davon aus, dass womöglich „die Hälfte der Entwicklung von KI durchgeführt wird“ – und nicht von Menschen.
Ähnlich äußern sich in den letzten Monaten immer wieder Vertreter der KI-Firmen. Google-CEO Sundar Pichai sagte, 25 Prozent des neuen Codes stammen von KI-Systemen. Microsofts CTO Kevin Scott erklärte etwa Anfang April, in fünf Jahren werde 95 Prozent des Codes von KI generiert werden. Duolingo kündigte bereits an, freie Mitarbeiter durch AI ersetzen zu wollen.
Ernsthafte Zweifel an der Qualität von KI-Code
Was für Code die KI-Systeme beisteuern, nennen die Tech-CEOs aber nicht. Der Prozess beim Entwickeln ist aber die derzeit relevante Frage, denn ohne Weiteres lassen sich die Chatbots nicht einsetzen. Trends wie Vibe Coding machen zwar bereits die Runde. Wie autonom die Modelle bislang arbeiten können und inwieweit sich menschliche Programmierer dadurch ersetzen lassen, ist aber äußerst strittig. Studien liefern aber deutliche Hinweise, dass selbst aktuelle Spitzenmodelle noch weit davon entfernt sind, automatisch Software mit hoher Qualität zu entwickeln.
OpenAI-Forscher haben etwa den LLM-Benchmark SWE-Lancer entwickelt, um zu prüfen, wie gut gängige KI-Modelle bei echten Aufträgen abschneiden. Die Grundlage der Tests sind Jobs, die auf der -Freelancer-Plattform Upwork ausgeschrieben worden sind. Im Vergleich mit den OpenAI-Modellen o1 und GPT-4o schnitt Anthropics Claude 3.5 Sonnet noch am besten ab, erreichte aber nicht das Niveau von menschlichen Entwicklern. Das Fazit ist zudem ernüchternd: Selbst bei Claude 3.5 Sonnet sind die meisten Lösungen fehlerhaft. Um den Modellen vertrauen zu können, müssten diese zuverlässiger arbeiten.
Wo die Fehler liegen, zeigen weitere Studien. Chinesische Forscher entdeckten laut einem Bericht von The Register, dass Modelle die Tendenz haben, fehlerhaften Code zu übertragen. Wenn sie also Code vervollständigen sollen, der bereits Bugs beinhaltet, werden diese nicht korrigiert. Stattdessen produzieren die Modelle weitere Fehler.
ChatGPT bleibt erstmal ein Assistent
Was das für die Praxis bedeutet, haben Fabian und Andy in der 115. Ausgabe im ComputerBase-Podcast CB-Funk diskutiert. Fabian kennt die Tücken beim Programmieren mit ChatGPT aus eigener Erfahrung. Sobald die Aufgaben komplexer werden, ist dem künstlichen Code nicht mehr zu trauen und die Qualität leidet. So taugen die KI-Chatbots derzeit vor allem als Assistent beim Programmieren und weniger als Code-Maschine.
CB-Funk lässt sich nicht nur über den eingebetteten Podigee-Player abspielen, sondern auch bequem direkt in den Podcast-Apps eurer Wahl abonnieren und hören. Verfügbar ist der ComputerBase-Podcast auf Spotify, Apple Podcasts, Amazon Music und Deezer.
Was die Modelle derzeit leisten können, ist allerdings der entscheidende Punkt – denn KI-Firmen versprechen große Fortschritte in der nächsten Zeit. Agenten-Systeme sind das Stichwort. Nadella und Zuckerberg sprachen auch in dem LlamaCon-Talk, dass man an Systemen arbeitet, die mehrere Modelle nutzen können, um selbst komplexe Aufgaben eigenständig zu lösen. Prototypen für solche Assistenten hat zuletzt etwa OpenAI veröffentlicht.