Synthetische Daten optimieren: Apple will Nutzerdaten für das KI-Training analysieren

Um das Training der KI-Modelle zu optimieren, will Apple künftig auch die Nutzerdaten analysieren – sofern diese zustimmen. Die Informationen sollen nicht direkt in die Modelle fließen. Das Ziel ist stattdessen, die synthetischen Datensätze für den Trainingsprozess zu verbessern.
Details zu dem Vorgehen nennt Apple in einem Blog-Beitrag. Betroffen sind Funktionen wie das Generieren von Texten oder das Zusammenfassen von E-Mails, diese will man verbessern. Das Ziel ist demnach, die bisherigen Datenschutz-Standards einzuhalten und trotzdem ein besseres Verständnis von Inhalten zu erhalten.
Die Lösung sind synthetische Datensätze, die Trends und Muster aus echten Nutzerdaten imitieren, ohne echte Nutzerdaten zu erhalten. Originale E-Mails oder Texte sollen also nicht in den Trainingsdaten landen. Basierend auf aktuellen Forschungsarbeiten hat man die Verfahren nun optimiert, damit diese den echten Texten möglichst stark ähneln.
Synthetische Daten generieren, Muster mit der Realität vergleichen
Apple generiert die synthetischen Datensätze mit einem Large Language Modell (LLM). Damit werden etwa E-Mails und Nachrichten zu einem bestimmten Thema erstellt, als Beispiel nennt Apple die Frage: „Willst du morgen um 11:30 Uhr Tennis spielen?“. Aus der Vielzahl an Nachrichten, die generiert werden, leitet man Muster für Dimensionen wie Sprache, Thema und Länge ab.
Diese Muster werden dann an eine kleine Anzahl an Geräten gesendet, die beim Analyseprogramm namens Device Analytics teilnehmen. Auf den Geräten der Nutzer erfolgt dann der Abgleich und es wird analysiert, welche synthetischen Muster der Realität am nächsten kommen.
Wenn Apple so synthetische Daten ermittelt hat, die der Realität nahe kommen, lassen sich diese Erkenntnisse auf weitere Themen vergleichen. So könnte etwa Tennis in der E-Mail durch Fußball ersetzt werden.
Datenanalyse als Opt-In-Verfahren
Damit Apple auf Nutzerdaten für die Textanalyse zugreifen kann, müssen diese im Device-Analytics-Tool explizit zustimmen. Wie Bloomberg berichtet, soll der Startschuss mit den kommenden Beta-Versionen von iOS und iPadOS 18.5 sowie macOS 15.5 erfolgen
Für Bild-KIs, die Apple in Funktionen wie Image Playground nutzt, will man ebenfalls neue Verfahren entwickeln, um die Qualität der Modelle zu verbessern. Bei diesen soll der Schutz der Privatsphäre ebenso im Mittelpunkt stehen.
Erfahrungen hat Apple bei Genmoji gesammelt, also dem Feature, mit dem Nutzer selbst Emojis erstellen können. Dabei sammelt man Prompt-Eingaben und wertet aus, was Nutzer generell bevorzugen. Mit diesen Erkenntnissen verbessert man dann das Modell.
Apple muss aufholen
Mit dem neuen Ansatz will Apple die Qualität der eigenen KI-Funktionen verbessern und trotzdem die Privatsphäre einhalten. Es besteht Nachholbedarf bei Texten, das gilt insbesondere etwa für die Zusammenfassungen, die in den Benachrichtigungen angezeigt werden.
- Neue Siri spät dran: Wie sehr schadet Apple der Verzug bei Apple Intelligence?
- Apple Intelligence: Die neue Siri verzögert sich auf „nächstes Jahr“
Verzögerungen betreffen weitere Bereiche von Apple Intelligence. Das gilt speziell für die neuen KI-Funktionen von Siri, die auf das kommende Jahr verschoben worden sind, obwohl Apple diese bereits in Werbespots beworben hat.
Die Schwierigkeiten im KI-Bereich führten bereits zu Personalwechseln. Die intern als Problemlöserin bekannte Managerin Kim Vorrath soll Apple Intelligence und Siri in die Spur bringen.
Ihr habt die Wahl: Macht mit bei den Reader's Choice Awards 2025 und bestimmt eure Hersteller des Jahres!