Synthetische Daten optimieren: Apple will Nutzerdaten für das KI-Training analysieren

Andreas Frischholz
23 Kommentare
Synthetische Daten optimieren: Apple will Nutzerdaten für das KI-Training analysieren

Um das Training der KI-Modelle zu optimieren, will Apple künftig auch die Nutzerdaten analysieren – sofern diese zustimmen. Die Informationen sollen nicht direkt in die Modelle fließen. Das Ziel ist stattdessen, die synthetischen Datensätze für den Trainingsprozess zu verbessern.

Details zu dem Vorgehen nennt Apple in einem Blog-Beitrag. Betroffen sind Funktionen wie das Generieren von Texten oder das Zusammenfassen von E-Mails, diese will man verbessern. Das Ziel ist demnach, die bisherigen Datenschutz-Standards einzuhalten und trotzdem ein besseres Verständnis von Inhalten zu erhalten.

Die Lösung sind synthetische Datensätze, die Trends und Muster aus echten Nutzerdaten imitieren, ohne echte Nutzerdaten zu erhalten. Originale E-Mails oder Texte sollen also nicht in den Trainingsdaten landen. Basierend auf aktuellen Forschungsarbeiten hat man die Verfahren nun optimiert, damit diese den echten Texten möglichst stark ähneln.

Synthetische Daten generieren, Muster mit der Realität vergleichen

Apple generiert die synthetischen Datensätze mit einem Large Language Modell (LLM). Damit werden etwa E-Mails und Nachrichten zu einem bestimmten Thema erstellt, als Beispiel nennt Apple die Frage: „Willst du morgen um 11:30 Uhr Tennis spielen?“. Aus der Vielzahl an Nachrichten, die generiert werden, leitet man Muster für Dimensionen wie Sprache, Thema und Länge ab.

Diese Muster werden dann an eine kleine Anzahl an Geräten gesendet, die beim Analyseprogramm namens Device Analytics teilnehmen. Auf den Geräten der Nutzer erfolgt dann der Abgleich und es wird analysiert, welche synthetischen Muster der Realität am nächsten kommen.

Wenn Apple so synthetische Daten ermittelt hat, die der Realität nahe kommen, lassen sich diese Erkenntnisse auf weitere Themen vergleichen. So könnte etwa Tennis in der E-Mail durch Fußball ersetzt werden.

Datenanalyse als Opt-In-Verfahren

Damit Apple auf Nutzerdaten für die Textanalyse zugreifen kann, müssen diese im Device-Analytics-Tool explizit zustimmen. Wie Bloomberg berichtet, soll der Startschuss mit den kommenden Beta-Versionen von iOS und iPadOS 18.5 sowie macOS 15.5 erfolgen

Für Bild-KIs, die Apple in Funktionen wie Image Playground nutzt, will man ebenfalls neue Verfahren entwickeln, um die Qualität der Modelle zu verbessern. Bei diesen soll der Schutz der Privatsphäre ebenso im Mittelpunkt stehen.

Erfahrungen hat Apple bei Genmoji gesammelt, also dem Feature, mit dem Nutzer selbst Emojis erstellen können. Dabei sammelt man Prompt-Eingaben und wertet aus, was Nutzer generell bevorzugen. Mit diesen Erkenntnissen verbessert man dann das Modell.

Apple muss aufholen

Mit dem neuen Ansatz will Apple die Qualität der eigenen KI-Funktionen verbessern und trotzdem die Privatsphäre einhalten. Es besteht Nachholbedarf bei Texten, das gilt insbesondere etwa für die Zusammenfassungen, die in den Benachrichtigungen angezeigt werden.

Verzögerungen betreffen weitere Bereiche von Apple Intelligence. Das gilt speziell für die neuen KI-Funktionen von Siri, die auf das kommende Jahr verschoben worden sind, obwohl Apple diese bereits in Werbespots beworben hat.

Die Schwierigkeiten im KI-Bereich führten bereits zu Personalwechseln. Die intern als Problemlöserin bekannte Managerin Kim Vorrath soll Apple Intelligence und Siri in die Spur bringen.

Unsere Bots RTX 50 kaufen und RX 9000 kaufen bieten jetzt einen Filter auf Deals⭐ und zeigen den Preistrend📉.

Ihr habt die Wahl: Macht mit bei den Reader's Choice Awards 2025 und bestimmt eure Hersteller des Jahres!