@chaopanda
Um die Auswertung von Daten zu trainieren, braucht es nicht immer reellen Daten.
Genauso ist es einfacher ein Muster korrekt erkennen zu lassen, wenn man dieses Muster selbst erzeugt hat.
Eine Textanalyse kann ebenso auf Grundlage von künstlich generierten Texten trainiert werden.
Am Ende läuft es darauf hinaus, dass die KI die vorhandenen Daten korrekt interpretieren kann und das Ergebnis nicht ständig abweicht.
Ganz simples Beispiel:
Man erstellt eine Excel Spalte mit zufällig generierten Zahlen und einigen wenigen Buchstaben und Sonderzeichen. Diese Spalte wird Noten genannt.
Dann prüft man mit Fragen, ob die KI diese Spalte korrekt auswerten kann.
- Wie viele 1er gab es?
- Welche Note kommt am häufigsten vor?
- Was ist die beste Note?
- Was ist die beste Note, wenn die Daten aus Polen sind?
- Buchstabiere die 13te Zeile.
- Aus wie vielen Buchstaben würde die Spalte bestehen, wenn die Noten ausgeschrieben wären?
- Bei wie vielen Zeilen handelt es sich um Fehleingaben?
- Was ist der Schnitt?
- Wie viele Schüler haben nicht bestanden?
- Was wäre der Notendurchschnitt, wenn jeder um eine Note besser gewesen wäre?
- Wie hoch war die Wahrscheinlichkeit, dass man besteht?
- usw.
Meine Versuche GPT 4 meine hochgeladenen Daten auswerten zu lassen haben gezeigt, dass es die KI noch immer Probleme mit solchen Fragen hat. Manchmal wirken die Antworten beeindruckend. Dann wiederum gab es Datensätze oder Tage, an denen die KI fantasiert hat, vom Thema abgewichen ist, externe Daten herangezogen hat oder eine Moralpredigt über meine Fragestellung halten musste.
Das zeigte mir auch auf, dass die Zensur von KIs die Fakten verfälscht bzw. die KIs durch den Menschen dazu gezwungen werden, absichtlich falsche Ergebnisse zu liefern.