Verständnisfrage Statistik

Wader22 · 31. Oktober 2013

Hallo

Ich habe eine Frage zur Statistik, genauer: Wahrscheinlichkeitsverteilung. Auf der Wikipedia heißt es:

Die Wahrscheinlichkeitsverteilung ist in der Wahrscheinlichkeitsrechnung das theoretische Pendant zur Häufigkeitsverteilung, die in der deskriptiven Statistik aus empirischen Daten, also Messwerten erstellt wird.

Wenn wir uns nun eine Normalverteilung anschauen mit einem Beispiel, sagen wir IQ der Bevölkerung. Dann habe ich ja die Kurve und kann sagen, wie wahrscheinlich ein bestimmter IQ ist. Aber damit ich das sagen kann, muss ich zuerst ja eine gewisse Anzahl von Menschen testen und den IQ bestimmen. Ich wähle also eine Stichprobe aus und erhalte empirische Werte, von denen schließe ich dann auf die Gesellschaft. Wenn ich dann eine Normalverteilung erhalten sollte, ist das dann nicht auch eine Häufigkeitsverteilung? Sind ja empirische Messwerte.

SothaSil · 2. November 2013

IQ ist nen schlechtes Beispiel - nen IQ von 100 wurde als durchschnittlich definiert und macht das ganze Beispiel etw kompliziert.

Zur Frage: eine Häufigkeitsverteilung mit ausreichend Werten gleicht der Wahrscheinlichkeitsverteilung - jede Zahl des Würfelds hat ne wahrscheinlichkeit von 1/6 - wenn du 6000 mal würfelst wirst du jede zahl etwa 1000 mal haben. Meist ist eine Wahrscheinlichkeitsverteilung eher der theoretische Wert, sprichst du rechnest aus das 1/6 der Würfe eine 1 sind, ohne tatsächlich zu würfeln während man bei der Häufigkeitsverteilung eben das experimentelle Pendant hat, wo man möglichst oft würfelt und daraus die Häufigkeitsverteilung ableitet.

KTelwood · 3. November 2013

Sofern du verstehst wie du zu der Kurve kommst, was sie aussagen und was die "Größen" (Mittelwert, Standardabweichung etc.) so bedeuten, dann brauchst du dir um die Namen keine sorgen mehr machen.

DerOlf · 18. November 2013

Um es genau zu erklären bräuchte ich jetzt recht lange (und diese Erklärung wäre nicht viel einfacher/verständlicher, als der entsprechende Wiki-Artikel).

In der Tat reicht zur Berechnung von Eintrittswahrscheinlichkeiten (i.d. Wahrscheinlichkeitsrechnung macht man nichts anderes, als Wahrscheinlichkeiten für das Eintreten bestimmter Ereignisse zu berechnen), die mit einer der verschiedenen Wahrscheinlichkeitsverteilungen verknüpfte Formel. Du brauchst genaugenommen nicht mal tatsächlich Werte zu erheben - wahrscheinlichkeitsrechnungen funktionieren auch mit erfundenen Zahlen - dem algorithmus ist vollkommen egal, woher die Werte kommen, solange sie bestimmte Qualitäten (Skalenniveau) erfüllen.
Beim Auswerten der Ergebnisse sollte man allerdings gerade deswegen lieber dreimal hinsehen.

Der große Unterschied ist eben, dass es für eine Häufigkeitsverteilung tatsächlich empirische Daten braucht, für eine Wahrscheinlichkeitsverteilung braucht es hingegen nur eine Theorie, aus der Werte abgeleitet werden können.

Bei einem Münzwurfexperiment gilt bspw. ganz Pauschal p(kopf) = p(zahl) = 1/2.
Beim Würfelexperiment gilt ganz allgemein p(Augenzahl) = 1/6.
Stark vereinfacht steckt dahinter die rechnung p(Ereignis) = "menge der günstigen ausgänge"/"Menge ALLER möglichen Ausgänge". Für das Ereignis "der W6 zeigt eine 2" also 1/6
Das klappt sogar mit den Lottozahlen (ist nur kombinatorisch etwas komplizierter) - macht die "Idiotensteuer" aber nicht unbedingt attraktiver.
Die Gleichverteilung (jedem möglichen Einzelereignis wird die gleiche Wahrscheinlichkeit zugewiesen) ist mit Abstand die einfachste Wahrscheinlichkeitsverteilung. Zudem erfüllen die wenigsten Gegenstände und Experimentalanordnungen die hohen Anforderungen dieses Theorems.

Allerdings ist das alles so stark vereinfacht, dass sogar einfache naturwissenschaftliche Experimente damit nicht gut berechnet werden können - ausserdem wird diese Theorie erst bei extrem hohen Wiederholungszahlen tatsächlich annähernd exakt (bei 10^18 Wiederholungen, wird man z.B. tatsächlich in etwa 50% der Münzwürfe kopf erhalten - aber wer will schon sein Leben lang Münzen werfen, um eine doch recht lapidare und intuitiv einleuchtende Theorie zu belegen?).
Tatsächlich wird der Unterschied zwischen Wahrscheinlichkeits- und Häufigkeitsverteilung erst dann interessant, wenn man sich theoretisch mit Statistiken, und der dahinter stehenden Mathematik befasst. Für die meisten Statistischen Arbeiten reichen relative oder sogar absolute Häufigkeiten aus.

Für den Normalen Nutzer reicht folgendes: Eine Häufigkeitsverteilung kann ich nur mit tatsächlich erhobenen empirischen Werten erstellen (und theoretisch reichen sogar Phantasiezahlen).
Eine Wahrscheinlichkeitsverteilung brauche ich z.B., um "Erwartungswwerte" zu ermitteln, und anhand der Differenzen zwischen Erwartungswerten und empirischen Daten z.B. eine den Erwartungswerten zugrundeliegende Hypothese überprüfen möchte (z.B. die Hypothese, dass Intelligenz - gemessen als IQ - in unserer Gesellschaft tatsächlich einer Normalverteilung folgt - wozu allerdings der IQ-Durchschnitt NICHT an die tatsächlichen Ergebnisse der IQ-Tests angepasst werden dürfte).

Die berühmte Normalverteilung sagt im Prinzip nichts anderes, als das z.B. beim IQ (nebenbei das Standartbeispiel) eine hohe Wahrscheinlichkeit dafür besteht, dass bei einer Häufigkeitsverteilung (tatsächlich erhobene IQ-Werte) der größte Teil der Population im Bereich 100 (+/- 1SD, i.d.F. 15 Punkte) liegen würde. Und tatsächlich erreichen weit über 3/4 der je getesteten Menschen einen IQ zwischen 85 und 115 Punkten. Im Bezug auf den IQ haben knapp 90% der Menschen einen Erwartungswert von 100 +/-15.
Allerdings ist das tatsächlich problematisch, da der Durchschnitts-IQ eben "revisionistisch" definiert wird.
Statistisch betrachtet sind IQ-Tests nichts weiter als aufwendiger Müll., der sich allerdings ganz gut vermarkten lässt

. Naja, früher hat man noch das "Intelligenzalter" mit einbezogen, was zur Folge hatte, dass die Menschen mit steigendem alter bei gleichbleibenden Testergebnissen immer schlechtere IQ-Werte bekamen. Das war ganz sicher nicht besser.
In der tat kann man die Normalverteilung so definieren: ca. 90% der erhobenen Werte liegen in einem Bereich von 2 Standardabweichungen um den Durchschnitt aller erhobenen Werte. Eigentlich ganz easy, aber die mathematische Formel dahinter sieht fies aus.

Du siehst, dass die Thematik immer nur NOCH komplexer wird, je tiefer man einsteigt. Für die tatsächliche Statistik brauchst du das alles nicht (Hauptsache deine Statistiksoftware liefert bei passendem Input die passenden Ergebnisse und du kannst diese dann auch interpretieren). Man muss nicht ganz genau wissen, was da en detail passiert, wenn man eine Faktoren- oder Clusteranalyse in Auftag gibt - es sei denn man studiert Mathe, dann darf man solche Berechnungen auch gerne mal "zu Fuß" machen.

Da gehts dann aber auch mehr darum, die Verfahren an sich zu verstehen, z.B. um bei der optimierung von Statsistikprogrammen helfen zu können (oder bei Ausfall des Navigationscomputers eine Wiedereintrittsbahn in die Erdathmospühäre zu berechnen - tatsächlich mal als "praktisches" Beispiel in einer vorlesung

).

Falls du dennoch Interesse daran hast (mathematische Grundlagen der Wahrscheinlichkeitstheorie oder quantitativen Sozialforschung), melde dich doch mal per PN bei mir. Ich erkläre das offensichtlich noch immer recht gerne - aber mit gezielten Fragen geht auch das einfach besser.
Ich glaube, hier im Forum wäre das insgesamt zu langatmig (ich wollte mich eigentlich KURZ fassen - naja, so ist das halt, wenn tatsächlich mal Wissen aus'm Studium gefragt zu sein scheint).

Suche

Verständnisfrage Statistik

Wader22

Lt. Commander

SothaSil

Lt. Commander

KTelwood

Banned

DerOlf

Admiral

Ähnliche Themen

Passend zum Thema

Speicherforschung SanDisk 3D Matrix Memory soll die Memory Wall einreißen

Quantencomputer mit Diamanten 20 Millionen US-Dollar für Quantum Brilliance

3D DRAM Kioxia verrät etwas mehr über den sparsamen OCTRAM