-
.
-
Das Video hier ist etwas besonderes
-
aus verschiedenen Gründen.
-
Erstens: ich zeige Euch die Varianz einer Stichprobe,
-
was allein schon interessant ist,
-
und ich versuche, das Video hier in HD aufzunehmen.
-
Und Ihr seht das hoffentlich größer und schärfer
-
als je zuvor.
-
Naja, wir werden sehen.
-
Ist also alles ein bisschen ein Experiment, ich bitte um Geduld.
-
Bevor wir die Varianz einer Stichprobe behandeln,
-
wäre es sinnvoll, die Varianz einer Population
-
zu wiederholen.
-
Dann können wir die Formeln vergleichen.
-
Die Varianz einer Population - das hier ist der
-
griechische Buchstabe Sigma.
-
Klein-Sigma zum Quadrat.
-
Das ist die Varianz.
-
Ich weiß, das ist komisch, dass eine Variable
-
direkt schon quadriert daherkommt.
-
Aber man nimmt hier nicht das Quadrat,
-
sondern die Variable ist eben Sigma Quadrat.
-
Sigma Quadrat heißt Varianz.
-
Ich schreib's mal hin.
-
Das ist die Varianz.
-
.
-
Und das ist gleich... Du nimmst jeden Datenpunkt....
-
wir nennen die x Index i.
-
Du nimmst jeden Datenpunkt, schaust, wie weit der von
-
dem Mittelwert der Population weg ist, quadrierst das und
-
dann mittelst Du über alle diese.
-
Zum Mitteln, summierst Du alle auf.
-
Das geht von i gleich 1.
-
Also vom ersten Punkt, ganz bis zum n-ten Punkt.
-
Und dann, zum Mitteln, summierst Du alle auf und
-
teilst das durch n.
-
Die Varianz ist also das Mittel all dieser quadrierten Distanzen
-
von jedem Punkt und dem Mittelwert.
-
Und nur um eine Intuition zu haben, das bedeutet,
-
wie weit weg ungefähr die Datenpunkte
-
vom Mittelwert entfernt sind.
-
So stellt man sich am besten die Varianz vor.
-
Aber was, wenn wir... das hier war für
-
eine Population, nicht wahr?
-
Und wenn wir die Varianz der Körpergröße
-
aller Männer im Land haben wollten,
-
dann wäre das sehr schwierig.
-
Man müsste im Grunde die Größe
-
jedes Mannes messen.
-
250 Millionen Menschen.
-
Oder was wäre, wenn es um eine Population ginge,
-
an deren Daten man unmöglich rankäme oder um
-
eine Zufallsvariable.
-
Dazu später mehr.
-
Also in vielen Fällen will man diese Varianz nur abschätzen,
-
indem man die Varianz einer Stichprobe nimmt.
-
Genauso wie man niemals den Mittelwert einer Population messen kann,
-
aber vielleicht will man den abschätzen, indem man
-
den Mittelwert einer Stichprobe nimmt.
-
Das haben wir im ersten Video gelernt.
-
Wenn das hier die ganze Population ist.
-
Das sind Millionen von Datenpunkten, sogar Datenpunkte,
-
die in der Zukunft liegen, die Du niemals bekommst,
-
weil es eine Zufallsvariable ist.
-
Das ist also die Population.
-
.
-
Du willst vielleicht nur eine Schätzung, indem Du eine Stichprobe nimmst.
-
Darum geht es im Grunde bei der
-
induktiven Statistik.
-
Dass man deskriptive Statistikwerte einer Stichprobe herausfindet
-
und daraus Schlüsse über die Population zieht.
-
Lass uns diese Medizin bei 100 Leuten ausprobieren und
-
wenn es statistisch signifikante Ergebnisse bringt,
-
wird die Medizin wahrscheinlich auch bei der ganzen Population wirken.
-
Darum geht's im Grunde.
-
Es ist also echt wichtig, den Unterschied zwischen
-
Stichprobe und Population zu verstehen.
-
Und wenn man statistische Werte über eine Stichprobe findet,
-
die die Population größtenteils beschreiben können oder
-
abschätzen können, dann nennen wir diese Werte Parameter für die Population.
-
Was ist also der Mittelwert von ... ich schreib diese Definitionen neu.
-
Was ist der Mittelwert einer Population?
-
Ich mach das mal in lila.
-
Lila für Population.
-
Der Mittelwert einer Population.
-
Du nimmst jeden Datenpunkt in der Population, x i.
-
Summierst sie auf.
-
Du beginnst mit dem ersten Punkt und gehst durch
-
bis zum n-ten Punkt.
-
Und teilst durch n.
-
Alles aufsummierren und durch n teilen.
-
Das ist der Mittelwert.
-
Dann fügen wir das in die Formel ein.
-
Und Du kannst sehen, wie weit jeder Punkt vom
-
zentralen Punkt entfernt ist, vom Mittelwert.
-
Und man bekommt die Varianz.
-
Was passiert jetzt bei einer Stichprobe?
-
Naja, wenn wir den Mittelwert einer Population abschätzen wollen,
-
indem wir den Mittelwert für einer Stichprobe berechnen, dann
-
ist es das Beste... und das sind alles menschengemachte Formeln.
-
Irgendwelche Menschen haben sich gefragt, was ist
-
der beste Weg das zu schätzen?
-
Das beste, was wir tun können, ist den Mittelwert unserer Stichprobe zu nehmen.
-
Und das ist dann der Stichproben-Mittelwert.
-
Wir haben im ersten Video gelernt, dass diese Notation
-
Die Formel ist fast identisch.
-
Nur die Notation ist anders.
-
Statt Mü schreibt man x mit einem Strich darauf.
-
Stichproben-Mittelwert ist gleich - wieder nimmt man
-
nur die Datenpunkte aus der Stichproben, nicht aus der ganzen Population.
-
Du summierst sie, vom ersten bis
-
zum n-ten, richtig?
-
Man sagt, da sind n Datenpunkte in dieser Stichprobe.
-
Und dann teilst du es durch die Anzahl der Datenpunkte.
-
So weit, so gut.
-
Es ist eigentlich die gleiche Formel.
-
Wie ich den Mittelwert der Population gerechnet habe, ich sag mal,
-
wenn ich nur eine Stichprobe habe, lass mich den Mittelwert genauso berechnen.
-
Dann ist das wohl eine gute Schätzung des Mittelwerts
-
der Population.
-
Bei der Varianz wird's jetzt spannend.
-
Die normale Reaktion wäre: OK, ich hab diese Stichprobe
-
und wenn ich die Varianz der Population schätzen will,
-
warum wende ich nicht die gleiche Formel an
-
aber eben über der Stichprobe?
-
Das könnte ich sagen - und das ist dann tatsächlich die Stichproben-Varianz.
-
Man verwendet s Quadrat.
-
Sigma ist ein griechischer Buchstabe, der äquivalent zu s ist.
-
Aber da wir hier mit der Stichprobe arbeiten,
-
schreiben wir hier s.
-
Das ist die Stichproben-Varianz.
-
Ich schreib's mal hin.
-
Stichproben-Varianz.
-
.
-
Wir könnten sagen, vielleicht ist es eine gute Idee,
-
die Stichproben-Varianz auf die gleiche Weise zu rechnen.
-
Wir nehmen die Distanz von jedem der Punkte in der Stichprobe.
-
Finden raus, wie weit die sind vom Stichproben-Mittelwert.
-
Hier haben die den Populations-Mittelwert benutzt, aber jetzt
-
benutzen wir den Stichproben-Mittelwert, weil wir nur den haben.
-
Den Populations-Mittelwert kennen wir nicht
-
ohne die ganze Population einzubeziehen.
-
Nimm das zum Quadrat.
-
Das macht es positiv und es weitere Eigenschaften,
-
auf die ich später komme.
-
Dann nimm den Durchschnitt von allen diesen quadierten Distanzen.
-
Summierst alle auf.
-
Es gibt n davon, richtig?
-
klein-n.
-
Du teilst durch klein-n.
-
Und du findest, das ist eine gute Schätzung.
-
Was auch immer die wahre Varianz ist, das könnte eine gute Schätzung sein
-
für die gesamte Population.
-
Das ist das, worüber die Leute reden, wenn sie
-
von Stichproben-Varianz sprechen.
-
Manchmal wird man darauf verwiesen.
-
Man schreibt ein klein-n hinein.
-
Der Grund ist, wir haben durch n geteilt.
-
Du fragst vielleicht: Sal, was ist das Problem?
-
Und das Problem... ich versuch mal, einen Eindruck zu vermitteln,
-
das hat mich wirklich immer etwas verwirrt.
-
Und selbst jetzt muss ich manchmal mit mir ringen,
-
um die Idee dahinter zu begreifen.
-
Ich habe so eine Idee, aber das etwas formaler
-
zu beweisen, dass das wirklich stimmt...
-
Stellt Euch das so vor.
-
Wenn ich ein paar Zahlen habe
-
und ich male einen Zahlenstrahl hier.
-
Wenn ich eine Zahl eintrage - sagen wir, man weiß...
-
Sagen wir ich habe ein paar Zahlen in meiner Population
-
Sagen wir... ich schreibe jetzt zufällig ein paar
-
Zahlen in meine Population.
-
Und die auf der rechten Seite sind größer als die
-
auf der linken Seite.
-
.
-
Wenn ich eine Stichprobe davon nehme, vielleicht ..
-
Die Stichprobe ist zufällig.
-
Man will wirklich eine zufällige Stichprobe nehmen.
-
Man will nicht, dass das unausgeglichen ist.
-
Vielleicht wähle ich diese Zahl, diese und diese
-
und diese, OK?
-
Wenn ich jetzt den Mittelwert dieser Zahl,
-
dieser Zahl, dieser Zahl und dieser Zahl nehme,
-
wird der irgendwo in der Mitte sein.
-
Vielleicht irgendwo hier drüben.
-
Und wenn ich die Stichproben-Varianz berechne
-
mit dieser Formel, dann nehme ich diese Distanz zum Quadrat plus
-
dieser Distanz zum Qudrat plus dieser Distanz zum Quadrat plus
-
dieser Distanz zum Quadrat und mittle über alles.
-
Dann würde ich diese Zahl bekommen
-
und das wäre wohl eine recht gute Schätzung der
-
Varianz der gesamten Population.
-
Die Population des Mittelwerts ist möglicherweise
-
weiß nicht
-
Es könnte ziemlich ähnlich zu dem hier sein.
-
Wenn wir alle Datenpunkte nehmen würden und dann das Mittel nähmen,
-
dann wäre das vielleicht irgendwo hier.
-
Und wenn du dann die Varianz ausrechnest, dann wäre das
-
vielleicht recht nah am Mittelwert der ganzen Linien hier, ja?
-
Von allen Varianz-Abständen der Stichprobe, ja?
-
So weit, so gut.
-
Jetzt sagst du, OK, Sal,
-
sieht ja ganz gut aus,
-
aber da ist ein Haken.
-
Was ist denn... Es besteht immer die Möglichkeit, dass man
-
nicht diese schön verteilten Zahlen als Stichprobe wählt,
-
sondern, was passiert, wenn ich eben diese Zahl, diese Zahl
-
und diese Zahl
-
als Stichprobe wähle?
-
Was auch immer deine Stichprobe ist, dein Stichproben-Mittelwert
-
wird immer in der Mitte davon sein, ja?
-
Also in diesem Fall ist dein Stichproben-Mittelwert hier.
-
Und bei diesen Zahlen würde man jetzt sagen, OK, die Zahl hier
-
ist nicht sehr weit von dieser Zahl entfernt und diese Zahl nicht sehr weit von jener und
-
diese Zahl ist auch nicht weit.
-
Also wird deine Stichproben-Varianz, wenn man's so macht, ziemlich
-
niedrig sein.
-
Einfach weil alle diese Zahlen ziemlich...
-
... ziemlich nah an ihrem Mittelwert
-
sein werden.
-
Aber in diesem Fall ist die Stichprobe irgendwie unausgeglichen und
-
der wirkliche Mittelwert der Population ist ja irgendwo hier drüben.
-
Also ist auch die wirkliche Varianz der Stichprobe, wenn man
-
den echten Mittelwert wüsste - ich weiß, es klingt verwirrend -
-
wenn du den echten Mittelwert wüsstest, würdest du sagen
-
"Wow!".
-
Du würdest dann diese Abstände hier sehen, die natürlich
-
viel größer wären.
-
Warum ich das alles erzähle ist, wenn du
-
eine Stichprobe nimmst, dann ist es möglich, dass dein Stichproben-Mittelwert
-
dem Populations-Mittelwert sehr ähnlich ist, ja?
-
Der Stichproben-Mittelwert ist vielleicht hier und der
-
Populations-Mittelwert hier.
-
Und dann funktioniert diese Formel ganz wunderbar,
-
jedenfalls, was die Stichprobenpunkte betrifft und was das
-
Berechnen der Varianz betrifft.
-
Aber es kann auch sein, dass dein Stichproben-Mittelwert...
-
also die Stichprobe ist immer in den Daten enthalten, ja?
-
Der Mittelwert ist immer in der Mitte der Stichproben-Daten.
-
Aber es ist durchaus möglich, dass der Populations-Mittelwert
-
außerhalb der Stichproben-Daten liegt.
-
Es kann einfach sein, dass du Werte gewählt hast,
-
die nicht den eigentlichen Populations-Mittelwert enthalten.
-
Und wenn du dann die Stichproben-Varianz auf diesem Weg berechnest,
-
dann unterschätzt du die eigentliche
-
Populations-Varianz, richtig?
-
Einfach, weil sie immer näher am eigenen Mittelwert sein werden
-
als am Mittelwert der Population.
-
Und wenn du nur 10% von all dem hier verstehst,
-
dann bist du bereits ein Student fortgeschrittener Statistik.
-
Ich erzähle all das nur, um dir - hoffentlich -
-
eine Ahnung davon zu geben, da das hier häufig...
-
diese Formel wird häufig die eigentliche Varianz der Population
-
unterschätzen.
-
Und es gibt eine Formel - und das wurde tatsächlich richtig
-
bewiesen - eine Formel, die eine bessere Schätzung,
-
oder sagen wir eine ausgeglichenere Schätzung der
-
Populations-Varianz darstellt.
-
Oder auch die ausgeglichene Stichproben-Varianz.
-
Und manchmal wird es einfach als s Quadrat geschrieben,
-
manchmal als s Index n-1 zum Quadrat.
-
Und ich zeig euch warum.
-
Es ist fast das gleiche.
-
Du nimmst jeden Datenpunkt, schaust, wie weit sie
-
vom Stichproben-Mittelwert weg sind
-
und quadrierst das.
-
Und dann nimmst du das Mittel dieser quadrierten Werte,
-
mit einem kleinen Unterschied:
-
i gleich 1 bis i gleich n...
-
statt durch n zu teilen, teilst du durch eine etwas
-
kleinere Zahl.
-
Du teilst durch n minus 1.
-
Wenn du durch n minus 1 teilst anstatt durch n zu teilen,
-
wirst du ein etwas größeres Ergebnis bekommen.
-
Und es stellt sich heraus, dass das
-
tatsächlich eine viel bessere Schätzung ist.
-
Und eines Tages werde ich ein Computerprogramm schreiben,
-
um mir das experimentell zu beweisen, dass das
-
eine bessere Abschätzung der Populations-Varianz ist.
-
Und man berechnet das auf die gleiche Weise, nur dass
-
man durch n minus 1 dividiert.
-
Man kann das auch so erklären... aber nein,
-
ich habe keine Zeit mehr.
-
Wir belassen es erstmal dabei.
-
Und im nächsten Video machen wir ein paar
-
Rechnungen, dass ihr nicht zu sehr von der Theorie
-
erschlagen werdet.
-
Weil wir doch recht abstrakt geworden sind.
-
Bis zum nächsten Video.
-
.