< Return to Video

Statistics: Sample Variance

  • 0:00 - 0:01
    .
  • 0:01 - 0:03
    Das Video hier ist etwas besonderes
  • 0:03 - 0:05
    aus verschiedenen Gründen.
  • 0:05 - 0:10
    Erstens: ich zeige Euch die Varianz einer Stichprobe,
  • 0:10 - 0:12
    was allein schon interessant ist,
  • 0:12 - 0:15
    und ich versuche, das Video hier in HD aufzunehmen.
  • 0:15 - 0:16
    Und Ihr seht das hoffentlich größer und schärfer
  • 0:16 - 0:17
    als je zuvor.
  • 0:17 - 0:19
    Naja, wir werden sehen.
  • 0:19 - 0:22
    Ist also alles ein bisschen ein Experiment, ich bitte um Geduld.
  • 0:22 - 0:25
    Bevor wir die Varianz einer Stichprobe behandeln,
  • 0:25 - 0:28
    wäre es sinnvoll, die Varianz einer Population
  • 0:28 - 0:29
    zu wiederholen.
  • 0:29 - 0:32
    Dann können wir die Formeln vergleichen.
  • 0:32 - 0:35
    Die Varianz einer Population - das hier ist der
  • 0:35 - 0:36
    griechische Buchstabe Sigma.
  • 0:36 - 0:37
    Klein-Sigma zum Quadrat.
  • 0:37 - 0:38
    Das ist die Varianz.
  • 0:38 - 0:41
    Ich weiß, das ist komisch, dass eine Variable
  • 0:41 - 0:42
    direkt schon quadriert daherkommt.
  • 0:42 - 0:43
    Aber man nimmt hier nicht das Quadrat,
  • 0:43 - 0:44
    sondern die Variable ist eben Sigma Quadrat.
  • 0:44 - 0:46
    Sigma Quadrat heißt Varianz.
  • 0:46 - 0:47
    Ich schreib's mal hin.
  • 0:47 - 0:48
    Das ist die Varianz.
  • 0:48 - 0:52
    .
  • 0:52 - 0:55
    Und das ist gleich... Du nimmst jeden Datenpunkt....
  • 0:55 - 0:59
    wir nennen die x Index i.
  • 0:59 - 1:02
    Du nimmst jeden Datenpunkt, schaust, wie weit der von
  • 1:02 - 1:09
    dem Mittelwert der Population weg ist, quadrierst das und
  • 1:09 - 1:11
    dann mittelst Du über alle diese.
  • 1:11 - 1:13
    Zum Mitteln, summierst Du alle auf.
  • 1:13 - 1:14
    Das geht von i gleich 1.
  • 1:14 - 1:18
    Also vom ersten Punkt, ganz bis zum n-ten Punkt.
  • 1:18 - 1:20
    Und dann, zum Mitteln, summierst Du alle auf und
  • 1:20 - 1:22
    teilst das durch n.
  • 1:22 - 1:26
    Die Varianz ist also das Mittel all dieser quadrierten Distanzen
  • 1:26 - 1:27
    von jedem Punkt und dem Mittelwert.
  • 1:27 - 1:30
    Und nur um eine Intuition zu haben, das bedeutet,
  • 1:30 - 1:33
    wie weit weg ungefähr die Datenpunkte
  • 1:33 - 1:34
    vom Mittelwert entfernt sind.
  • 1:34 - 1:36
    So stellt man sich am besten die Varianz vor.
  • 1:36 - 1:38
    Aber was, wenn wir... das hier war für
  • 1:38 - 1:39
    eine Population, nicht wahr?
  • 1:39 - 1:42
    Und wenn wir die Varianz der Körpergröße
  • 1:42 - 1:45
    aller Männer im Land haben wollten,
  • 1:45 - 1:46
    dann wäre das sehr schwierig.
  • 1:46 - 1:49
    Man müsste im Grunde die Größe
  • 1:49 - 1:50
    jedes Mannes messen.
  • 1:50 - 1:51
    250 Millionen Menschen.
  • 1:51 - 1:55
    Oder was wäre, wenn es um eine Population ginge,
  • 1:55 - 1:57
    an deren Daten man unmöglich rankäme oder um
  • 1:57 - 1:58
    eine Zufallsvariable.
  • 1:58 - 1:59
    Dazu später mehr.
  • 1:59 - 2:03
    Also in vielen Fällen will man diese Varianz nur abschätzen,
  • 2:03 - 2:05
    indem man die Varianz einer Stichprobe nimmt.
  • 2:05 - 2:07
    Genauso wie man niemals den Mittelwert einer Population messen kann,
  • 2:07 - 2:10
    aber vielleicht will man den abschätzen, indem man
  • 2:10 - 2:11
    den Mittelwert einer Stichprobe nimmt.
  • 2:11 - 2:14
    Das haben wir im ersten Video gelernt.
  • 2:14 - 2:18
    Wenn das hier die ganze Population ist.
  • 2:18 - 2:20
    Das sind Millionen von Datenpunkten, sogar Datenpunkte,
  • 2:20 - 2:22
    die in der Zukunft liegen, die Du niemals bekommst,
  • 2:22 - 2:23
    weil es eine Zufallsvariable ist.
  • 2:23 - 2:24
    Das ist also die Population.
  • 2:24 - 2:27
    .
  • 2:27 - 2:32
    Du willst vielleicht nur eine Schätzung, indem Du eine Stichprobe nimmst.
  • 2:32 - 2:35
    Darum geht es im Grunde bei der
  • 2:35 - 2:36
    induktiven Statistik.
  • 2:36 - 2:39
    Dass man deskriptive Statistikwerte einer Stichprobe herausfindet
  • 2:39 - 2:41
    und daraus Schlüsse über die Population zieht.
  • 2:41 - 2:45
    Lass uns diese Medizin bei 100 Leuten ausprobieren und
  • 2:45 - 2:47
    wenn es statistisch signifikante Ergebnisse bringt,
  • 2:47 - 2:49
    wird die Medizin wahrscheinlich auch bei der ganzen Population wirken.
  • 2:49 - 2:50
    Darum geht's im Grunde.
  • 2:50 - 2:52
    Es ist also echt wichtig, den Unterschied zwischen
  • 2:52 - 2:54
    Stichprobe und Population zu verstehen.
  • 2:54 - 2:58
    Und wenn man statistische Werte über eine Stichprobe findet,
  • 2:58 - 3:00
    die die Population größtenteils beschreiben können oder
  • 3:00 - 3:04
    abschätzen können, dann nennen wir diese Werte Parameter für die Population.
  • 3:04 - 3:07
    Was ist also der Mittelwert von ... ich schreib diese Definitionen neu.
  • 3:07 - 3:09
    Was ist der Mittelwert einer Population?
  • 3:09 - 3:10
    Ich mach das mal in lila.
  • 3:10 - 3:12
    Lila für Population.
  • 3:12 - 3:14
    Der Mittelwert einer Population.
  • 3:14 - 3:20
    Du nimmst jeden Datenpunkt in der Population, x i.
  • 3:20 - 3:22
    Summierst sie auf.
  • 3:22 - 3:24
    Du beginnst mit dem ersten Punkt und gehst durch
  • 3:24 - 3:26
    bis zum n-ten Punkt.
  • 3:26 - 3:27
    Und teilst durch n.
  • 3:27 - 3:28
    Alles aufsummierren und durch n teilen.
  • 3:28 - 3:29
    Das ist der Mittelwert.
  • 3:29 - 3:30
    Dann fügen wir das in die Formel ein.
  • 3:30 - 3:33
    Und Du kannst sehen, wie weit jeder Punkt vom
  • 3:33 - 3:34
    zentralen Punkt entfernt ist, vom Mittelwert.
  • 3:34 - 3:36
    Und man bekommt die Varianz.
  • 3:36 - 3:40
    Was passiert jetzt bei einer Stichprobe?
  • 3:40 - 3:43
    Naja, wenn wir den Mittelwert einer Population abschätzen wollen,
  • 3:43 - 3:47
    indem wir den Mittelwert für einer Stichprobe berechnen, dann
  • 3:47 - 3:49
    ist es das Beste... und das sind alles menschengemachte Formeln.
  • 3:49 - 3:51
    Irgendwelche Menschen haben sich gefragt, was ist
  • 3:51 - 3:52
    der beste Weg das zu schätzen?
  • 3:52 - 3:55
    Das beste, was wir tun können, ist den Mittelwert unserer Stichprobe zu nehmen.
  • 3:55 - 3:57
    Und das ist dann der Stichproben-Mittelwert.
  • 3:57 - 3:59
    Wir haben im ersten Video gelernt, dass diese Notation
  • 3:59 - 4:00
    Die Formel ist fast identisch.
  • 4:00 - 4:02
    Nur die Notation ist anders.
  • 4:02 - 4:05
    Statt Mü schreibt man x mit einem Strich darauf.
  • 4:05 - 4:09
    Stichproben-Mittelwert ist gleich - wieder nimmt man
  • 4:09 - 4:12
    nur die Datenpunkte aus der Stichproben, nicht aus der ganzen Population.
  • 4:12 - 4:16
    Du summierst sie, vom ersten bis
  • 4:16 - 4:17
    zum n-ten, richtig?
  • 4:17 - 4:21
    Man sagt, da sind n Datenpunkte in dieser Stichprobe.
  • 4:21 - 4:23
    Und dann teilst du es durch die Anzahl der Datenpunkte.
  • 4:23 - 4:24
    So weit, so gut.
  • 4:24 - 4:26
    Es ist eigentlich die gleiche Formel.
  • 4:26 - 4:28
    Wie ich den Mittelwert der Population gerechnet habe, ich sag mal,
  • 4:28 - 4:30
    wenn ich nur eine Stichprobe habe, lass mich den Mittelwert genauso berechnen.
  • 4:30 - 4:33
    Dann ist das wohl eine gute Schätzung des Mittelwerts
  • 4:33 - 4:34
    der Population.
  • 4:34 - 4:36
    Bei der Varianz wird's jetzt spannend.
  • 4:36 - 4:39
    Die normale Reaktion wäre: OK, ich hab diese Stichprobe
  • 4:39 - 4:43
    und wenn ich die Varianz der Population schätzen will,
  • 4:43 - 4:45
    warum wende ich nicht die gleiche Formel an
  • 4:45 - 4:46
    aber eben über der Stichprobe?
  • 4:46 - 4:49
    Das könnte ich sagen - und das ist dann tatsächlich die Stichproben-Varianz.
  • 4:49 - 4:55
    Man verwendet s Quadrat.
  • 4:55 - 4:58
    Sigma ist ein griechischer Buchstabe, der äquivalent zu s ist.
  • 4:58 - 5:00
    Aber da wir hier mit der Stichprobe arbeiten,
  • 5:00 - 5:01
    schreiben wir hier s.
  • 5:01 - 5:02
    Das ist die Stichproben-Varianz.
  • 5:02 - 5:03
    Ich schreib's mal hin.
  • 5:03 - 5:04
    Stichproben-Varianz.
  • 5:04 - 5:12
    .
  • 5:12 - 5:16
    Wir könnten sagen, vielleicht ist es eine gute Idee,
  • 5:16 - 5:17
    die Stichproben-Varianz auf die gleiche Weise zu rechnen.
  • 5:17 - 5:24
    Wir nehmen die Distanz von jedem der Punkte in der Stichprobe.
  • 5:24 - 5:27
    Finden raus, wie weit die sind vom Stichproben-Mittelwert.
  • 5:27 - 5:29
    Hier haben die den Populations-Mittelwert benutzt, aber jetzt
  • 5:29 - 5:31
    benutzen wir den Stichproben-Mittelwert, weil wir nur den haben.
  • 5:31 - 5:33
    Den Populations-Mittelwert kennen wir nicht
  • 5:33 - 5:36
    ohne die ganze Population einzubeziehen.
  • 5:36 - 5:36
    Nimm das zum Quadrat.
  • 5:36 - 5:38
    Das macht es positiv und es weitere Eigenschaften,
  • 5:38 - 5:40
    auf die ich später komme.
  • 5:40 - 5:43
    Dann nimm den Durchschnitt von allen diesen quadierten Distanzen.
  • 5:43 - 5:45
    Summierst alle auf.
  • 5:45 - 5:47
    Es gibt n davon, richtig?
  • 5:47 - 5:48
    klein-n.
  • 5:48 - 5:52
    Du teilst durch klein-n.
  • 5:52 - 5:53
    Und du findest, das ist eine gute Schätzung.
  • 5:53 - 5:56
    Was auch immer die wahre Varianz ist, das könnte eine gute Schätzung sein
  • 5:56 - 5:57
    für die gesamte Population.
  • 5:57 - 6:01
    Das ist das, worüber die Leute reden, wenn sie
  • 6:01 - 6:02
    von Stichproben-Varianz sprechen.
  • 6:02 - 6:05
    Manchmal wird man darauf verwiesen.
  • 6:05 - 6:08
    Man schreibt ein klein-n hinein.
  • 6:08 - 6:10
    Der Grund ist, wir haben durch n geteilt.
  • 6:10 - 6:12
    Du fragst vielleicht: Sal, was ist das Problem?
  • 6:12 - 6:14
    Und das Problem... ich versuch mal, einen Eindruck zu vermitteln,
  • 6:14 - 6:16
    das hat mich wirklich immer etwas verwirrt.
  • 6:16 - 6:19
    Und selbst jetzt muss ich manchmal mit mir ringen,
  • 6:19 - 6:22
    um die Idee dahinter zu begreifen.
  • 6:22 - 6:25
    Ich habe so eine Idee, aber das etwas formaler
  • 6:25 - 6:27
    zu beweisen, dass das wirklich stimmt...
  • 6:27 - 6:28
    Stellt Euch das so vor.
  • 6:28 - 6:30
    Wenn ich ein paar Zahlen habe
  • 6:30 - 6:33
    und ich male einen Zahlenstrahl hier.
  • 6:33 - 6:36
    Wenn ich eine Zahl eintrage - sagen wir, man weiß...
  • 6:36 - 6:39
    Sagen wir ich habe ein paar Zahlen in meiner Population
  • 6:39 - 6:42
    Sagen wir... ich schreibe jetzt zufällig ein paar
  • 6:42 - 6:44
    Zahlen in meine Population.
  • 6:44 - 6:46
    Und die auf der rechten Seite sind größer als die
  • 6:46 - 6:46
    auf der linken Seite.
  • 6:46 - 6:49
    .
  • 6:49 - 6:53
    Wenn ich eine Stichprobe davon nehme, vielleicht ..
  • 6:53 - 6:55
    Die Stichprobe ist zufällig.
  • 6:55 - 6:56
    Man will wirklich eine zufällige Stichprobe nehmen.
  • 6:56 - 6:57
    Man will nicht, dass das unausgeglichen ist.
  • 6:57 - 7:03
    Vielleicht wähle ich diese Zahl, diese und diese
  • 7:03 - 7:05
    und diese, OK?
  • 7:05 - 7:07
    Wenn ich jetzt den Mittelwert dieser Zahl,
  • 7:07 - 7:08
    dieser Zahl, dieser Zahl und dieser Zahl nehme,
  • 7:08 - 7:09
    wird der irgendwo in der Mitte sein.
  • 7:09 - 7:11
    Vielleicht irgendwo hier drüben.
  • 7:11 - 7:13
    Und wenn ich die Stichproben-Varianz berechne
  • 7:13 - 7:17
    mit dieser Formel, dann nehme ich diese Distanz zum Quadrat plus
  • 7:17 - 7:21
    dieser Distanz zum Qudrat plus dieser Distanz zum Quadrat plus
  • 7:21 - 7:24
    dieser Distanz zum Quadrat und mittle über alles.
  • 7:24 - 7:25
    Dann würde ich diese Zahl bekommen
  • 7:25 - 7:28
    und das wäre wohl eine recht gute Schätzung der
  • 7:28 - 7:30
    Varianz der gesamten Population.
  • 7:30 - 7:32
    Die Population des Mittelwerts ist möglicherweise
  • 7:32 - 7:33
    weiß nicht
  • 7:33 - 7:35
    Es könnte ziemlich ähnlich zu dem hier sein.
  • 7:35 - 7:37
    Wenn wir alle Datenpunkte nehmen würden und dann das Mittel nähmen,
  • 7:37 - 7:39
    dann wäre das vielleicht irgendwo hier.
  • 7:39 - 7:41
    Und wenn du dann die Varianz ausrechnest, dann wäre das
  • 7:41 - 7:44
    vielleicht recht nah am Mittelwert der ganzen Linien hier, ja?
  • 7:44 - 7:47
    Von allen Varianz-Abständen der Stichprobe, ja?
  • 7:47 - 7:47
    So weit, so gut.
  • 7:47 - 7:48
    Jetzt sagst du, OK, Sal,
  • 7:48 - 7:50
    sieht ja ganz gut aus,
  • 7:50 - 7:52
    aber da ist ein Haken.
  • 7:52 - 7:55
    Was ist denn... Es besteht immer die Möglichkeit, dass man
  • 7:55 - 7:57
    nicht diese schön verteilten Zahlen als Stichprobe wählt,
  • 7:57 - 8:01
    sondern, was passiert, wenn ich eben diese Zahl, diese Zahl
  • 8:01 - 8:04
    und diese Zahl
  • 8:04 - 8:05
    als Stichprobe wähle?
  • 8:05 - 8:08
    Was auch immer deine Stichprobe ist, dein Stichproben-Mittelwert
  • 8:08 - 8:10
    wird immer in der Mitte davon sein, ja?
  • 8:10 - 8:13
    Also in diesem Fall ist dein Stichproben-Mittelwert hier.
  • 8:13 - 8:15
    Und bei diesen Zahlen würde man jetzt sagen, OK, die Zahl hier
  • 8:15 - 8:18
    ist nicht sehr weit von dieser Zahl entfernt und diese Zahl nicht sehr weit von jener und
  • 8:18 - 8:19
    diese Zahl ist auch nicht weit.
  • 8:19 - 8:22
    Also wird deine Stichproben-Varianz, wenn man's so macht, ziemlich
  • 8:22 - 8:24
    niedrig sein.
  • 8:24 - 8:27
    Einfach weil alle diese Zahlen ziemlich...
  • 8:27 - 8:29
    ... ziemlich nah an ihrem Mittelwert
  • 8:29 - 8:30
    sein werden.
  • 8:30 - 8:35
    Aber in diesem Fall ist die Stichprobe irgendwie unausgeglichen und
  • 8:35 - 8:38
    der wirkliche Mittelwert der Population ist ja irgendwo hier drüben.
  • 8:38 - 8:41
    Also ist auch die wirkliche Varianz der Stichprobe, wenn man
  • 8:41 - 8:44
    den echten Mittelwert wüsste - ich weiß, es klingt verwirrend -
  • 8:44 - 8:45
    wenn du den echten Mittelwert wüsstest, würdest du sagen
  • 8:45 - 8:47
    "Wow!".
  • 8:47 - 8:48
    Du würdest dann diese Abstände hier sehen, die natürlich
  • 8:48 - 8:51
    viel größer wären.
  • 8:51 - 8:54
    Warum ich das alles erzähle ist, wenn du
  • 8:54 - 8:58
    eine Stichprobe nimmst, dann ist es möglich, dass dein Stichproben-Mittelwert
  • 8:58 - 9:00
    dem Populations-Mittelwert sehr ähnlich ist, ja?
  • 9:00 - 9:03
    Der Stichproben-Mittelwert ist vielleicht hier und der
  • 9:03 - 9:03
    Populations-Mittelwert hier.
  • 9:03 - 9:06
    Und dann funktioniert diese Formel ganz wunderbar,
  • 9:06 - 9:08
    jedenfalls, was die Stichprobenpunkte betrifft und was das
  • 9:08 - 9:09
    Berechnen der Varianz betrifft.
  • 9:09 - 9:14
    Aber es kann auch sein, dass dein Stichproben-Mittelwert...
  • 9:14 - 9:17
    also die Stichprobe ist immer in den Daten enthalten, ja?
  • 9:17 - 9:19
    Der Mittelwert ist immer in der Mitte der Stichproben-Daten.
  • 9:19 - 9:21
    Aber es ist durchaus möglich, dass der Populations-Mittelwert
  • 9:21 - 9:23
    außerhalb der Stichproben-Daten liegt.
  • 9:23 - 9:25
    Es kann einfach sein, dass du Werte gewählt hast,
  • 9:25 - 9:28
    die nicht den eigentlichen Populations-Mittelwert enthalten.
  • 9:28 - 9:32
    Und wenn du dann die Stichproben-Varianz auf diesem Weg berechnest,
  • 9:32 - 9:35
    dann unterschätzt du die eigentliche
  • 9:35 - 9:36
    Populations-Varianz, richtig?
  • 9:36 - 9:38
    Einfach, weil sie immer näher am eigenen Mittelwert sein werden
  • 9:38 - 9:40
    als am Mittelwert der Population.
  • 9:40 - 9:43
    Und wenn du nur 10% von all dem hier verstehst,
  • 9:43 - 9:46
    dann bist du bereits ein Student fortgeschrittener Statistik.
  • 9:46 - 9:49
    Ich erzähle all das nur, um dir - hoffentlich -
  • 9:49 - 9:54
    eine Ahnung davon zu geben, da das hier häufig...
  • 9:54 - 9:57
    diese Formel wird häufig die eigentliche Varianz der Population
  • 9:57 - 9:59
    unterschätzen.
  • 9:59 - 10:01
    Und es gibt eine Formel - und das wurde tatsächlich richtig
  • 10:01 - 10:05
    bewiesen - eine Formel, die eine bessere Schätzung,
  • 10:05 - 10:08
    oder sagen wir eine ausgeglichenere Schätzung der
  • 10:08 - 10:09
    Populations-Varianz darstellt.
  • 10:09 - 10:11
    Oder auch die ausgeglichene Stichproben-Varianz.
  • 10:11 - 10:14
    Und manchmal wird es einfach als s Quadrat geschrieben,
  • 10:14 - 10:19
    manchmal als s Index n-1 zum Quadrat.
  • 10:19 - 10:21
    Und ich zeig euch warum.
  • 10:21 - 10:22
    Es ist fast das gleiche.
  • 10:22 - 10:25
    Du nimmst jeden Datenpunkt, schaust, wie weit sie
  • 10:25 - 10:28
    vom Stichproben-Mittelwert weg sind
  • 10:28 - 10:29
    und quadrierst das.
  • 10:29 - 10:32
    Und dann nimmst du das Mittel dieser quadrierten Werte,
  • 10:32 - 10:33
    mit einem kleinen Unterschied:
  • 10:33 - 10:36
    i gleich 1 bis i gleich n...
  • 10:36 - 10:39
    statt durch n zu teilen, teilst du durch eine etwas
  • 10:39 - 10:42
    kleinere Zahl.
  • 10:42 - 10:44
    Du teilst durch n minus 1.
  • 10:44 - 10:47
    Wenn du durch n minus 1 teilst anstatt durch n zu teilen,
  • 10:47 - 10:50
    wirst du ein etwas größeres Ergebnis bekommen.
  • 10:50 - 10:51
    Und es stellt sich heraus, dass das
  • 10:51 - 10:52
    tatsächlich eine viel bessere Schätzung ist.
  • 10:52 - 10:55
    Und eines Tages werde ich ein Computerprogramm schreiben,
  • 10:55 - 10:57
    um mir das experimentell zu beweisen, dass das
  • 10:57 - 11:02
    eine bessere Abschätzung der Populations-Varianz ist.
  • 11:02 - 11:03
    Und man berechnet das auf die gleiche Weise, nur dass
  • 11:03 - 11:05
    man durch n minus 1 dividiert.
  • 11:05 - 11:07
    Man kann das auch so erklären... aber nein,
  • 11:07 - 11:08
    ich habe keine Zeit mehr.
  • 11:08 - 11:10
    Wir belassen es erstmal dabei.
  • 11:10 - 11:11
    Und im nächsten Video machen wir ein paar
  • 11:11 - 11:13
    Rechnungen, dass ihr nicht zu sehr von der Theorie
  • 11:13 - 11:13
    erschlagen werdet.
  • 11:13 - 11:15
    Weil wir doch recht abstrakt geworden sind.
  • 11:15 - 11:17
    Bis zum nächsten Video.
  • 11:17 - 11:17
    .
Title:
Statistics: Sample Variance
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
11:18

German subtitles

Revisions