WEBVTT 00:00:00.000 --> 00:00:01.100 . 00:00:01.100 --> 00:00:03.320 Das Video hier ist etwas besonderes 00:00:03.320 --> 00:00:05.340 aus verschiedenen Gründen. 00:00:05.340 --> 00:00:09.910 Erstens: ich zeige Euch die Varianz einer Stichprobe, 00:00:09.910 --> 00:00:11.750 was allein schon interessant ist, 00:00:11.750 --> 00:00:14.520 und ich versuche, das Video hier in HD aufzunehmen. 00:00:14.520 --> 00:00:16.370 Und Ihr seht das hoffentlich größer und schärfer 00:00:16.370 --> 00:00:17.030 als je zuvor. 00:00:17.030 --> 00:00:19.150 Naja, wir werden sehen. 00:00:19.150 --> 00:00:22.060 Ist also alles ein bisschen ein Experiment, ich bitte um Geduld. 00:00:22.060 --> 00:00:25.180 Bevor wir die Varianz einer Stichprobe behandeln, 00:00:25.180 --> 00:00:28.090 wäre es sinnvoll, die Varianz einer Population 00:00:28.090 --> 00:00:28.870 zu wiederholen. 00:00:28.870 --> 00:00:32.180 Dann können wir die Formeln vergleichen. 00:00:32.180 --> 00:00:34.790 Die Varianz einer Population - das hier ist der 00:00:34.790 --> 00:00:36.100 griechische Buchstabe Sigma. 00:00:36.100 --> 00:00:37.420 Klein-Sigma zum Quadrat. 00:00:37.420 --> 00:00:38.500 Das ist die Varianz. 00:00:38.500 --> 00:00:41.010 Ich weiß, das ist komisch, dass eine Variable 00:00:41.010 --> 00:00:41.710 direkt schon quadriert daherkommt. 00:00:41.710 --> 00:00:42.840 Aber man nimmt hier nicht das Quadrat, 00:00:42.840 --> 00:00:44.240 sondern die Variable ist eben Sigma Quadrat. 00:00:44.240 --> 00:00:45.780 Sigma Quadrat heißt Varianz. 00:00:45.780 --> 00:00:46.840 Ich schreib's mal hin. 00:00:46.840 --> 00:00:48.005 Das ist die Varianz. 00:00:48.005 --> 00:00:51.550 . 00:00:51.550 --> 00:00:55.430 Und das ist gleich... Du nimmst jeden Datenpunkt.... 00:00:55.430 --> 00:00:58.800 wir nennen die x Index i. 00:00:58.800 --> 00:01:01.700 Du nimmst jeden Datenpunkt, schaust, wie weit der von 00:01:01.700 --> 00:01:08.750 dem Mittelwert der Population weg ist, quadrierst das und 00:01:08.750 --> 00:01:11.160 dann mittelst Du über alle diese. 00:01:11.160 --> 00:01:12.900 Zum Mitteln, summierst Du alle auf. 00:01:12.900 --> 00:01:14.200 Das geht von i gleich 1. 00:01:14.200 --> 00:01:17.700 Also vom ersten Punkt, ganz bis zum n-ten Punkt. 00:01:17.700 --> 00:01:19.940 Und dann, zum Mitteln, summierst Du alle auf und 00:01:19.940 --> 00:01:21.970 teilst das durch n. 00:01:21.970 --> 00:01:25.970 Die Varianz ist also das Mittel all dieser quadrierten Distanzen 00:01:25.970 --> 00:01:27.390 von jedem Punkt und dem Mittelwert. 00:01:27.390 --> 00:01:29.700 Und nur um eine Intuition zu haben, das bedeutet, 00:01:29.700 --> 00:01:32.920 wie weit weg ungefähr die Datenpunkte 00:01:32.920 --> 00:01:34.420 vom Mittelwert entfernt sind. 00:01:34.420 --> 00:01:36.250 So stellt man sich am besten die Varianz vor. 00:01:36.250 --> 00:01:37.640 Aber was, wenn wir... das hier war für 00:01:37.640 --> 00:01:39.140 eine Population, nicht wahr? 00:01:39.140 --> 00:01:42.050 Und wenn wir die Varianz der Körpergröße 00:01:42.050 --> 00:01:44.580 aller Männer im Land haben wollten, 00:01:44.580 --> 00:01:46.480 dann wäre das sehr schwierig. 00:01:46.480 --> 00:01:48.910 Man müsste im Grunde die Größe 00:01:48.910 --> 00:01:49.790 jedes Mannes messen. 00:01:49.790 --> 00:01:51.360 250 Millionen Menschen. 00:01:51.360 --> 00:01:55.080 Oder was wäre, wenn es um eine Population ginge, 00:01:55.080 --> 00:01:56.860 an deren Daten man unmöglich rankäme oder um 00:01:56.860 --> 00:01:57.640 eine Zufallsvariable. 00:01:57.640 --> 00:01:59.100 Dazu später mehr. 00:01:59.100 --> 00:02:02.660 Also in vielen Fällen will man diese Varianz nur abschätzen, 00:02:02.660 --> 00:02:04.690 indem man die Varianz einer Stichprobe nimmt. 00:02:04.690 --> 00:02:07.420 Genauso wie man niemals den Mittelwert einer Population messen kann, 00:02:07.420 --> 00:02:09.570 aber vielleicht will man den abschätzen, indem man 00:02:09.570 --> 00:02:11.064 den Mittelwert einer Stichprobe nimmt. 00:02:11.064 --> 00:02:13.890 Das haben wir im ersten Video gelernt. 00:02:13.890 --> 00:02:17.520 Wenn das hier die ganze Population ist. 00:02:17.520 --> 00:02:20.280 Das sind Millionen von Datenpunkten, sogar Datenpunkte, 00:02:20.280 --> 00:02:21.870 die in der Zukunft liegen, die Du niemals bekommst, 00:02:21.870 --> 00:02:23.290 weil es eine Zufallsvariable ist. 00:02:23.290 --> 00:02:24.243 Das ist also die Population. 00:02:24.243 --> 00:02:26.920 . 00:02:26.920 --> 00:02:32.390 Du willst vielleicht nur eine Schätzung, indem Du eine Stichprobe nimmst. 00:02:32.390 --> 00:02:35.020 Darum geht es im Grunde bei der 00:02:35.020 --> 00:02:36.360 induktiven Statistik. 00:02:36.360 --> 00:02:38.720 Dass man deskriptive Statistikwerte einer Stichprobe herausfindet 00:02:38.720 --> 00:02:40.890 und daraus Schlüsse über die Population zieht. 00:02:40.890 --> 00:02:44.610 Lass uns diese Medizin bei 100 Leuten ausprobieren und 00:02:44.610 --> 00:02:46.880 wenn es statistisch signifikante Ergebnisse bringt, 00:02:46.880 --> 00:02:48.850 wird die Medizin wahrscheinlich auch bei der ganzen Population wirken. 00:02:48.850 --> 00:02:49.800 Darum geht's im Grunde. 00:02:49.800 --> 00:02:51.920 Es ist also echt wichtig, den Unterschied zwischen 00:02:51.920 --> 00:02:53.580 Stichprobe und Population zu verstehen. 00:02:53.580 --> 00:02:57.510 Und wenn man statistische Werte über eine Stichprobe findet, 00:02:57.510 --> 00:03:00.160 die die Population größtenteils beschreiben können oder 00:03:00.160 --> 00:03:03.720 abschätzen können, dann nennen wir diese Werte Parameter für die Population. 00:03:03.720 --> 00:03:07.330 Was ist also der Mittelwert von ... ich schreib diese Definitionen neu. 00:03:07.330 --> 00:03:08.830 Was ist der Mittelwert einer Population? 00:03:08.830 --> 00:03:09.940 Ich mach das mal in lila. 00:03:09.940 --> 00:03:11.630 Lila für Population. 00:03:11.630 --> 00:03:13.680 Der Mittelwert einer Population. 00:03:13.680 --> 00:03:19.700 Du nimmst jeden Datenpunkt in der Population, x i. 00:03:19.700 --> 00:03:21.850 Summierst sie auf. 00:03:21.850 --> 00:03:23.830 Du beginnst mit dem ersten Punkt und gehst durch 00:03:23.830 --> 00:03:25.620 bis zum n-ten Punkt. 00:03:25.620 --> 00:03:26.740 Und teilst durch n. 00:03:26.740 --> 00:03:27.800 Alles aufsummierren und durch n teilen. 00:03:27.800 --> 00:03:28.920 Das ist der Mittelwert. 00:03:28.920 --> 00:03:30.500 Dann fügen wir das in die Formel ein. 00:03:30.500 --> 00:03:33.060 Und Du kannst sehen, wie weit jeder Punkt vom 00:03:33.060 --> 00:03:34.270 zentralen Punkt entfernt ist, vom Mittelwert. 00:03:34.270 --> 00:03:36.260 Und man bekommt die Varianz. 00:03:36.260 --> 00:03:39.670 Was passiert jetzt bei einer Stichprobe? 00:03:39.670 --> 00:03:43.350 Naja, wenn wir den Mittelwert einer Population abschätzen wollen, 00:03:43.350 --> 00:03:46.600 indem wir den Mittelwert für einer Stichprobe berechnen, dann 00:03:46.600 --> 00:03:49.170 ist es das Beste... und das sind alles menschengemachte Formeln. 00:03:49.170 --> 00:03:51.140 Irgendwelche Menschen haben sich gefragt, was ist 00:03:51.140 --> 00:03:51.710 der beste Weg das zu schätzen? 00:03:51.710 --> 00:03:54.550 Das beste, was wir tun können, ist den Mittelwert unserer Stichprobe zu nehmen. 00:03:54.550 --> 00:03:56.820 Und das ist dann der Stichproben-Mittelwert. 00:03:56.820 --> 00:03:58.920 Wir haben im ersten Video gelernt, dass diese Notation 00:03:58.920 --> 00:04:00.450 Die Formel ist fast identisch. 00:04:00.450 --> 00:04:01.540 Nur die Notation ist anders. 00:04:01.540 --> 00:04:04.990 Statt Mü schreibt man x mit einem Strich darauf. 00:04:04.990 --> 00:04:08.620 Stichproben-Mittelwert ist gleich - wieder nimmt man 00:04:08.620 --> 00:04:12.100 nur die Datenpunkte aus der Stichproben, nicht aus der ganzen Population. 00:04:12.100 --> 00:04:16.370 Du summierst sie, vom ersten bis 00:04:16.370 --> 00:04:17.380 zum n-ten, richtig? 00:04:17.380 --> 00:04:20.640 Man sagt, da sind n Datenpunkte in dieser Stichprobe. 00:04:20.640 --> 00:04:23.390 Und dann teilst du es durch die Anzahl der Datenpunkte. 00:04:23.390 --> 00:04:24.320 So weit, so gut. 00:04:24.320 --> 00:04:25.660 Es ist eigentlich die gleiche Formel. 00:04:25.660 --> 00:04:27.500 Wie ich den Mittelwert der Population gerechnet habe, ich sag mal, 00:04:27.500 --> 00:04:29.590 wenn ich nur eine Stichprobe habe, lass mich den Mittelwert genauso berechnen. 00:04:29.590 --> 00:04:32.560 Dann ist das wohl eine gute Schätzung des Mittelwerts 00:04:32.560 --> 00:04:33.930 der Population. 00:04:33.930 --> 00:04:36.340 Bei der Varianz wird's jetzt spannend. 00:04:36.340 --> 00:04:39.250 Die normale Reaktion wäre: OK, ich hab diese Stichprobe 00:04:39.250 --> 00:04:43.260 und wenn ich die Varianz der Population schätzen will, 00:04:43.260 --> 00:04:45.230 warum wende ich nicht die gleiche Formel an 00:04:45.230 --> 00:04:46.150 aber eben über der Stichprobe? 00:04:46.150 --> 00:04:49.330 Das könnte ich sagen - und das ist dann tatsächlich die Stichproben-Varianz. 00:04:49.330 --> 00:04:54.570 Man verwendet s Quadrat. 00:04:54.570 --> 00:04:58.220 Sigma ist ein griechischer Buchstabe, der äquivalent zu s ist. 00:04:58.220 --> 00:04:59.980 Aber da wir hier mit der Stichprobe arbeiten, 00:04:59.980 --> 00:05:01.000 schreiben wir hier s. 00:05:01.000 --> 00:05:02.320 Das ist die Stichproben-Varianz. 00:05:02.320 --> 00:05:03.070 Ich schreib's mal hin. 00:05:03.070 --> 00:05:03.950 Stichproben-Varianz. 00:05:03.950 --> 00:05:11.860 . 00:05:11.860 --> 00:05:15.870 Wir könnten sagen, vielleicht ist es eine gute Idee, 00:05:15.870 --> 00:05:17.340 die Stichproben-Varianz auf die gleiche Weise zu rechnen. 00:05:17.340 --> 00:05:23.670 Wir nehmen die Distanz von jedem der Punkte in der Stichprobe. 00:05:23.670 --> 00:05:26.600 Finden raus, wie weit die sind vom Stichproben-Mittelwert. 00:05:26.600 --> 00:05:29.230 Hier haben die den Populations-Mittelwert benutzt, aber jetzt 00:05:29.230 --> 00:05:31.450 benutzen wir den Stichproben-Mittelwert, weil wir nur den haben. 00:05:31.450 --> 00:05:33.160 Den Populations-Mittelwert kennen wir nicht 00:05:33.160 --> 00:05:35.510 ohne die ganze Population einzubeziehen. 00:05:35.510 --> 00:05:36.400 Nimm das zum Quadrat. 00:05:36.400 --> 00:05:38.160 Das macht es positiv und es weitere Eigenschaften, 00:05:38.160 --> 00:05:40.160 auf die ich später komme. 00:05:40.160 --> 00:05:42.730 Dann nimm den Durchschnitt von allen diesen quadierten Distanzen. 00:05:42.730 --> 00:05:44.970 Summierst alle auf. 00:05:44.970 --> 00:05:47.430 Es gibt n davon, richtig? 00:05:47.430 --> 00:05:48.400 klein-n. 00:05:48.400 --> 00:05:51.820 Du teilst durch klein-n. 00:05:51.820 --> 00:05:53.230 Und du findest, das ist eine gute Schätzung. 00:05:53.230 --> 00:05:55.580 Was auch immer die wahre Varianz ist, das könnte eine gute Schätzung sein 00:05:55.580 --> 00:05:56.720 für die gesamte Population. 00:05:56.720 --> 00:06:00.620 Das ist das, worüber die Leute reden, wenn sie 00:06:00.620 --> 00:06:01.980 von Stichproben-Varianz sprechen. 00:06:01.980 --> 00:06:05.260 Manchmal wird man darauf verwiesen. 00:06:05.260 --> 00:06:07.520 Man schreibt ein klein-n hinein. 00:06:07.520 --> 00:06:09.840 Der Grund ist, wir haben durch n geteilt. 00:06:09.840 --> 00:06:11.840 Du fragst vielleicht: Sal, was ist das Problem? 00:06:11.840 --> 00:06:14.000 Und das Problem... ich versuch mal, einen Eindruck zu vermitteln, 00:06:14.000 --> 00:06:16.180 das hat mich wirklich immer etwas verwirrt. 00:06:16.180 --> 00:06:19.340 Und selbst jetzt muss ich manchmal mit mir ringen, 00:06:19.340 --> 00:06:21.530 um die Idee dahinter zu begreifen. 00:06:21.530 --> 00:06:24.510 Ich habe so eine Idee, aber das etwas formaler 00:06:24.510 --> 00:06:26.950 zu beweisen, dass das wirklich stimmt... 00:06:26.950 --> 00:06:28.280 Stellt Euch das so vor. 00:06:28.280 --> 00:06:29.905 Wenn ich ein paar Zahlen habe 00:06:29.905 --> 00:06:32.740 und ich male einen Zahlenstrahl hier. 00:06:32.740 --> 00:06:35.740 Wenn ich eine Zahl eintrage - sagen wir, man weiß... 00:06:35.740 --> 00:06:39.430 Sagen wir ich habe ein paar Zahlen in meiner Population 00:06:39.430 --> 00:06:41.660 Sagen wir... ich schreibe jetzt zufällig ein paar 00:06:41.660 --> 00:06:44.280 Zahlen in meine Population. 00:06:44.280 --> 00:06:45.928 Und die auf der rechten Seite sind größer als die 00:06:45.928 --> 00:06:46.355 auf der linken Seite. 00:06:46.355 --> 00:06:48.900 . 00:06:48.900 --> 00:06:52.990 Wenn ich eine Stichprobe davon nehme, vielleicht .. 00:06:52.990 --> 00:06:54.820 Die Stichprobe ist zufällig. 00:06:54.820 --> 00:06:56.210 Man will wirklich eine zufällige Stichprobe nehmen. 00:06:56.210 --> 00:06:57.320 Man will nicht, dass das unausgeglichen ist. 00:06:57.320 --> 00:07:02.900 Vielleicht wähle ich diese Zahl, diese und diese 00:07:02.900 --> 00:07:05.420 und diese, OK? 00:07:05.420 --> 00:07:07.480 Wenn ich jetzt den Mittelwert dieser Zahl, 00:07:07.480 --> 00:07:08.460 dieser Zahl, dieser Zahl und dieser Zahl nehme, 00:07:08.460 --> 00:07:09.320 wird der irgendwo in der Mitte sein. 00:07:09.320 --> 00:07:11.010 Vielleicht irgendwo hier drüben. 00:07:11.010 --> 00:07:13.240 Und wenn ich die Stichproben-Varianz berechne 00:07:13.240 --> 00:07:16.780 mit dieser Formel, dann nehme ich diese Distanz zum Quadrat plus 00:07:16.780 --> 00:07:21.060 dieser Distanz zum Qudrat plus dieser Distanz zum Quadrat plus 00:07:21.060 --> 00:07:23.520 dieser Distanz zum Quadrat und mittle über alles. 00:07:23.520 --> 00:07:24.700 Dann würde ich diese Zahl bekommen 00:07:24.700 --> 00:07:27.820 und das wäre wohl eine recht gute Schätzung der 00:07:27.820 --> 00:07:30.260 Varianz der gesamten Population. 00:07:30.260 --> 00:07:32.070 Die Population des Mittelwerts ist möglicherweise 00:07:32.070 --> 00:07:33.030 weiß nicht 00:07:33.030 --> 00:07:35.020 Es könnte ziemlich ähnlich zu dem hier sein. 00:07:35.020 --> 00:07:37.150 Wenn wir alle Datenpunkte nehmen würden und dann das Mittel nähmen, 00:07:37.150 --> 00:07:39.060 dann wäre das vielleicht irgendwo hier. 00:07:39.060 --> 00:07:40.660 Und wenn du dann die Varianz ausrechnest, dann wäre das 00:07:40.660 --> 00:07:43.590 vielleicht recht nah am Mittelwert der ganzen Linien hier, ja? 00:07:43.590 --> 00:07:46.810 Von allen Varianz-Abständen der Stichprobe, ja? 00:07:46.810 --> 00:07:47.250 So weit, so gut. 00:07:47.250 --> 00:07:47.900 Jetzt sagst du, OK, Sal, 00:07:47.900 --> 00:07:49.710 sieht ja ganz gut aus, 00:07:49.710 --> 00:07:51.940 aber da ist ein Haken. 00:07:51.940 --> 00:07:54.560 Was ist denn... Es besteht immer die Möglichkeit, dass man 00:07:54.560 --> 00:07:56.990 nicht diese schön verteilten Zahlen als Stichprobe wählt, 00:07:56.990 --> 00:08:00.800 sondern, was passiert, wenn ich eben diese Zahl, diese Zahl 00:08:00.800 --> 00:08:03.920 und diese Zahl 00:08:03.920 --> 00:08:05.400 als Stichprobe wähle? 00:08:05.400 --> 00:08:08.370 Was auch immer deine Stichprobe ist, dein Stichproben-Mittelwert 00:08:08.370 --> 00:08:10.210 wird immer in der Mitte davon sein, ja? 00:08:10.210 --> 00:08:12.960 Also in diesem Fall ist dein Stichproben-Mittelwert hier. 00:08:12.960 --> 00:08:15.010 Und bei diesen Zahlen würde man jetzt sagen, OK, die Zahl hier 00:08:15.010 --> 00:08:17.810 ist nicht sehr weit von dieser Zahl entfernt und diese Zahl nicht sehr weit von jener und 00:08:17.810 --> 00:08:19.100 diese Zahl ist auch nicht weit. 00:08:19.100 --> 00:08:21.790 Also wird deine Stichproben-Varianz, wenn man's so macht, ziemlich 00:08:21.790 --> 00:08:23.610 niedrig sein. 00:08:23.610 --> 00:08:26.920 Einfach weil alle diese Zahlen ziemlich... 00:08:26.920 --> 00:08:28.920 ... ziemlich nah an ihrem Mittelwert 00:08:28.920 --> 00:08:30.350 sein werden. 00:08:30.350 --> 00:08:34.600 Aber in diesem Fall ist die Stichprobe irgendwie unausgeglichen und 00:08:34.600 --> 00:08:37.980 der wirkliche Mittelwert der Population ist ja irgendwo hier drüben. 00:08:37.980 --> 00:08:40.800 Also ist auch die wirkliche Varianz der Stichprobe, wenn man 00:08:40.800 --> 00:08:43.670 den echten Mittelwert wüsste - ich weiß, es klingt verwirrend - 00:08:43.670 --> 00:08:44.980 wenn du den echten Mittelwert wüsstest, würdest du sagen 00:08:44.980 --> 00:08:46.830 "Wow!". 00:08:46.830 --> 00:08:48.386 Du würdest dann diese Abstände hier sehen, die natürlich 00:08:48.386 --> 00:08:51.320 viel größer wären. 00:08:51.320 --> 00:08:53.640 Warum ich das alles erzähle ist, wenn du 00:08:53.640 --> 00:08:58.280 eine Stichprobe nimmst, dann ist es möglich, dass dein Stichproben-Mittelwert 00:08:58.280 --> 00:09:00.380 dem Populations-Mittelwert sehr ähnlich ist, ja? 00:09:00.380 --> 00:09:02.610 Der Stichproben-Mittelwert ist vielleicht hier und der 00:09:02.610 --> 00:09:03.360 Populations-Mittelwert hier. 00:09:03.360 --> 00:09:05.770 Und dann funktioniert diese Formel ganz wunderbar, 00:09:05.770 --> 00:09:07.770 jedenfalls, was die Stichprobenpunkte betrifft und was das 00:09:07.770 --> 00:09:09.280 Berechnen der Varianz betrifft. 00:09:09.280 --> 00:09:14.240 Aber es kann auch sein, dass dein Stichproben-Mittelwert... 00:09:14.240 --> 00:09:16.730 also die Stichprobe ist immer in den Daten enthalten, ja? 00:09:16.730 --> 00:09:18.740 Der Mittelwert ist immer in der Mitte der Stichproben-Daten. 00:09:18.740 --> 00:09:21.470 Aber es ist durchaus möglich, dass der Populations-Mittelwert 00:09:21.470 --> 00:09:22.590 außerhalb der Stichproben-Daten liegt. 00:09:22.590 --> 00:09:24.750 Es kann einfach sein, dass du Werte gewählt hast, 00:09:24.750 --> 00:09:28.110 die nicht den eigentlichen Populations-Mittelwert enthalten. 00:09:28.110 --> 00:09:31.670 Und wenn du dann die Stichproben-Varianz auf diesem Weg berechnest, 00:09:31.670 --> 00:09:34.990 dann unterschätzt du die eigentliche 00:09:34.990 --> 00:09:36.240 Populations-Varianz, richtig? 00:09:36.240 --> 00:09:38.230 Einfach, weil sie immer näher am eigenen Mittelwert sein werden 00:09:38.230 --> 00:09:39.960 als am Mittelwert der Population. 00:09:39.960 --> 00:09:43.460 Und wenn du nur 10% von all dem hier verstehst, 00:09:43.460 --> 00:09:45.770 dann bist du bereits ein Student fortgeschrittener Statistik. 00:09:45.770 --> 00:09:49.120 Ich erzähle all das nur, um dir - hoffentlich - 00:09:49.120 --> 00:09:53.500 eine Ahnung davon zu geben, da das hier häufig... 00:09:53.500 --> 00:09:57.240 diese Formel wird häufig die eigentliche Varianz der Population 00:09:57.240 --> 00:09:59.110 unterschätzen. 00:09:59.110 --> 00:10:01.420 Und es gibt eine Formel - und das wurde tatsächlich richtig 00:10:01.420 --> 00:10:04.740 bewiesen - eine Formel, die eine bessere Schätzung, 00:10:04.740 --> 00:10:08.000 oder sagen wir eine ausgeglichenere Schätzung der 00:10:08.000 --> 00:10:09.030 Populations-Varianz darstellt. 00:10:09.030 --> 00:10:11.390 Oder auch die ausgeglichene Stichproben-Varianz. 00:10:11.390 --> 00:10:14.160 Und manchmal wird es einfach als s Quadrat geschrieben, 00:10:14.160 --> 00:10:18.930 manchmal als s Index n-1 zum Quadrat. 00:10:18.930 --> 00:10:20.720 Und ich zeig euch warum. 00:10:20.720 --> 00:10:22.340 Es ist fast das gleiche. 00:10:22.340 --> 00:10:24.730 Du nimmst jeden Datenpunkt, schaust, wie weit sie 00:10:24.730 --> 00:10:28.170 vom Stichproben-Mittelwert weg sind 00:10:28.170 --> 00:10:28.900 und quadrierst das. 00:10:28.900 --> 00:10:31.830 Und dann nimmst du das Mittel dieser quadrierten Werte, 00:10:31.830 --> 00:10:33.430 mit einem kleinen Unterschied: 00:10:33.430 --> 00:10:35.720 i gleich 1 bis i gleich n... 00:10:35.720 --> 00:10:39.370 statt durch n zu teilen, teilst du durch eine etwas 00:10:39.370 --> 00:10:41.920 kleinere Zahl. 00:10:41.920 --> 00:10:44.350 Du teilst durch n minus 1. 00:10:44.350 --> 00:10:46.880 Wenn du durch n minus 1 teilst anstatt durch n zu teilen, 00:10:46.880 --> 00:10:49.590 wirst du ein etwas größeres Ergebnis bekommen. 00:10:49.590 --> 00:10:51.060 Und es stellt sich heraus, dass das 00:10:51.060 --> 00:10:52.260 tatsächlich eine viel bessere Schätzung ist. 00:10:52.260 --> 00:10:54.810 Und eines Tages werde ich ein Computerprogramm schreiben, 00:10:54.810 --> 00:10:57.430 um mir das experimentell zu beweisen, dass das 00:10:57.430 --> 00:11:01.750 eine bessere Abschätzung der Populations-Varianz ist. 00:11:01.750 --> 00:11:03.430 Und man berechnet das auf die gleiche Weise, nur dass 00:11:03.430 --> 00:11:05.270 man durch n minus 1 dividiert. 00:11:05.270 --> 00:11:07.450 Man kann das auch so erklären... aber nein, 00:11:07.450 --> 00:11:08.340 ich habe keine Zeit mehr. 00:11:08.340 --> 00:11:09.500 Wir belassen es erstmal dabei. 00:11:09.500 --> 00:11:10.710 Und im nächsten Video machen wir ein paar 00:11:10.710 --> 00:11:12.590 Rechnungen, dass ihr nicht zu sehr von der Theorie 00:11:12.590 --> 00:11:13.270 erschlagen werdet. 00:11:13.270 --> 00:11:14.810 Weil wir doch recht abstrakt geworden sind. 00:11:14.810 --> 00:11:16.660 Bis zum nächsten Video. 00:11:16.660 --> 00:11:17.000 .