1 00:00:00,000 --> 00:00:01,100 . 2 00:00:01,100 --> 00:00:03,320 Das Video hier ist etwas besonderes 3 00:00:03,320 --> 00:00:05,340 aus verschiedenen Gründen. 4 00:00:05,340 --> 00:00:09,910 Erstens: ich zeige Euch die Varianz einer Stichprobe, 5 00:00:09,910 --> 00:00:11,750 was allein schon interessant ist, 6 00:00:11,750 --> 00:00:14,520 und ich versuche, das Video hier in HD aufzunehmen. 7 00:00:14,520 --> 00:00:16,370 Und Ihr seht das hoffentlich größer und schärfer 8 00:00:16,370 --> 00:00:17,030 als je zuvor. 9 00:00:17,030 --> 00:00:19,150 Naja, wir werden sehen. 10 00:00:19,150 --> 00:00:22,060 Ist also alles ein bisschen ein Experiment, ich bitte um Geduld. 11 00:00:22,060 --> 00:00:25,180 Bevor wir die Varianz einer Stichprobe behandeln, 12 00:00:25,180 --> 00:00:28,090 wäre es sinnvoll, die Varianz einer Population 13 00:00:28,090 --> 00:00:28,870 zu wiederholen. 14 00:00:28,870 --> 00:00:32,180 Dann können wir die Formeln vergleichen. 15 00:00:32,180 --> 00:00:34,790 Die Varianz einer Population - das hier ist der 16 00:00:34,790 --> 00:00:36,100 griechische Buchstabe Sigma. 17 00:00:36,100 --> 00:00:37,420 Klein-Sigma zum Quadrat. 18 00:00:37,420 --> 00:00:38,500 Das ist die Varianz. 19 00:00:38,500 --> 00:00:41,010 Ich weiß, das ist komisch, dass eine Variable 20 00:00:41,010 --> 00:00:41,710 direkt schon quadriert daherkommt. 21 00:00:41,710 --> 00:00:42,840 Aber man nimmt hier nicht das Quadrat, 22 00:00:42,840 --> 00:00:44,240 sondern die Variable ist eben Sigma Quadrat. 23 00:00:44,240 --> 00:00:45,780 Sigma Quadrat heißt Varianz. 24 00:00:45,780 --> 00:00:46,840 Ich schreib's mal hin. 25 00:00:46,840 --> 00:00:48,005 Das ist die Varianz. 26 00:00:48,005 --> 00:00:51,550 . 27 00:00:51,550 --> 00:00:55,430 Und das ist gleich... Du nimmst jeden Datenpunkt.... 28 00:00:55,430 --> 00:00:58,800 wir nennen die x Index i. 29 00:00:58,800 --> 00:01:01,700 Du nimmst jeden Datenpunkt, schaust, wie weit der von 30 00:01:01,700 --> 00:01:08,750 dem Mittelwert der Population weg ist, quadrierst das und 31 00:01:08,750 --> 00:01:11,160 dann mittelst Du über alle diese. 32 00:01:11,160 --> 00:01:12,900 Zum Mitteln, summierst Du alle auf. 33 00:01:12,900 --> 00:01:14,200 Das geht von i gleich 1. 34 00:01:14,200 --> 00:01:17,700 Also vom ersten Punkt, ganz bis zum n-ten Punkt. 35 00:01:17,700 --> 00:01:19,940 Und dann, zum Mitteln, summierst Du alle auf und 36 00:01:19,940 --> 00:01:21,970 teilst das durch n. 37 00:01:21,970 --> 00:01:25,970 Die Varianz ist also das Mittel all dieser quadrierten Distanzen 38 00:01:25,970 --> 00:01:27,390 von jedem Punkt und dem Mittelwert. 39 00:01:27,390 --> 00:01:29,700 Und nur um eine Intuition zu haben, das bedeutet, 40 00:01:29,700 --> 00:01:32,920 wie weit weg ungefähr die Datenpunkte 41 00:01:32,920 --> 00:01:34,420 vom Mittelwert entfernt sind. 42 00:01:34,420 --> 00:01:36,250 So stellt man sich am besten die Varianz vor. 43 00:01:36,250 --> 00:01:37,640 Aber was, wenn wir... das hier war für 44 00:01:37,640 --> 00:01:39,140 eine Population, nicht wahr? 45 00:01:39,140 --> 00:01:42,050 Und wenn wir die Varianz der Körpergröße 46 00:01:42,050 --> 00:01:44,580 aller Männer im Land haben wollten, 47 00:01:44,580 --> 00:01:46,480 dann wäre das sehr schwierig. 48 00:01:46,480 --> 00:01:48,910 Man müsste im Grunde die Größe 49 00:01:48,910 --> 00:01:49,790 jedes Mannes messen. 50 00:01:49,790 --> 00:01:51,360 250 Millionen Menschen. 51 00:01:51,360 --> 00:01:55,080 Oder was wäre, wenn es um eine Population ginge, 52 00:01:55,080 --> 00:01:56,860 an deren Daten man unmöglich rankäme oder um 53 00:01:56,860 --> 00:01:57,640 eine Zufallsvariable. 54 00:01:57,640 --> 00:01:59,100 Dazu später mehr. 55 00:01:59,100 --> 00:02:02,660 Also in vielen Fällen will man diese Varianz nur abschätzen, 56 00:02:02,660 --> 00:02:04,690 indem man die Varianz einer Stichprobe nimmt. 57 00:02:04,690 --> 00:02:07,420 Genauso wie man niemals den Mittelwert einer Population messen kann, 58 00:02:07,420 --> 00:02:09,570 aber vielleicht will man den abschätzen, indem man 59 00:02:09,570 --> 00:02:11,064 den Mittelwert einer Stichprobe nimmt. 60 00:02:11,064 --> 00:02:13,890 Das haben wir im ersten Video gelernt. 61 00:02:13,890 --> 00:02:17,520 Wenn das hier die ganze Population ist. 62 00:02:17,520 --> 00:02:20,280 Das sind Millionen von Datenpunkten, sogar Datenpunkte, 63 00:02:20,280 --> 00:02:21,870 die in der Zukunft liegen, die Du niemals bekommst, 64 00:02:21,870 --> 00:02:23,290 weil es eine Zufallsvariable ist. 65 00:02:23,290 --> 00:02:24,243 Das ist also die Population. 66 00:02:24,243 --> 00:02:26,920 . 67 00:02:26,920 --> 00:02:32,390 Du willst vielleicht nur eine Schätzung, indem Du eine Stichprobe nimmst. 68 00:02:32,390 --> 00:02:35,020 Darum geht es im Grunde bei der 69 00:02:35,020 --> 00:02:36,360 induktiven Statistik. 70 00:02:36,360 --> 00:02:38,720 Dass man deskriptive Statistikwerte einer Stichprobe herausfindet 71 00:02:38,720 --> 00:02:40,890 und daraus Schlüsse über die Population zieht. 72 00:02:40,890 --> 00:02:44,610 Lass uns diese Medizin bei 100 Leuten ausprobieren und 73 00:02:44,610 --> 00:02:46,880 wenn es statistisch signifikante Ergebnisse bringt, 74 00:02:46,880 --> 00:02:48,850 wird die Medizin wahrscheinlich auch bei der ganzen Population wirken. 75 00:02:48,850 --> 00:02:49,800 Darum geht's im Grunde. 76 00:02:49,800 --> 00:02:51,920 Es ist also echt wichtig, den Unterschied zwischen 77 00:02:51,920 --> 00:02:53,580 Stichprobe und Population zu verstehen. 78 00:02:53,580 --> 00:02:57,510 Und wenn man statistische Werte über eine Stichprobe findet, 79 00:02:57,510 --> 00:03:00,160 die die Population größtenteils beschreiben können oder 80 00:03:00,160 --> 00:03:03,720 abschätzen können, dann nennen wir diese Werte Parameter für die Population. 81 00:03:03,720 --> 00:03:07,330 Was ist also der Mittelwert von ... ich schreib diese Definitionen neu. 82 00:03:07,330 --> 00:03:08,830 Was ist der Mittelwert einer Population? 83 00:03:08,830 --> 00:03:09,940 Ich mach das mal in lila. 84 00:03:09,940 --> 00:03:11,630 Lila für Population. 85 00:03:11,630 --> 00:03:13,680 Der Mittelwert einer Population. 86 00:03:13,680 --> 00:03:19,700 Du nimmst jeden Datenpunkt in der Population, x i. 87 00:03:19,700 --> 00:03:21,850 Summierst sie auf. 88 00:03:21,850 --> 00:03:23,830 Du beginnst mit dem ersten Punkt und gehst durch 89 00:03:23,830 --> 00:03:25,620 bis zum n-ten Punkt. 90 00:03:25,620 --> 00:03:26,740 Und teilst durch n. 91 00:03:26,740 --> 00:03:27,800 Alles aufsummierren und durch n teilen. 92 00:03:27,800 --> 00:03:28,920 Das ist der Mittelwert. 93 00:03:28,920 --> 00:03:30,500 Dann fügen wir das in die Formel ein. 94 00:03:30,500 --> 00:03:33,060 Und Du kannst sehen, wie weit jeder Punkt vom 95 00:03:33,060 --> 00:03:34,270 zentralen Punkt entfernt ist, vom Mittelwert. 96 00:03:34,270 --> 00:03:36,260 Und man bekommt die Varianz. 97 00:03:36,260 --> 00:03:39,670 Was passiert jetzt bei einer Stichprobe? 98 00:03:39,670 --> 00:03:43,350 Naja, wenn wir den Mittelwert einer Population abschätzen wollen, 99 00:03:43,350 --> 00:03:46,600 indem wir den Mittelwert für einer Stichprobe berechnen, dann 100 00:03:46,600 --> 00:03:49,170 ist es das Beste... und das sind alles menschengemachte Formeln. 101 00:03:49,170 --> 00:03:51,140 Irgendwelche Menschen haben sich gefragt, was ist 102 00:03:51,140 --> 00:03:51,710 der beste Weg das zu schätzen? 103 00:03:51,710 --> 00:03:54,550 Das beste, was wir tun können, ist den Mittelwert unserer Stichprobe zu nehmen. 104 00:03:54,550 --> 00:03:56,820 Und das ist dann der Stichproben-Mittelwert. 105 00:03:56,820 --> 00:03:58,920 Wir haben im ersten Video gelernt, dass diese Notation 106 00:03:58,920 --> 00:04:00,450 Die Formel ist fast identisch. 107 00:04:00,450 --> 00:04:01,540 Nur die Notation ist anders. 108 00:04:01,540 --> 00:04:04,990 Statt Mü schreibt man x mit einem Strich darauf. 109 00:04:04,990 --> 00:04:08,620 Stichproben-Mittelwert ist gleich - wieder nimmt man 110 00:04:08,620 --> 00:04:12,100 nur die Datenpunkte aus der Stichproben, nicht aus der ganzen Population. 111 00:04:12,100 --> 00:04:16,370 Du summierst sie, vom ersten bis 112 00:04:16,370 --> 00:04:17,380 zum n-ten, richtig? 113 00:04:17,380 --> 00:04:20,640 Man sagt, da sind n Datenpunkte in dieser Stichprobe. 114 00:04:20,640 --> 00:04:23,390 Und dann teilst du es durch die Anzahl der Datenpunkte. 115 00:04:23,390 --> 00:04:24,320 So weit, so gut. 116 00:04:24,320 --> 00:04:25,660 Es ist eigentlich die gleiche Formel. 117 00:04:25,660 --> 00:04:27,500 Wie ich den Mittelwert der Population gerechnet habe, ich sag mal, 118 00:04:27,500 --> 00:04:29,590 wenn ich nur eine Stichprobe habe, lass mich den Mittelwert genauso berechnen. 119 00:04:29,590 --> 00:04:32,560 Dann ist das wohl eine gute Schätzung des Mittelwerts 120 00:04:32,560 --> 00:04:33,930 der Population. 121 00:04:33,930 --> 00:04:36,340 Bei der Varianz wird's jetzt spannend. 122 00:04:36,340 --> 00:04:39,250 Die normale Reaktion wäre: OK, ich hab diese Stichprobe 123 00:04:39,250 --> 00:04:43,260 und wenn ich die Varianz der Population schätzen will, 124 00:04:43,260 --> 00:04:45,230 warum wende ich nicht die gleiche Formel an 125 00:04:45,230 --> 00:04:46,150 aber eben über der Stichprobe? 126 00:04:46,150 --> 00:04:49,330 Das könnte ich sagen - und das ist dann tatsächlich die Stichproben-Varianz. 127 00:04:49,330 --> 00:04:54,570 Man verwendet s Quadrat. 128 00:04:54,570 --> 00:04:58,220 Sigma ist ein griechischer Buchstabe, der äquivalent zu s ist. 129 00:04:58,220 --> 00:04:59,980 Aber da wir hier mit der Stichprobe arbeiten, 130 00:04:59,980 --> 00:05:01,000 schreiben wir hier s. 131 00:05:01,000 --> 00:05:02,320 Das ist die Stichproben-Varianz. 132 00:05:02,320 --> 00:05:03,070 Ich schreib's mal hin. 133 00:05:03,070 --> 00:05:03,950 Stichproben-Varianz. 134 00:05:03,950 --> 00:05:11,860 . 135 00:05:11,860 --> 00:05:15,870 Wir könnten sagen, vielleicht ist es eine gute Idee, 136 00:05:15,870 --> 00:05:17,340 die Stichproben-Varianz auf die gleiche Weise zu rechnen. 137 00:05:17,340 --> 00:05:23,670 Wir nehmen die Distanz von jedem der Punkte in der Stichprobe. 138 00:05:23,670 --> 00:05:26,600 Finden raus, wie weit die sind vom Stichproben-Mittelwert. 139 00:05:26,600 --> 00:05:29,230 Hier haben die den Populations-Mittelwert benutzt, aber jetzt 140 00:05:29,230 --> 00:05:31,450 benutzen wir den Stichproben-Mittelwert, weil wir nur den haben. 141 00:05:31,450 --> 00:05:33,160 Den Populations-Mittelwert kennen wir nicht 142 00:05:33,160 --> 00:05:35,510 ohne die ganze Population einzubeziehen. 143 00:05:35,510 --> 00:05:36,400 Nimm das zum Quadrat. 144 00:05:36,400 --> 00:05:38,160 Das macht es positiv und es weitere Eigenschaften, 145 00:05:38,160 --> 00:05:40,160 auf die ich später komme. 146 00:05:40,160 --> 00:05:42,730 Dann nimm den Durchschnitt von allen diesen quadierten Distanzen. 147 00:05:42,730 --> 00:05:44,970 Summierst alle auf. 148 00:05:44,970 --> 00:05:47,430 Es gibt n davon, richtig? 149 00:05:47,430 --> 00:05:48,400 klein-n. 150 00:05:48,400 --> 00:05:51,820 Du teilst durch klein-n. 151 00:05:51,820 --> 00:05:53,230 Und du findest, das ist eine gute Schätzung. 152 00:05:53,230 --> 00:05:55,580 Was auch immer die wahre Varianz ist, das könnte eine gute Schätzung sein 153 00:05:55,580 --> 00:05:56,720 für die gesamte Population. 154 00:05:56,720 --> 00:06:00,620 Das ist das, worüber die Leute reden, wenn sie 155 00:06:00,620 --> 00:06:01,980 von Stichproben-Varianz sprechen. 156 00:06:01,980 --> 00:06:05,260 Manchmal wird man darauf verwiesen. 157 00:06:05,260 --> 00:06:07,520 Man schreibt ein klein-n hinein. 158 00:06:07,520 --> 00:06:09,840 Der Grund ist, wir haben durch n geteilt. 159 00:06:09,840 --> 00:06:11,840 Du fragst vielleicht: Sal, was ist das Problem? 160 00:06:11,840 --> 00:06:14,000 Und das Problem... ich versuch mal, einen Eindruck zu vermitteln, 161 00:06:14,000 --> 00:06:16,180 das hat mich wirklich immer etwas verwirrt. 162 00:06:16,180 --> 00:06:19,340 Und selbst jetzt muss ich manchmal mit mir ringen, 163 00:06:19,340 --> 00:06:21,530 um die Idee dahinter zu begreifen. 164 00:06:21,530 --> 00:06:24,510 Ich habe so eine Idee, aber das etwas formaler 165 00:06:24,510 --> 00:06:26,950 zu beweisen, dass das wirklich stimmt... 166 00:06:26,950 --> 00:06:28,280 Stellt Euch das so vor. 167 00:06:28,280 --> 00:06:29,905 Wenn ich ein paar Zahlen habe 168 00:06:29,905 --> 00:06:32,740 und ich male einen Zahlenstrahl hier. 169 00:06:32,740 --> 00:06:35,740 Wenn ich eine Zahl eintrage - sagen wir, man weiß... 170 00:06:35,740 --> 00:06:39,430 Sagen wir ich habe ein paar Zahlen in meiner Population 171 00:06:39,430 --> 00:06:41,660 Sagen wir... ich schreibe jetzt zufällig ein paar 172 00:06:41,660 --> 00:06:44,280 Zahlen in meine Population. 173 00:06:44,280 --> 00:06:45,928 Und die auf der rechten Seite sind größer als die 174 00:06:45,928 --> 00:06:46,355 auf der linken Seite. 175 00:06:46,355 --> 00:06:48,900 . 176 00:06:48,900 --> 00:06:52,990 Wenn ich eine Stichprobe davon nehme, vielleicht .. 177 00:06:52,990 --> 00:06:54,820 Die Stichprobe ist zufällig. 178 00:06:54,820 --> 00:06:56,210 Man will wirklich eine zufällige Stichprobe nehmen. 179 00:06:56,210 --> 00:06:57,320 Man will nicht, dass das unausgeglichen ist. 180 00:06:57,320 --> 00:07:02,900 Vielleicht wähle ich diese Zahl, diese und diese 181 00:07:02,900 --> 00:07:05,420 und diese, OK? 182 00:07:05,420 --> 00:07:07,480 Wenn ich jetzt den Mittelwert dieser Zahl, 183 00:07:07,480 --> 00:07:08,460 dieser Zahl, dieser Zahl und dieser Zahl nehme, 184 00:07:08,460 --> 00:07:09,320 wird der irgendwo in der Mitte sein. 185 00:07:09,320 --> 00:07:11,010 Vielleicht irgendwo hier drüben. 186 00:07:11,010 --> 00:07:13,240 Und wenn ich die Stichproben-Varianz berechne 187 00:07:13,240 --> 00:07:16,780 mit dieser Formel, dann nehme ich diese Distanz zum Quadrat plus 188 00:07:16,780 --> 00:07:21,060 dieser Distanz zum Qudrat plus dieser Distanz zum Quadrat plus 189 00:07:21,060 --> 00:07:23,520 dieser Distanz zum Quadrat und mittle über alles. 190 00:07:23,520 --> 00:07:24,700 Dann würde ich diese Zahl bekommen 191 00:07:24,700 --> 00:07:27,820 und das wäre wohl eine recht gute Schätzung der 192 00:07:27,820 --> 00:07:30,260 Varianz der gesamten Population. 193 00:07:30,260 --> 00:07:32,070 Die Population des Mittelwerts ist möglicherweise 194 00:07:32,070 --> 00:07:33,030 weiß nicht 195 00:07:33,030 --> 00:07:35,020 Es könnte ziemlich ähnlich zu dem hier sein. 196 00:07:35,020 --> 00:07:37,150 Wenn wir alle Datenpunkte nehmen würden und dann das Mittel nähmen, 197 00:07:37,150 --> 00:07:39,060 dann wäre das vielleicht irgendwo hier. 198 00:07:39,060 --> 00:07:40,660 Und wenn du dann die Varianz ausrechnest, dann wäre das 199 00:07:40,660 --> 00:07:43,590 vielleicht recht nah am Mittelwert der ganzen Linien hier, ja? 200 00:07:43,590 --> 00:07:46,810 Von allen Varianz-Abständen der Stichprobe, ja? 201 00:07:46,810 --> 00:07:47,250 So weit, so gut. 202 00:07:47,250 --> 00:07:47,900 Jetzt sagst du, OK, Sal, 203 00:07:47,900 --> 00:07:49,710 sieht ja ganz gut aus, 204 00:07:49,710 --> 00:07:51,940 aber da ist ein Haken. 205 00:07:51,940 --> 00:07:54,560 Was ist denn... Es besteht immer die Möglichkeit, dass man 206 00:07:54,560 --> 00:07:56,990 nicht diese schön verteilten Zahlen als Stichprobe wählt, 207 00:07:56,990 --> 00:08:00,800 sondern, was passiert, wenn ich eben diese Zahl, diese Zahl 208 00:08:00,800 --> 00:08:03,920 und diese Zahl 209 00:08:03,920 --> 00:08:05,400 als Stichprobe wähle? 210 00:08:05,400 --> 00:08:08,370 Was auch immer deine Stichprobe ist, dein Stichproben-Mittelwert 211 00:08:08,370 --> 00:08:10,210 wird immer in der Mitte davon sein, ja? 212 00:08:10,210 --> 00:08:12,960 Also in diesem Fall ist dein Stichproben-Mittelwert hier. 213 00:08:12,960 --> 00:08:15,010 Und bei diesen Zahlen würde man jetzt sagen, OK, die Zahl hier 214 00:08:15,010 --> 00:08:17,810 ist nicht sehr weit von dieser Zahl entfernt und diese Zahl nicht sehr weit von jener und 215 00:08:17,810 --> 00:08:19,100 diese Zahl ist auch nicht weit. 216 00:08:19,100 --> 00:08:21,790 Also wird deine Stichproben-Varianz, wenn man's so macht, ziemlich 217 00:08:21,790 --> 00:08:23,610 niedrig sein. 218 00:08:23,610 --> 00:08:26,920 Einfach weil alle diese Zahlen ziemlich... 219 00:08:26,920 --> 00:08:28,920 ... ziemlich nah an ihrem Mittelwert 220 00:08:28,920 --> 00:08:30,350 sein werden. 221 00:08:30,350 --> 00:08:34,600 Aber in diesem Fall ist die Stichprobe irgendwie unausgeglichen und 222 00:08:34,600 --> 00:08:37,980 der wirkliche Mittelwert der Population ist ja irgendwo hier drüben. 223 00:08:37,980 --> 00:08:40,800 Also ist auch die wirkliche Varianz der Stichprobe, wenn man 224 00:08:40,800 --> 00:08:43,670 den echten Mittelwert wüsste - ich weiß, es klingt verwirrend - 225 00:08:43,670 --> 00:08:44,980 wenn du den echten Mittelwert wüsstest, würdest du sagen 226 00:08:44,980 --> 00:08:46,830 "Wow!". 227 00:08:46,830 --> 00:08:48,386 Du würdest dann diese Abstände hier sehen, die natürlich 228 00:08:48,386 --> 00:08:51,320 viel größer wären. 229 00:08:51,320 --> 00:08:53,640 Warum ich das alles erzähle ist, wenn du 230 00:08:53,640 --> 00:08:58,280 eine Stichprobe nimmst, dann ist es möglich, dass dein Stichproben-Mittelwert 231 00:08:58,280 --> 00:09:00,380 dem Populations-Mittelwert sehr ähnlich ist, ja? 232 00:09:00,380 --> 00:09:02,610 Der Stichproben-Mittelwert ist vielleicht hier und der 233 00:09:02,610 --> 00:09:03,360 Populations-Mittelwert hier. 234 00:09:03,360 --> 00:09:05,770 Und dann funktioniert diese Formel ganz wunderbar, 235 00:09:05,770 --> 00:09:07,770 jedenfalls, was die Stichprobenpunkte betrifft und was das 236 00:09:07,770 --> 00:09:09,280 Berechnen der Varianz betrifft. 237 00:09:09,280 --> 00:09:14,240 Aber es kann auch sein, dass dein Stichproben-Mittelwert... 238 00:09:14,240 --> 00:09:16,730 also die Stichprobe ist immer in den Daten enthalten, ja? 239 00:09:16,730 --> 00:09:18,740 Der Mittelwert ist immer in der Mitte der Stichproben-Daten. 240 00:09:18,740 --> 00:09:21,470 Aber es ist durchaus möglich, dass der Populations-Mittelwert 241 00:09:21,470 --> 00:09:22,590 außerhalb der Stichproben-Daten liegt. 242 00:09:22,590 --> 00:09:24,750 Es kann einfach sein, dass du Werte gewählt hast, 243 00:09:24,750 --> 00:09:28,110 die nicht den eigentlichen Populations-Mittelwert enthalten. 244 00:09:28,110 --> 00:09:31,670 Und wenn du dann die Stichproben-Varianz auf diesem Weg berechnest, 245 00:09:31,670 --> 00:09:34,990 dann unterschätzt du die eigentliche 246 00:09:34,990 --> 00:09:36,240 Populations-Varianz, richtig? 247 00:09:36,240 --> 00:09:38,230 Einfach, weil sie immer näher am eigenen Mittelwert sein werden 248 00:09:38,230 --> 00:09:39,960 als am Mittelwert der Population. 249 00:09:39,960 --> 00:09:43,460 Und wenn du nur 10% von all dem hier verstehst, 250 00:09:43,460 --> 00:09:45,770 dann bist du bereits ein Student fortgeschrittener Statistik. 251 00:09:45,770 --> 00:09:49,120 Ich erzähle all das nur, um dir - hoffentlich - 252 00:09:49,120 --> 00:09:53,500 eine Ahnung davon zu geben, da das hier häufig... 253 00:09:53,500 --> 00:09:57,240 diese Formel wird häufig die eigentliche Varianz der Population 254 00:09:57,240 --> 00:09:59,110 unterschätzen. 255 00:09:59,110 --> 00:10:01,420 Und es gibt eine Formel - und das wurde tatsächlich richtig 256 00:10:01,420 --> 00:10:04,740 bewiesen - eine Formel, die eine bessere Schätzung, 257 00:10:04,740 --> 00:10:08,000 oder sagen wir eine ausgeglichenere Schätzung der 258 00:10:08,000 --> 00:10:09,030 Populations-Varianz darstellt. 259 00:10:09,030 --> 00:10:11,390 Oder auch die ausgeglichene Stichproben-Varianz. 260 00:10:11,390 --> 00:10:14,160 Und manchmal wird es einfach als s Quadrat geschrieben, 261 00:10:14,160 --> 00:10:18,930 manchmal als s Index n-1 zum Quadrat. 262 00:10:18,930 --> 00:10:20,720 Und ich zeig euch warum. 263 00:10:20,720 --> 00:10:22,340 Es ist fast das gleiche. 264 00:10:22,340 --> 00:10:24,730 Du nimmst jeden Datenpunkt, schaust, wie weit sie 265 00:10:24,730 --> 00:10:28,170 vom Stichproben-Mittelwert weg sind 266 00:10:28,170 --> 00:10:28,900 und quadrierst das. 267 00:10:28,900 --> 00:10:31,830 Und dann nimmst du das Mittel dieser quadrierten Werte, 268 00:10:31,830 --> 00:10:33,430 mit einem kleinen Unterschied: 269 00:10:33,430 --> 00:10:35,720 i gleich 1 bis i gleich n... 270 00:10:35,720 --> 00:10:39,370 statt durch n zu teilen, teilst du durch eine etwas 271 00:10:39,370 --> 00:10:41,920 kleinere Zahl. 272 00:10:41,920 --> 00:10:44,350 Du teilst durch n minus 1. 273 00:10:44,350 --> 00:10:46,880 Wenn du durch n minus 1 teilst anstatt durch n zu teilen, 274 00:10:46,880 --> 00:10:49,590 wirst du ein etwas größeres Ergebnis bekommen. 275 00:10:49,590 --> 00:10:51,060 Und es stellt sich heraus, dass das 276 00:10:51,060 --> 00:10:52,260 tatsächlich eine viel bessere Schätzung ist. 277 00:10:52,260 --> 00:10:54,810 Und eines Tages werde ich ein Computerprogramm schreiben, 278 00:10:54,810 --> 00:10:57,430 um mir das experimentell zu beweisen, dass das 279 00:10:57,430 --> 00:11:01,750 eine bessere Abschätzung der Populations-Varianz ist. 280 00:11:01,750 --> 00:11:03,430 Und man berechnet das auf die gleiche Weise, nur dass 281 00:11:03,430 --> 00:11:05,270 man durch n minus 1 dividiert. 282 00:11:05,270 --> 00:11:07,450 Man kann das auch so erklären... aber nein, 283 00:11:07,450 --> 00:11:08,340 ich habe keine Zeit mehr. 284 00:11:08,340 --> 00:11:09,500 Wir belassen es erstmal dabei. 285 00:11:09,500 --> 00:11:10,710 Und im nächsten Video machen wir ein paar 286 00:11:10,710 --> 00:11:12,590 Rechnungen, dass ihr nicht zu sehr von der Theorie 287 00:11:12,590 --> 00:11:13,270 erschlagen werdet. 288 00:11:13,270 --> 00:11:14,810 Weil wir doch recht abstrakt geworden sind. 289 00:11:14,810 --> 00:11:16,660 Bis zum nächsten Video. 290 00:11:16,660 --> 00:11:17,000 .