. Das Video hier ist etwas besonderes aus verschiedenen Gründen. Erstens: ich zeige Euch die Varianz einer Stichprobe, was allein schon interessant ist, und ich versuche, das Video hier in HD aufzunehmen. Und Ihr seht das hoffentlich größer und schärfer als je zuvor. Naja, wir werden sehen. Ist also alles ein bisschen ein Experiment, ich bitte um Geduld. Bevor wir die Varianz einer Stichprobe behandeln, wäre es sinnvoll, die Varianz einer Population zu wiederholen. Dann können wir die Formeln vergleichen. Die Varianz einer Population - das hier ist der griechische Buchstabe Sigma. Klein-Sigma zum Quadrat. Das ist die Varianz. Ich weiß, das ist komisch, dass eine Variable direkt schon quadriert daherkommt. Aber man nimmt hier nicht das Quadrat, sondern die Variable ist eben Sigma Quadrat. Sigma Quadrat heißt Varianz. Ich schreib's mal hin. Das ist die Varianz. . Und das ist gleich... Du nimmst jeden Datenpunkt.... wir nennen die x Index i. Du nimmst jeden Datenpunkt, schaust, wie weit der von dem Mittelwert der Population weg ist, quadrierst das und dann mittelst Du über alle diese. Zum Mitteln, summierst Du alle auf. Das geht von i gleich 1. Also vom ersten Punkt, ganz bis zum n-ten Punkt. Und dann, zum Mitteln, summierst Du alle auf und teilst das durch n. Die Varianz ist also das Mittel all dieser quadrierten Distanzen von jedem Punkt und dem Mittelwert. Und nur um eine Intuition zu haben, das bedeutet, wie weit weg ungefähr die Datenpunkte vom Mittelwert entfernt sind. So stellt man sich am besten die Varianz vor. Aber was, wenn wir... das hier war für eine Population, nicht wahr? Und wenn wir die Varianz der Körpergröße aller Männer im Land haben wollten, dann wäre das sehr schwierig. Man müsste im Grunde die Größe jedes Mannes messen. 250 Millionen Menschen. Oder was wäre, wenn es um eine Population ginge, an deren Daten man unmöglich rankäme oder um eine Zufallsvariable. Dazu später mehr. Also in vielen Fällen will man diese Varianz nur abschätzen, indem man die Varianz einer Stichprobe nimmt. Genauso wie man niemals den Mittelwert einer Population messen kann, aber vielleicht will man den abschätzen, indem man den Mittelwert einer Stichprobe nimmt. Das haben wir im ersten Video gelernt. Wenn das hier die ganze Population ist. Das sind Millionen von Datenpunkten, sogar Datenpunkte, die in der Zukunft liegen, die Du niemals bekommst, weil es eine Zufallsvariable ist. Das ist also die Population. . Du willst vielleicht nur eine Schätzung, indem Du eine Stichprobe nimmst. Darum geht es im Grunde bei der induktiven Statistik. Dass man deskriptive Statistikwerte einer Stichprobe herausfindet und daraus Schlüsse über die Population zieht. Lass uns diese Medizin bei 100 Leuten ausprobieren und wenn es statistisch signifikante Ergebnisse bringt, wird die Medizin wahrscheinlich auch bei der ganzen Population wirken. Darum geht's im Grunde. Es ist also echt wichtig, den Unterschied zwischen Stichprobe und Population zu verstehen. Und wenn man statistische Werte über eine Stichprobe findet, die die Population größtenteils beschreiben können oder abschätzen können, dann nennen wir diese Werte Parameter für die Population. Was ist also der Mittelwert von ... ich schreib diese Definitionen neu. Was ist der Mittelwert einer Population? Ich mach das mal in lila. Lila für Population. Der Mittelwert einer Population. Du nimmst jeden Datenpunkt in der Population, x i. Summierst sie auf. Du beginnst mit dem ersten Punkt und gehst durch bis zum n-ten Punkt. Und teilst durch n. Alles aufsummierren und durch n teilen. Das ist der Mittelwert. Dann fügen wir das in die Formel ein. Und Du kannst sehen, wie weit jeder Punkt vom zentralen Punkt entfernt ist, vom Mittelwert. Und man bekommt die Varianz. Was passiert jetzt bei einer Stichprobe? Naja, wenn wir den Mittelwert einer Population abschätzen wollen, indem wir den Mittelwert für einer Stichprobe berechnen, dann ist es das Beste... und das sind alles menschengemachte Formeln. Irgendwelche Menschen haben sich gefragt, was ist der beste Weg das zu schätzen? Das beste, was wir tun können, ist den Mittelwert unserer Stichprobe zu nehmen. Und das ist dann der Stichproben-Mittelwert. Wir haben im ersten Video gelernt, dass diese Notation Die Formel ist fast identisch. Nur die Notation ist anders. Statt Mü schreibt man x mit einem Strich darauf. Stichproben-Mittelwert ist gleich - wieder nimmt man nur die Datenpunkte aus der Stichproben, nicht aus der ganzen Population. Du summierst sie, vom ersten bis zum n-ten, richtig? Man sagt, da sind n Datenpunkte in dieser Stichprobe. Und dann teilst du es durch die Anzahl der Datenpunkte. So weit, so gut. Es ist eigentlich die gleiche Formel. Wie ich den Mittelwert der Population gerechnet habe, ich sag mal, wenn ich nur eine Stichprobe habe, lass mich den Mittelwert genauso berechnen. Dann ist das wohl eine gute Schätzung des Mittelwerts der Population. Bei der Varianz wird's jetzt spannend. Die normale Reaktion wäre: OK, ich hab diese Stichprobe und wenn ich die Varianz der Population schätzen will, warum wende ich nicht die gleiche Formel an aber eben über der Stichprobe? Das könnte ich sagen - und das ist dann tatsächlich die Stichproben-Varianz. Man verwendet s Quadrat. Sigma ist ein griechischer Buchstabe, der äquivalent zu s ist. Aber da wir hier mit der Stichprobe arbeiten, schreiben wir hier s. Das ist die Stichproben-Varianz. Ich schreib's mal hin. Stichproben-Varianz. . Wir könnten sagen, vielleicht ist es eine gute Idee, die Stichproben-Varianz auf die gleiche Weise zu rechnen. Wir nehmen die Distanz von jedem der Punkte in der Stichprobe. Finden raus, wie weit die sind vom Stichproben-Mittelwert. Hier haben die den Populations-Mittelwert benutzt, aber jetzt benutzen wir den Stichproben-Mittelwert, weil wir nur den haben. Den Populations-Mittelwert kennen wir nicht ohne die ganze Population einzubeziehen. Nimm das zum Quadrat. Das macht es positiv und es weitere Eigenschaften, auf die ich später komme. Dann nimm den Durchschnitt von allen diesen quadierten Distanzen. Summierst alle auf. Es gibt n davon, richtig? klein-n. Du teilst durch klein-n. Und du findest, das ist eine gute Schätzung. Was auch immer die wahre Varianz ist, das könnte eine gute Schätzung sein für die gesamte Population. Das ist das, worüber die Leute reden, wenn sie von Stichproben-Varianz sprechen. Manchmal wird man darauf verwiesen. Man schreibt ein klein-n hinein. Der Grund ist, wir haben durch n geteilt. Du fragst vielleicht: Sal, was ist das Problem? Und das Problem... ich versuch mal, einen Eindruck zu vermitteln, das hat mich wirklich immer etwas verwirrt. Und selbst jetzt muss ich manchmal mit mir ringen, um die Idee dahinter zu begreifen. Ich habe so eine Idee, aber das etwas formaler zu beweisen, dass das wirklich stimmt... Stellt Euch das so vor. Wenn ich ein paar Zahlen habe und ich male einen Zahlenstrahl hier. Wenn ich eine Zahl eintrage - sagen wir, man weiß... Sagen wir ich habe ein paar Zahlen in meiner Population Sagen wir... ich schreibe jetzt zufällig ein paar Zahlen in meine Population. Und die auf der rechten Seite sind größer als die auf der linken Seite. . Wenn ich eine Stichprobe davon nehme, vielleicht .. Die Stichprobe ist zufällig. Man will wirklich eine zufällige Stichprobe nehmen. Man will nicht, dass das unausgeglichen ist. Vielleicht wähle ich diese Zahl, diese und diese und diese, OK? Wenn ich jetzt den Mittelwert dieser Zahl, dieser Zahl, dieser Zahl und dieser Zahl nehme, wird der irgendwo in der Mitte sein. Vielleicht irgendwo hier drüben. Und wenn ich die Stichproben-Varianz berechne mit dieser Formel, dann nehme ich diese Distanz zum Quadrat plus dieser Distanz zum Qudrat plus dieser Distanz zum Quadrat plus dieser Distanz zum Quadrat und mittle über alles. Dann würde ich diese Zahl bekommen und das wäre wohl eine recht gute Schätzung der Varianz der gesamten Population. Die Population des Mittelwerts ist möglicherweise weiß nicht Es könnte ziemlich ähnlich zu dem hier sein. Wenn wir alle Datenpunkte nehmen würden und dann das Mittel nähmen, dann wäre das vielleicht irgendwo hier. Und wenn du dann die Varianz ausrechnest, dann wäre das vielleicht recht nah am Mittelwert der ganzen Linien hier, ja? Von allen Varianz-Abständen der Stichprobe, ja? So weit, so gut. Jetzt sagst du, OK, Sal, sieht ja ganz gut aus, aber da ist ein Haken. Was ist denn... Es besteht immer die Möglichkeit, dass man nicht diese schön verteilten Zahlen als Stichprobe wählt, sondern, was passiert, wenn ich eben diese Zahl, diese Zahl und diese Zahl als Stichprobe wähle? Was auch immer deine Stichprobe ist, dein Stichproben-Mittelwert wird immer in der Mitte davon sein, ja? Also in diesem Fall ist dein Stichproben-Mittelwert hier. Und bei diesen Zahlen würde man jetzt sagen, OK, die Zahl hier ist nicht sehr weit von dieser Zahl entfernt und diese Zahl nicht sehr weit von jener und diese Zahl ist auch nicht weit. Also wird deine Stichproben-Varianz, wenn man's so macht, ziemlich niedrig sein. Einfach weil alle diese Zahlen ziemlich... ... ziemlich nah an ihrem Mittelwert sein werden. Aber in diesem Fall ist die Stichprobe irgendwie unausgeglichen und der wirkliche Mittelwert der Population ist ja irgendwo hier drüben. Also ist auch die wirkliche Varianz der Stichprobe, wenn man den echten Mittelwert wüsste - ich weiß, es klingt verwirrend - wenn du den echten Mittelwert wüsstest, würdest du sagen "Wow!". Du würdest dann diese Abstände hier sehen, die natürlich viel größer wären. Warum ich das alles erzähle ist, wenn du eine Stichprobe nimmst, dann ist es möglich, dass dein Stichproben-Mittelwert dem Populations-Mittelwert sehr ähnlich ist, ja? Der Stichproben-Mittelwert ist vielleicht hier und der Populations-Mittelwert hier. Und dann funktioniert diese Formel ganz wunderbar, jedenfalls, was die Stichprobenpunkte betrifft und was das Berechnen der Varianz betrifft. Aber es kann auch sein, dass dein Stichproben-Mittelwert... also die Stichprobe ist immer in den Daten enthalten, ja? Der Mittelwert ist immer in der Mitte der Stichproben-Daten. Aber es ist durchaus möglich, dass der Populations-Mittelwert außerhalb der Stichproben-Daten liegt. Es kann einfach sein, dass du Werte gewählt hast, die nicht den eigentlichen Populations-Mittelwert enthalten. Und wenn du dann die Stichproben-Varianz auf diesem Weg berechnest, dann unterschätzt du die eigentliche Populations-Varianz, richtig? Einfach, weil sie immer näher am eigenen Mittelwert sein werden als am Mittelwert der Population. Und wenn du nur 10% von all dem hier verstehst, dann bist du bereits ein Student fortgeschrittener Statistik. Ich erzähle all das nur, um dir - hoffentlich - eine Ahnung davon zu geben, da das hier häufig... diese Formel wird häufig die eigentliche Varianz der Population unterschätzen. Und es gibt eine Formel - und das wurde tatsächlich richtig bewiesen - eine Formel, die eine bessere Schätzung, oder sagen wir eine ausgeglichenere Schätzung der Populations-Varianz darstellt. Oder auch die ausgeglichene Stichproben-Varianz. Und manchmal wird es einfach als s Quadrat geschrieben, manchmal als s Index n-1 zum Quadrat. Und ich zeig euch warum. Es ist fast das gleiche. Du nimmst jeden Datenpunkt, schaust, wie weit sie vom Stichproben-Mittelwert weg sind und quadrierst das. Und dann nimmst du das Mittel dieser quadrierten Werte, mit einem kleinen Unterschied: i gleich 1 bis i gleich n... statt durch n zu teilen, teilst du durch eine etwas kleinere Zahl. Du teilst durch n minus 1. Wenn du durch n minus 1 teilst anstatt durch n zu teilen, wirst du ein etwas größeres Ergebnis bekommen. Und es stellt sich heraus, dass das tatsächlich eine viel bessere Schätzung ist. Und eines Tages werde ich ein Computerprogramm schreiben, um mir das experimentell zu beweisen, dass das eine bessere Abschätzung der Populations-Varianz ist. Und man berechnet das auf die gleiche Weise, nur dass man durch n minus 1 dividiert. Man kann das auch so erklären... aber nein, ich habe keine Zeit mehr. Wir belassen es erstmal dabei. Und im nächsten Video machen wir ein paar Rechnungen, dass ihr nicht zu sehr von der Theorie erschlagen werdet. Weil wir doch recht abstrakt geworden sind. Bis zum nächsten Video. .