0:00:00.441,0:00:07.657 In diesem und folgenden Videos werden wir ein paar Berechnungen mit diesem Datensatz hier machen. 0:00:07.657,0:00:12.608 Und hoffentlich gibt euch diese Übung ein Gefühl dafür, worum es bei der Varianzanalyse geht. 0:00:12.608,0:00:18.941 Als erstes möchte ich die gesamte Quadratsumme berechnen. 0:00:18.941,0:00:27.455 Die sogenannte SST ("sums of squares total").[br]Ihr könnt das als den Zähler ansehen, wenn es an die 0:00:27.455,0:00:31.576 Berechnung der Varianz geht. Wir nehmen also die Distanz zwischen jedem dieser Datenpunkte 0:00:31.576,0:00:36.078 und den Mittelwert all dieser Datenpunkte, quadrieren sie und summieren sie auf. Wir teilen 0:00:36.078,0:00:40.732 nicht durch den Freiheitsgrad, wie man es normalerweise bei der Berechnung der Stichprobenvarianz macht. 0:00:40.763,0:00:45.279 Wie gehen wir das an? Zuerst müssen wir den Mittelwert 0:00:45.279,0:00:49.692 all dieser Zahlen berechnen. Ich werde das "grand Mittel" nennen. 0:00:49.692,0:00:53.359 Ich werde das "grand Mittel" nennen. Und gleich seht ihr, dass es das gleiche ist, 0:00:53.359,0:00:59.013 wie der Mittelwert der Mittelwerte dieser Datensätze. 0:00:59.013,0:01:16.152 Also lasst uns das "grand Mittel" (den übergeordneten Mittelwert) berechnen. 0:01:16.152,0:01:22.102 Insgesamt sind das neun Datenpunkte, also werden wir durch neun teilen. 0:01:22.102,0:01:30.354 Was kommt dabei raus, wenn wir die Zahlen addieren? 3+2+1... 0:01:30.385,0:01:43.944 ...+5+6+7 = 36 0:01:43.944,0:01:50.241 Und 36 geteilt durch 9 = 4. Und das ist der Mittelwert der Mittelwerte der drei Datensätze. 0:01:50.302,0:01:57.056 Der Mittelwert dieser grünen Gruppe hier links 0:01:57.056,0:02:03.856 ist 3 + 2 + 1 = 6. Und 6 geteilt durch 3 Datenpunkte ist gleich 2. 0:02:03.856,0:02:12.677 Der Mittelwert der Gruppe 2... Die Summe hier ist 12, denn 5 plus 3 plus 4 ist 12. 0:02:12.677,0:02:21.846 Und 12 geteilt durch 3 ist 4. Denn wir haben drei Datenpunkte. Und der Mittelwert der Gruppe 3: 5 + 6 + 7 = 18. 0:02:21.846,0:02:27.256 18 geteilt durch 3 ist 6. Also, wenn wir den Mittelwert der Mittel nehmen wollen 0:02:27.256,0:02:31.015 also das "grand Mittel", dann haben wir 2+4+6 = 12 0:02:31.015,0:02:35.892 Und 12 geteilt durch 3 ist 4 - wie wir vorhin schon gerechnet haben.. 0:02:35.892,0:02:38.933 Man kann es also als übergeordneten Mittelwert über alle Daten sehen 0:02:38.933,0:02:43.600 oder als Mittelwert der Mittelwerte jeder Gruppe. Und da wir den MIttelwert jetzt berechnet haben 0:02:43.600,0:02:48.836 können wir nun die Quadratsummen berechnen. [br]Los geht's. 0:02:48.836,0:02:57.887 SST ("sums of squares total") entspricht 3 -4... diese 4, die wir gerade berechnet haben... zum Quadrat 0:02:57.887,0:03:05.667 SST = (3-4)^2 + (2 - 4)^2 + (1-4)^2...und jetzt kommen die lila Zahlen... 0:03:05.667,0:03:16.031 ...+ (5-4)^2 + (3-4)^2 + (4-4)^2 0:03:16.031,0:03:20.667 ...+ (5-4)^2 + (3-4)^2 + (4-4)^2[br]Jetzt fehlen noch die letzten drei.... 0:03:20.667,0:03:32.887 ...+ (5-4)^2 + (6-4)^2 + (7-4)^2. [br]Und was kommt dabei raus? 0:03:32.887,0:03:38.436 Das erste hier, 3 minus 4, ist gleich 1.... 0:03:38.436,0:03:42.200 ...also eigentlich gleich -1, [br]und das zum Quadrat ist 1. 0:03:42.200,0:03:51.000 Plus -2 zum Quadrat ist gleich 4, [br]plus -3 zum Quadrat ist 9. 0:03:51.000,0:03:57.698 Und hier in Magenta haben wir: 5-4=1, zum Quadrat immer noch 1. (3-4)^2 ist 1. 0:03:57.698,0:04:03.210 Und 4-4 ist 0, also schreiben wir die 0 hier hin 0:04:03.210,0:04:06.985 nur um zu sehen, dass wir das wirklich gerechnet haben. Und jetzt zu den letzten Datenpunkten. 0:04:06.985,0:04:16.667 5 minus 4 zum Quadrat ist 1. 6 minus 4 zum Quadrat ist 4. 7 minus 4 ist 3, ... 0:04:16.667,0:04:24.952 ...zum Quadrat ist 9. Wir haben also 1 plus 4 plus 9. 0:04:25.629,0:04:33.436 Und 1 plus 4 plus 9, also 5 plus 9, das gibt 14. 0:04:33.436,0:04:39.638 Genau, 14. Und wir haben noch mal 14 genau hier, denn hier haben wir auch 1 plus 4 plus 9. 0:04:39.638,0:04:43.632 also ist das hier auch 14. Und dann haben wir hier noch 2 0:04:43.632,0:04:55.056 14 mal 2, also 14 plus 14 ist 28, plus 2 ist 30. Unser SST ("sums of squares total") ist also 30. 0:04:55.056,0:04:59.561 Und um die Varianz zu berechnen, würden wir das einfach durch die Freiheitsgrade teilen. 0:04:59.561,0:05:05.551 Und das hier ist ein Vielfaches der Freiheitsgrade hier. Sagen wir also, wir haben 0:05:05.551,0:05:11.031 sagen wir wir haben m Gruppen hier. Und ich 0:05:11.031,0:05:14.236 werde hier nicht den kompletten Beweis führen, aber 0:05:14.236,0:05:18.740 ich will euch zeigen, wo diese seltsamen Formeln herkommen, die in Statistik auftauchen. 0:05:18.740,0:05:25.667 Ich will nicht den kompletten Beweis führen, sondern euch nur ein Gefühl dafür geben. Wir haben also m Gruppen 0:05:25.667,0:05:34.344 und jede Gruppe hat n Elemente. Wie viele Elemente haben wir also insgesamt? 0:05:34.344,0:05:41.498 Nun, wir haben m mal n oder 9, richtig? 3 mal 3 Elemente. an Freiheitsgraden 0:05:41.498,0:05:47.800 haben wir also genauso viele wie Datenpunkte minus 1 Freiheitsgrad. 0:05:47.800,0:05:52.800 Denn wenn ihr den Mittelwert der Mittelwerte kennen würdet, also angenommen, ihr würdet ihn kennen, 0:05:52.800,0:05:59.323 dann würdet ihr nur durch 9 minus 1, also durch 8 dieser Datenpunkte neue Informationen erhalten 0:05:59.323,0:06:04.471 denn den neunten Datenpunkt könnten ihr aus den anderen selbst errechnen. 0:06:04.471,0:06:09.824 denn den neunten Datenpunkt könnten ihr aus den anderen selbst errechnen. 0:06:09.824,0:06:16.600 Den 9. könntet ihr über den MIttelwert der Mittelwert und die anderen acht berechnen. Es gibt also nur 0:06:16.600,0:06:22.883 acht unabhängige Messwerte hier. Oder genereller gesprochen: Es gibt 0:06:22.883,0:06:30.397 m mal n (also die Gesamtzahl der Datenpunkte) minus 1 Freiheitsgrade. 0:06:33.720,0:06:41.810 Und um die Varianz zu berechnen, würden wir einfach die 30 durch m mal n -1 teilen. 0:06:41.810,0:06:47.077 Oder anders gesagt: Ihr teilt die 30 durch die 8 Freiheitsgrade 0:06:47.077,0:06:53.000 und damit habt ihr die varianz für diese gesamte Gruppe an neun Messwerten. 0:06:53.000,0:06:58.533 Ich belasse es in diesem Video dabei. Im nächsten Video versuchen wir herauszufinden, wie viel dieser 0:06:58.533,0:07:08.333 Gesamtvarianz, also dieser gesamten Quadratsummen, der gesamten Abweichung durch die Variation 0:07:08.333,0:07:14.313 innerhalb dieser Gruppen versus der Variation zwischen der Gruppen kommt. Und ich denke 0:07:14.313,0:07:19.667 ihr werdet ein Gefühl dafür bekommen, worum es bei dieser Varianzanalyse geht. Es gibt Varianz innerhalb 0:07:19.667,0:07:24.800 der gesamten Stichprobe (also der neun Datenpunkte), aber ein Teil der Varianz könnte 0:07:24.800,0:07:31.267 auch daher kommen, dass die drei Gruppen unterschiedlich sind. Es geht also darum, die Varianz innerhalb der Gruppen 0:07:31.267,0:07:34.564 und die Varianz zwischen den Gruppen zu berechnen. Und wenn wir das machen, werden wir sehen, dass sie sich 0:07:34.579,99:59:59.999 zu unserer Gesamtvarianz aufsummieren.