1 00:00:00,441 --> 00:00:07,657 In diesem und folgenden Videos werden wir ein paar Berechnungen mit diesem Datensatz hier machen. 2 00:00:07,657 --> 00:00:12,608 Und hoffentlich gibt euch diese Übung ein Gefühl dafür, worum es bei der Varianzanalyse geht. 3 00:00:12,608 --> 00:00:18,941 Als erstes möchte ich die gesamte Quadratsumme berechnen. 4 00:00:18,941 --> 00:00:27,455 Die sogenannte SST ("sums of squares total"). Ihr könnt das als den Zähler ansehen, wenn es an die 5 00:00:27,455 --> 00:00:31,576 Berechnung der Varianz geht. Wir nehmen also die Distanz zwischen jedem dieser Datenpunkte 6 00:00:31,576 --> 00:00:36,078 und den Mittelwert all dieser Datenpunkte, quadrieren sie und summieren sie auf. Wir teilen 7 00:00:36,078 --> 00:00:40,732 nicht durch den Freiheitsgrad, wie man es normalerweise bei der Berechnung der Stichprobenvarianz macht. 8 00:00:40,763 --> 00:00:45,279 Wie gehen wir das an? Zuerst müssen wir den Mittelwert 9 00:00:45,279 --> 00:00:49,692 all dieser Zahlen berechnen. Ich werde das "grand Mittel" nennen. 10 00:00:49,692 --> 00:00:53,359 Ich werde das "grand Mittel" nennen. Und gleich seht ihr, dass es das gleiche ist, 11 00:00:53,359 --> 00:00:59,013 wie der Mittelwert der Mittelwerte dieser Datensätze. 12 00:00:59,013 --> 00:01:16,152 Also lasst uns das "grand Mittel" (den übergeordneten Mittelwert) berechnen. 13 00:01:16,152 --> 00:01:22,102 Insgesamt sind das neun Datenpunkte, also werden wir durch neun teilen. 14 00:01:22,102 --> 00:01:30,354 Was kommt dabei raus, wenn wir die Zahlen addieren? 3+2+1... 15 00:01:30,385 --> 00:01:43,944 ...+5+6+7 = 36 16 00:01:43,944 --> 00:01:50,241 Und 36 geteilt durch 9 = 4. Und das ist der Mittelwert der Mittelwerte der drei Datensätze. 17 00:01:50,302 --> 00:01:57,056 Der Mittelwert dieser grünen Gruppe hier links 18 00:01:57,056 --> 00:02:03,856 ist 3 + 2 + 1 = 6. Und 6 geteilt durch 3 Datenpunkte ist gleich 2. 19 00:02:03,856 --> 00:02:12,677 Der Mittelwert der Gruppe 2... Die Summe hier ist 12, denn 5 plus 3 plus 4 ist 12. 20 00:02:12,677 --> 00:02:21,846 Und 12 geteilt durch 3 ist 4. Denn wir haben drei Datenpunkte. Und der Mittelwert der Gruppe 3: 5 + 6 + 7 = 18. 21 00:02:21,846 --> 00:02:27,256 18 geteilt durch 3 ist 6. Also, wenn wir den Mittelwert der Mittel nehmen wollen 22 00:02:27,256 --> 00:02:31,015 also das "grand Mittel", dann haben wir 2+4+6 = 12 23 00:02:31,015 --> 00:02:35,892 Und 12 geteilt durch 3 ist 4 - wie wir vorhin schon gerechnet haben.. 24 00:02:35,892 --> 00:02:38,933 Man kann es also als übergeordneten Mittelwert über alle Daten sehen 25 00:02:38,933 --> 00:02:43,600 oder als Mittelwert der Mittelwerte jeder Gruppe. Und da wir den MIttelwert jetzt berechnet haben 26 00:02:43,600 --> 00:02:48,836 können wir nun die Quadratsummen berechnen. Los geht's. 27 00:02:48,836 --> 00:02:57,887 SST ("sums of squares total") entspricht 3 -4... diese 4, die wir gerade berechnet haben... zum Quadrat 28 00:02:57,887 --> 00:03:05,667 SST = (3-4)^2 + (2 - 4)^2 + (1-4)^2...und jetzt kommen die lila Zahlen... 29 00:03:05,667 --> 00:03:16,031 ...+ (5-4)^2 + (3-4)^2 + (4-4)^2 30 00:03:16,031 --> 00:03:20,667 ...+ (5-4)^2 + (3-4)^2 + (4-4)^2 Jetzt fehlen noch die letzten drei.... 31 00:03:20,667 --> 00:03:32,887 ...+ (5-4)^2 + (6-4)^2 + (7-4)^2. Und was kommt dabei raus? 32 00:03:32,887 --> 00:03:38,436 Das erste hier, 3 minus 4, ist gleich 1.... 33 00:03:38,436 --> 00:03:42,200 ...also eigentlich gleich -1, und das zum Quadrat ist 1. 34 00:03:42,200 --> 00:03:51,000 Plus -2 zum Quadrat ist gleich 4, plus -3 zum Quadrat ist 9. 35 00:03:51,000 --> 00:03:57,698 Und hier in Magenta haben wir: 5-4=1, zum Quadrat immer noch 1. (3-4)^2 ist 1. 36 00:03:57,698 --> 00:04:03,210 Und 4-4 ist 0, also schreiben wir die 0 hier hin 37 00:04:03,210 --> 00:04:06,985 nur um zu sehen, dass wir das wirklich gerechnet haben. Und jetzt zu den letzten Datenpunkten. 38 00:04:06,985 --> 00:04:16,667 5 minus 4 zum Quadrat ist 1. 6 minus 4 zum Quadrat ist 4. 7 minus 4 ist 3, ... 39 00:04:16,667 --> 00:04:24,952 ...zum Quadrat ist 9. Wir haben also 1 plus 4 plus 9. 40 00:04:25,629 --> 00:04:33,436 Und 1 plus 4 plus 9, also 5 plus 9, das gibt 14. 41 00:04:33,436 --> 00:04:39,638 Genau, 14. Und wir haben noch mal 14 genau hier, denn hier haben wir auch 1 plus 4 plus 9. 42 00:04:39,638 --> 00:04:43,632 also ist das hier auch 14. Und dann haben wir hier noch 2 43 00:04:43,632 --> 00:04:55,056 14 mal 2, also 14 plus 14 ist 28, plus 2 ist 30. Unser SST ("sums of squares total") ist also 30. 44 00:04:55,056 --> 00:04:59,561 Und um die Varianz zu berechnen, würden wir das einfach durch die Freiheitsgrade teilen. 45 00:04:59,561 --> 00:05:05,551 Und das hier ist ein Vielfaches der Freiheitsgrade hier. Sagen wir also, wir haben 46 00:05:05,551 --> 00:05:11,031 sagen wir wir haben m Gruppen hier. Und ich 47 00:05:11,031 --> 00:05:14,236 werde hier nicht den kompletten Beweis führen, aber 48 00:05:14,236 --> 00:05:18,740 ich will euch zeigen, wo diese seltsamen Formeln herkommen, die in Statistik auftauchen. 49 00:05:18,740 --> 00:05:25,667 Ich will nicht den kompletten Beweis führen, sondern euch nur ein Gefühl dafür geben. Wir haben also m Gruppen 50 00:05:25,667 --> 00:05:34,344 und jede Gruppe hat n Elemente. Wie viele Elemente haben wir also insgesamt? 51 00:05:34,344 --> 00:05:41,498 Nun, wir haben m mal n oder 9, richtig? 3 mal 3 Elemente. an Freiheitsgraden 52 00:05:41,498 --> 00:05:47,800 haben wir also genauso viele wie Datenpunkte minus 1 Freiheitsgrad. 53 00:05:47,800 --> 00:05:52,800 Denn wenn ihr den Mittelwert der Mittelwerte kennen würdet, also angenommen, ihr würdet ihn kennen, 54 00:05:52,800 --> 00:05:59,323 dann würdet ihr nur durch 9 minus 1, also durch 8 dieser Datenpunkte neue Informationen erhalten 55 00:05:59,323 --> 00:06:04,471 denn den neunten Datenpunkt könnten ihr aus den anderen selbst errechnen. 56 00:06:04,471 --> 00:06:09,824 denn den neunten Datenpunkt könnten ihr aus den anderen selbst errechnen. 57 00:06:09,824 --> 00:06:16,600 Den 9. könntet ihr über den MIttelwert der Mittelwert und die anderen acht berechnen. Es gibt also nur 58 00:06:16,600 --> 00:06:22,883 acht unabhängige Messwerte hier. Oder genereller gesprochen: Es gibt 59 00:06:22,883 --> 00:06:30,397 m mal n (also die Gesamtzahl der Datenpunkte) minus 1 Freiheitsgrade. 60 00:06:33,720 --> 00:06:41,810 Und um die Varianz zu berechnen, würden wir einfach die 30 durch m mal n -1 teilen. 61 00:06:41,810 --> 00:06:47,077 Oder anders gesagt: Ihr teilt die 30 durch die 8 Freiheitsgrade 62 00:06:47,077 --> 00:06:53,000 und damit habt ihr die varianz für diese gesamte Gruppe an neun Messwerten. 63 00:06:53,000 --> 00:06:58,533 Ich belasse es in diesem Video dabei. Im nächsten Video versuchen wir herauszufinden, wie viel dieser 64 00:06:58,533 --> 00:07:08,333 Gesamtvarianz, also dieser gesamten Quadratsummen, der gesamten Abweichung durch die Variation 65 00:07:08,333 --> 00:07:14,313 innerhalb dieser Gruppen versus der Variation zwischen der Gruppen kommt. Und ich denke 66 00:07:14,313 --> 00:07:19,667 ihr werdet ein Gefühl dafür bekommen, worum es bei dieser Varianzanalyse geht. Es gibt Varianz innerhalb 67 00:07:19,667 --> 00:07:24,800 der gesamten Stichprobe (also der neun Datenpunkte), aber ein Teil der Varianz könnte 68 00:07:24,800 --> 00:07:31,267 auch daher kommen, dass die drei Gruppen unterschiedlich sind. Es geht also darum, die Varianz innerhalb der Gruppen 69 00:07:31,267 --> 00:07:34,564 und die Varianz zwischen den Gruppen zu berechnen. Und wenn wir das machen, werden wir sehen, dass sie sich 70 00:07:34,579 --> 99:59:59,999 zu unserer Gesamtvarianz aufsummieren.