WEBVTT 00:00:00.441 --> 00:00:07.657 In diesem und folgenden Videos werden wir ein paar Berechnungen mit diesem Datensatz hier machen. 00:00:07.657 --> 00:00:12.608 Und hoffentlich gibt euch diese Übung ein Gefühl dafür, worum es bei der Varianzanalyse geht. 00:00:12.608 --> 00:00:18.941 Als erstes möchte ich die gesamte Quadratsumme berechnen. 00:00:18.941 --> 00:00:27.455 Die sogenannte SST ("sums of squares total"). Ihr könnt das als den Zähler ansehen, wenn es an die 00:00:27.455 --> 00:00:31.576 Berechnung der Varianz geht. Wir nehmen also die Distanz zwischen jedem dieser Datenpunkte 00:00:31.576 --> 00:00:36.078 und den Mittelwert all dieser Datenpunkte, quadrieren sie und summieren sie auf. Wir teilen 00:00:36.078 --> 00:00:40.732 nicht durch den Freiheitsgrad, wie man es normalerweise bei der Berechnung der Stichprobenvarianz macht. 00:00:40.763 --> 00:00:45.279 Wie gehen wir das an? Zuerst müssen wir den Mittelwert 00:00:45.279 --> 00:00:49.692 all dieser Zahlen berechnen. Ich werde das "grand Mittel" nennen. 00:00:49.692 --> 00:00:53.359 Ich werde das "grand Mittel" nennen. Und gleich seht ihr, dass es das gleiche ist, 00:00:53.359 --> 00:00:59.013 wie der Mittelwert der Mittelwerte dieser Datensätze. 00:00:59.013 --> 00:01:16.152 Also lasst uns das "grand Mittel" (den übergeordneten Mittelwert) berechnen. 00:01:16.152 --> 00:01:22.102 Insgesamt sind das neun Datenpunkte, also werden wir durch neun teilen. 00:01:22.102 --> 00:01:30.354 Was kommt dabei raus, wenn wir die Zahlen addieren? 3+2+1... 00:01:30.385 --> 00:01:43.944 ...+5+6+7 = 36 00:01:43.944 --> 00:01:50.241 Und 36 geteilt durch 9 = 4. Und das ist der Mittelwert der Mittelwerte der drei Datensätze. 00:01:50.302 --> 00:01:57.056 Der Mittelwert dieser grünen Gruppe hier links 00:01:57.056 --> 00:02:03.856 ist 3 + 2 + 1 = 6. Und 6 geteilt durch 3 Datenpunkte ist gleich 2. 00:02:03.856 --> 00:02:12.677 Der Mittelwert der Gruppe 2... Die Summe hier ist 12, denn 5 plus 3 plus 4 ist 12. 00:02:12.677 --> 00:02:21.846 Und 12 geteilt durch 3 ist 4. Denn wir haben drei Datenpunkte. Und der Mittelwert der Gruppe 3: 5 + 6 + 7 = 18. 00:02:21.846 --> 00:02:27.256 18 geteilt durch 3 ist 6. Also, wenn wir den Mittelwert der Mittel nehmen wollen 00:02:27.256 --> 00:02:31.015 also das "grand Mittel", dann haben wir 2+4+6 = 12 00:02:31.015 --> 00:02:35.892 Und 12 geteilt durch 3 ist 4 - wie wir vorhin schon gerechnet haben.. 00:02:35.892 --> 00:02:38.933 Man kann es also als übergeordneten Mittelwert über alle Daten sehen 00:02:38.933 --> 00:02:43.600 oder als Mittelwert der Mittelwerte jeder Gruppe. Und da wir den MIttelwert jetzt berechnet haben 00:02:43.600 --> 00:02:48.836 können wir nun die Quadratsummen berechnen. Los geht's. 00:02:48.836 --> 00:02:57.887 SST ("sums of squares total") entspricht 3 -4... diese 4, die wir gerade berechnet haben... zum Quadrat 00:02:57.887 --> 00:03:05.667 SST = (3-4)^2 + (2 - 4)^2 + (1-4)^2...und jetzt kommen die lila Zahlen... 00:03:05.667 --> 00:03:16.031 ...+ (5-4)^2 + (3-4)^2 + (4-4)^2 00:03:16.031 --> 00:03:20.667 ...+ (5-4)^2 + (3-4)^2 + (4-4)^2 Jetzt fehlen noch die letzten drei.... 00:03:20.667 --> 00:03:32.887 ...+ (5-4)^2 + (6-4)^2 + (7-4)^2. Und was kommt dabei raus? 00:03:32.887 --> 00:03:38.436 Das erste hier, 3 minus 4, ist gleich 1.... 00:03:38.436 --> 00:03:42.200 ...also eigentlich gleich -1, und das zum Quadrat ist 1. 00:03:42.200 --> 00:03:51.000 Plus -2 zum Quadrat ist gleich 4, plus -3 zum Quadrat ist 9. 00:03:51.000 --> 00:03:57.698 Und hier in Magenta haben wir: 5-4=1, zum Quadrat immer noch 1. (3-4)^2 ist 1. 00:03:57.698 --> 00:04:03.210 Und 4-4 ist 0, also schreiben wir die 0 hier hin 00:04:03.210 --> 00:04:06.985 nur um zu sehen, dass wir das wirklich gerechnet haben. Und jetzt zu den letzten Datenpunkten. 00:04:06.985 --> 00:04:16.667 5 minus 4 zum Quadrat ist 1. 6 minus 4 zum Quadrat ist 4. 7 minus 4 ist 3, ... 00:04:16.667 --> 00:04:24.952 ...zum Quadrat ist 9. Wir haben also 1 plus 4 plus 9. 00:04:25.629 --> 00:04:33.436 Und 1 plus 4 plus 9, also 5 plus 9, das gibt 14. 00:04:33.436 --> 00:04:39.638 Genau, 14. Und wir haben noch mal 14 genau hier, denn hier haben wir auch 1 plus 4 plus 9. 00:04:39.638 --> 00:04:43.632 also ist das hier auch 14. Und dann haben wir hier noch 2 00:04:43.632 --> 00:04:55.056 14 mal 2, also 14 plus 14 ist 28, plus 2 ist 30. Unser SST ("sums of squares total") ist also 30. 00:04:55.056 --> 00:04:59.561 Und um die Varianz zu berechnen, würden wir das einfach durch die Freiheitsgrade teilen. 00:04:59.561 --> 00:05:05.551 Und das hier ist ein Vielfaches der Freiheitsgrade hier. Sagen wir also, wir haben 00:05:05.551 --> 00:05:11.031 sagen wir wir haben m Gruppen hier. Und ich 00:05:11.031 --> 00:05:14.236 werde hier nicht den kompletten Beweis führen, aber 00:05:14.236 --> 00:05:18.740 ich will euch zeigen, wo diese seltsamen Formeln herkommen, die in Statistik auftauchen. 00:05:18.740 --> 00:05:25.667 Ich will nicht den kompletten Beweis führen, sondern euch nur ein Gefühl dafür geben. Wir haben also m Gruppen 00:05:25.667 --> 00:05:34.344 und jede Gruppe hat n Elemente. Wie viele Elemente haben wir also insgesamt? 00:05:34.344 --> 00:05:41.498 Nun, wir haben m mal n oder 9, richtig? 3 mal 3 Elemente. an Freiheitsgraden 00:05:41.498 --> 00:05:47.800 haben wir also genauso viele wie Datenpunkte minus 1 Freiheitsgrad. 00:05:47.800 --> 00:05:52.800 Denn wenn ihr den Mittelwert der Mittelwerte kennen würdet, also angenommen, ihr würdet ihn kennen, 00:05:52.800 --> 00:05:59.323 dann würdet ihr nur durch 9 minus 1, also durch 8 dieser Datenpunkte neue Informationen erhalten 00:05:59.323 --> 00:06:04.471 denn den neunten Datenpunkt könnten ihr aus den anderen selbst errechnen. 00:06:04.471 --> 00:06:09.824 denn den neunten Datenpunkt könnten ihr aus den anderen selbst errechnen. 00:06:09.824 --> 00:06:16.600 Den 9. könntet ihr über den MIttelwert der Mittelwert und die anderen acht berechnen. Es gibt also nur 00:06:16.600 --> 00:06:22.883 acht unabhängige Messwerte hier. Oder genereller gesprochen: Es gibt 00:06:22.883 --> 00:06:30.397 m mal n (also die Gesamtzahl der Datenpunkte) minus 1 Freiheitsgrade. 00:06:33.720 --> 00:06:41.810 Und um die Varianz zu berechnen, würden wir einfach die 30 durch m mal n -1 teilen. 00:06:41.810 --> 00:06:47.077 Oder anders gesagt: Ihr teilt die 30 durch die 8 Freiheitsgrade 00:06:47.077 --> 00:06:53.000 und damit habt ihr die varianz für diese gesamte Gruppe an neun Messwerten. 00:06:53.000 --> 00:06:58.533 Ich belasse es in diesem Video dabei. Im nächsten Video versuchen wir herauszufinden, wie viel dieser 00:06:58.533 --> 00:07:08.333 Gesamtvarianz, also dieser gesamten Quadratsummen, der gesamten Abweichung durch die Variation 00:07:08.333 --> 00:07:14.313 innerhalb dieser Gruppen versus der Variation zwischen der Gruppen kommt. Und ich denke 00:07:14.313 --> 00:07:19.667 ihr werdet ein Gefühl dafür bekommen, worum es bei dieser Varianzanalyse geht. Es gibt Varianz innerhalb 00:07:19.667 --> 00:07:24.800 der gesamten Stichprobe (also der neun Datenpunkte), aber ein Teil der Varianz könnte 00:07:24.800 --> 00:07:31.267 auch daher kommen, dass die drei Gruppen unterschiedlich sind. Es geht also darum, die Varianz innerhalb der Gruppen 00:07:31.267 --> 00:07:34.564 und die Varianz zwischen den Gruppen zu berechnen. Und wenn wir das machen, werden wir sehen, dass sie sich 00:07:34.579 --> 99:59:59.999 zu unserer Gesamtvarianz aufsummieren.