-
In diesem und folgenden Videos werden wir ein paar Berechnungen mit diesem Datensatz hier machen.
-
Und hoffentlich gibt euch diese Übung ein Gefühl dafür, worum es bei der Varianzanalyse geht.
-
Als erstes möchte ich die gesamte Quadratsumme berechnen.
-
Die sogenannte SST ("sums of squares total").
Ihr könnt das als den Zähler ansehen, wenn es an die
-
Berechnung der Varianz geht. Wir nehmen also die Distanz zwischen jedem dieser Datenpunkte
-
und den Mittelwert all dieser Datenpunkte, quadrieren sie und summieren sie auf. Wir teilen
-
nicht durch den Freiheitsgrad, wie man es normalerweise bei der Berechnung der Stichprobenvarianz macht.
-
Wie gehen wir das an? Zuerst müssen wir den Mittelwert
-
all dieser Zahlen berechnen. Ich werde das "grand Mittel" nennen.
-
Ich werde das "grand Mittel" nennen. Und gleich seht ihr, dass es das gleiche ist,
-
wie der Mittelwert der Mittelwerte dieser Datensätze.
-
Also lasst uns das "grand Mittel" (den übergeordneten Mittelwert) berechnen.
-
Insgesamt sind das neun Datenpunkte, also werden wir durch neun teilen.
-
Was kommt dabei raus, wenn wir die Zahlen addieren? 3+2+1...
-
...+5+6+7 = 36
-
Und 36 geteilt durch 9 = 4. Und das ist der Mittelwert der Mittelwerte der drei Datensätze.
-
Der Mittelwert dieser grünen Gruppe hier links
-
ist 3 + 2 + 1 = 6. Und 6 geteilt durch 3 Datenpunkte ist gleich 2.
-
Der Mittelwert der Gruppe 2... Die Summe hier ist 12, denn 5 plus 3 plus 4 ist 12.
-
Und 12 geteilt durch 3 ist 4. Denn wir haben drei Datenpunkte. Und der Mittelwert der Gruppe 3: 5 + 6 + 7 = 18.
-
18 geteilt durch 3 ist 6. Also, wenn wir den Mittelwert der Mittel nehmen wollen
-
also das "grand Mittel", dann haben wir 2+4+6 = 12
-
Und 12 geteilt durch 3 ist 4 - wie wir vorhin schon gerechnet haben..
-
Man kann es also als übergeordneten Mittelwert über alle Daten sehen
-
oder als Mittelwert der Mittelwerte jeder Gruppe. Und da wir den MIttelwert jetzt berechnet haben
-
können wir nun die Quadratsummen berechnen.
Los geht's.
-
SST ("sums of squares total") entspricht 3 -4... diese 4, die wir gerade berechnet haben... zum Quadrat
-
SST = (3-4)^2 + (2 - 4)^2 + (1-4)^2...und jetzt kommen die lila Zahlen...
-
...+ (5-4)^2 + (3-4)^2 + (4-4)^2
-
...+ (5-4)^2 + (3-4)^2 + (4-4)^2
Jetzt fehlen noch die letzten drei....
-
...+ (5-4)^2 + (6-4)^2 + (7-4)^2.
Und was kommt dabei raus?
-
Das erste hier, 3 minus 4, ist gleich 1....
-
...also eigentlich gleich -1,
und das zum Quadrat ist 1.
-
Plus -2 zum Quadrat ist gleich 4,
plus -3 zum Quadrat ist 9.
-
Und hier in Magenta haben wir: 5-4=1, zum Quadrat immer noch 1. (3-4)^2 ist 1.
-
Und 4-4 ist 0, also schreiben wir die 0 hier hin
-
nur um zu sehen, dass wir das wirklich gerechnet haben. Und jetzt zu den letzten Datenpunkten.
-
5 minus 4 zum Quadrat ist 1. 6 minus 4 zum Quadrat ist 4. 7 minus 4 ist 3, ...
-
...zum Quadrat ist 9. Wir haben also 1 plus 4 plus 9.
-
Und 1 plus 4 plus 9, also 5 plus 9, das gibt 14.
-
Genau, 14. Und wir haben noch mal 14 genau hier, denn hier haben wir auch 1 plus 4 plus 9.
-
also ist das hier auch 14. Und dann haben wir hier noch 2
-
14 mal 2, also 14 plus 14 ist 28, plus 2 ist 30. Unser SST ("sums of squares total") ist also 30.
-
Und um die Varianz zu berechnen, würden wir das einfach durch die Freiheitsgrade teilen.
-
Und das hier ist ein Vielfaches der Freiheitsgrade hier. Sagen wir also, wir haben
-
sagen wir wir haben m Gruppen hier. Und ich
-
werde hier nicht den kompletten Beweis führen, aber
-
ich will euch zeigen, wo diese seltsamen Formeln herkommen, die in Statistik auftauchen.
-
Ich will nicht den kompletten Beweis führen, sondern euch nur ein Gefühl dafür geben. Wir haben also m Gruppen
-
und jede Gruppe hat n Elemente. Wie viele Elemente haben wir also insgesamt?
-
Nun, wir haben m mal n oder 9, richtig? 3 mal 3 Elemente. an Freiheitsgraden
-
haben wir also genauso viele wie Datenpunkte minus 1 Freiheitsgrad.
-
Denn wenn ihr den Mittelwert der Mittelwerte kennen würdet, also angenommen, ihr würdet ihn kennen,
-
dann würdet ihr nur durch 9 minus 1, also durch 8 dieser Datenpunkte neue Informationen erhalten
-
denn den neunten Datenpunkt könnten ihr aus den anderen selbst errechnen.
-
denn den neunten Datenpunkt könnten ihr aus den anderen selbst errechnen.
-
Den 9. könntet ihr über den MIttelwert der Mittelwert und die anderen acht berechnen. Es gibt also nur
-
acht unabhängige Messwerte hier. Oder genereller gesprochen: Es gibt
-
m mal n (also die Gesamtzahl der Datenpunkte) minus 1 Freiheitsgrade.
-
Und um die Varianz zu berechnen, würden wir einfach die 30 durch m mal n -1 teilen.
-
Oder anders gesagt: Ihr teilt die 30 durch die 8 Freiheitsgrade
-
und damit habt ihr die varianz für diese gesamte Gruppe an neun Messwerten.
-
Ich belasse es in diesem Video dabei. Im nächsten Video versuchen wir herauszufinden, wie viel dieser
-
Gesamtvarianz, also dieser gesamten Quadratsummen, der gesamten Abweichung durch die Variation
-
innerhalb dieser Gruppen versus der Variation zwischen der Gruppen kommt. Und ich denke
-
ihr werdet ein Gefühl dafür bekommen, worum es bei dieser Varianzanalyse geht. Es gibt Varianz innerhalb
-
der gesamten Stichprobe (also der neun Datenpunkte), aber ein Teil der Varianz könnte
-
auch daher kommen, dass die drei Gruppen unterschiedlich sind. Es geht also darum, die Varianz innerhalb der Gruppen
-
und die Varianz zwischen den Gruppen zu berechnen. Und wenn wir das machen, werden wir sehen, dass sie sich
-
zu unserer Gesamtvarianz aufsummieren.