In diesem und folgenden Videos werden wir ein paar Berechnungen mit diesem Datensatz hier machen.
Und hoffentlich gibt euch diese Übung ein Gefühl dafür, worum es bei der Varianzanalyse geht.
Als erstes möchte ich die gesamte Quadratsumme berechnen.
Die sogenannte SST ("sums of squares total").
Ihr könnt das als den Zähler ansehen, wenn es an die
Berechnung der Varianz geht. Wir nehmen also die Distanz zwischen jedem dieser Datenpunkte
und den Mittelwert all dieser Datenpunkte, quadrieren sie und summieren sie auf. Wir teilen
nicht durch den Freiheitsgrad, wie man es normalerweise bei der Berechnung der Stichprobenvarianz macht.
Wie gehen wir das an? Zuerst müssen wir den Mittelwert
all dieser Zahlen berechnen. Ich werde das "grand Mittel" nennen.
Ich werde das "grand Mittel" nennen. Und gleich seht ihr, dass es das gleiche ist,
wie der Mittelwert der Mittelwerte dieser Datensätze.
Also lasst uns das "grand Mittel" (den übergeordneten Mittelwert) berechnen.
Insgesamt sind das neun Datenpunkte, also werden wir durch neun teilen.
Was kommt dabei raus, wenn wir die Zahlen addieren? 3+2+1...
...+5+6+7 = 36
Und 36 geteilt durch 9 = 4. Und das ist der Mittelwert der Mittelwerte der drei Datensätze.
Der Mittelwert dieser grünen Gruppe hier links
ist 3 + 2 + 1 = 6. Und 6 geteilt durch 3 Datenpunkte ist gleich 2.
Der Mittelwert der Gruppe 2... Die Summe hier ist 12, denn 5 plus 3 plus 4 ist 12.
Und 12 geteilt durch 3 ist 4. Denn wir haben drei Datenpunkte. Und der Mittelwert der Gruppe 3: 5 + 6 + 7 = 18.
18 geteilt durch 3 ist 6. Also, wenn wir den Mittelwert der Mittel nehmen wollen
also das "grand Mittel", dann haben wir 2+4+6 = 12
Und 12 geteilt durch 3 ist 4 - wie wir vorhin schon gerechnet haben..
Man kann es also als übergeordneten Mittelwert über alle Daten sehen
oder als Mittelwert der Mittelwerte jeder Gruppe. Und da wir den MIttelwert jetzt berechnet haben
können wir nun die Quadratsummen berechnen.
Los geht's.
SST ("sums of squares total") entspricht 3 -4... diese 4, die wir gerade berechnet haben... zum Quadrat
SST = (3-4)^2 + (2 - 4)^2 + (1-4)^2...und jetzt kommen die lila Zahlen...
...+ (5-4)^2 + (3-4)^2 + (4-4)^2
...+ (5-4)^2 + (3-4)^2 + (4-4)^2
Jetzt fehlen noch die letzten drei....
...+ (5-4)^2 + (6-4)^2 + (7-4)^2.
Und was kommt dabei raus?
Das erste hier, 3 minus 4, ist gleich 1....
...also eigentlich gleich -1,
und das zum Quadrat ist 1.
Plus -2 zum Quadrat ist gleich 4,
plus -3 zum Quadrat ist 9.
Und hier in Magenta haben wir: 5-4=1, zum Quadrat immer noch 1. (3-4)^2 ist 1.
Und 4-4 ist 0, also schreiben wir die 0 hier hin
nur um zu sehen, dass wir das wirklich gerechnet haben. Und jetzt zu den letzten Datenpunkten.
5 minus 4 zum Quadrat ist 1. 6 minus 4 zum Quadrat ist 4. 7 minus 4 ist 3, ...
...zum Quadrat ist 9. Wir haben also 1 plus 4 plus 9.
Und 1 plus 4 plus 9, also 5 plus 9, das gibt 14.
Genau, 14. Und wir haben noch mal 14 genau hier, denn hier haben wir auch 1 plus 4 plus 9.
also ist das hier auch 14. Und dann haben wir hier noch 2
14 mal 2, also 14 plus 14 ist 28, plus 2 ist 30. Unser SST ("sums of squares total") ist also 30.
Und um die Varianz zu berechnen, würden wir das einfach durch die Freiheitsgrade teilen.
Und das hier ist ein Vielfaches der Freiheitsgrade hier. Sagen wir also, wir haben
sagen wir wir haben m Gruppen hier. Und ich
werde hier nicht den kompletten Beweis führen, aber
ich will euch zeigen, wo diese seltsamen Formeln herkommen, die in Statistik auftauchen.
Ich will nicht den kompletten Beweis führen, sondern euch nur ein Gefühl dafür geben. Wir haben also m Gruppen
und jede Gruppe hat n Elemente. Wie viele Elemente haben wir also insgesamt?
Nun, wir haben m mal n oder 9, richtig? 3 mal 3 Elemente. an Freiheitsgraden
haben wir also genauso viele wie Datenpunkte minus 1 Freiheitsgrad.
Denn wenn ihr den Mittelwert der Mittelwerte kennen würdet, also angenommen, ihr würdet ihn kennen,
dann würdet ihr nur durch 9 minus 1, also durch 8 dieser Datenpunkte neue Informationen erhalten
denn den neunten Datenpunkt könnten ihr aus den anderen selbst errechnen.
denn den neunten Datenpunkt könnten ihr aus den anderen selbst errechnen.
Den 9. könntet ihr über den MIttelwert der Mittelwert und die anderen acht berechnen. Es gibt also nur
acht unabhängige Messwerte hier. Oder genereller gesprochen: Es gibt
m mal n (also die Gesamtzahl der Datenpunkte) minus 1 Freiheitsgrade.
Und um die Varianz zu berechnen, würden wir einfach die 30 durch m mal n -1 teilen.
Oder anders gesagt: Ihr teilt die 30 durch die 8 Freiheitsgrade
und damit habt ihr die varianz für diese gesamte Gruppe an neun Messwerten.
Ich belasse es in diesem Video dabei. Im nächsten Video versuchen wir herauszufinden, wie viel dieser
Gesamtvarianz, also dieser gesamten Quadratsummen, der gesamten Abweichung durch die Variation
innerhalb dieser Gruppen versus der Variation zwischen der Gruppen kommt. Und ich denke
ihr werdet ein Gefühl dafür bekommen, worum es bei dieser Varianzanalyse geht. Es gibt Varianz innerhalb
der gesamten Stichprobe (also der neun Datenpunkte), aber ein Teil der Varianz könnte
auch daher kommen, dass die drei Gruppen unterschiedlich sind. Es geht also darum, die Varianz innerhalb der Gruppen
und die Varianz zwischen den Gruppen zu berechnen. Und wenn wir das machen, werden wir sehen, dass sie sich
zu unserer Gesamtvarianz aufsummieren.