-
In de laatste video is het ons gelukt om
-
de totale kwadratensom te berekenen voor
deze 9 data punten.
-
Deze data punten zijn verdeeld in drie
verschillende groepen,
-
of algemener gezegd, in "m" verschillende
groepen.
-
Wat ik in deze video wil proberen, is
uitvinden hoeveel van deze totale kwadratensom
-
hoeveel hiervan te wijten is aan de
spreiding binnen elke groep
-
versus de spreiding tussen de groepen.
-
Laten we om te beginnen de totale
spreiding binnen de groepen achterhalen,
-
laten we dit de 'binnen' kwadratensom
noemen, ik doe dit in het geel,
-
oh ik heb al geel gebruikt, dus we gaan
blauw gebruiken
-
Dus de 'binnen' kwadratensom
-
Laat ik dit even duidelijk maken,
dat staat voor 'binnen'.
-
Dus we willen weten hoeveel van een
spreiding te wijten is
-
aan hoe ver elk van deze data punten
verwijderd is van hun
-
bijbehorende gemiddelden
-
Dus dit gaat gelijk zijn aan - laten
we met deze jongens beginnen -
-
Dus in plaats van de afstand tussen deze
datapunten en hun gemiddelden te nemen,
-
ga ik de afstand tussen deze datapunten
en het groepsgemiddelde berekenen
-
omdat we de totale kwadratensom
willen kwadrateren
-
tussen elk datapunt en hun bijbehorende
gemiddelde
-
3 min het gemiddelde hier,
dat gelijk is aan 2, gekwadrateerd.
-
+ (2 - 2) in het kwadraat
-
+ (1- 2) in het kwadraat.
-
Ik ga dit voor alle groepen doen,
-
maar voor elke groep de afstand tussen
zijn datapunt en het gemiddelde.
-
Dus: + (5-4)^2 + (3-4)^2 + (4-4)^2
-
en dan nu eindelijk de derde groep,
-
we stellen de kwadratensom van elk punt
naar het bijbehorende gemiddelde vast
-
binnen die groep, we gaan ze
allemaal optellen
-
En dan stellen we de derde groep vast,
dus we krijgen:
-
(5-6)^2 + (6-6)^2 + (7-6)^2
-
En waar gaat dit gelijk aan zijn?
-
Dit is dus gelijk aan 1 + 0 + 1,
-
dat is dus gelijk aan 2
-
+ ,dit wordt 1 + 0 + 1, dus nog
een keer 2
-
+, dit wordt 1 + 0 + 1, dus 2
-
Onze 'binnen' kwadratensom is
dus gelijk aan 6
-
Een manier om hier naar te kijken is,
onze totale spreiding is 30,
-
6 van deze 30 komt voort uit spreiding
binnen deze steekproeven (groepen).
-
Het volgende waar ik over na wil denken
-
is hoeveel vrijheidsgraden we hebben in
deze berekening
-
hoeveel onafhankelijke datapunten we
eigenlijk hebben.
-
Voor elk van deze, hierzo, als je weet dat
we 'n' datapunten hebben voor elke groep,
-
hier is 'n' gelijk aan 3, maar als je
'n' min een van deze weet,
-
dan kan je altijd de n'de vinden, als je
het steekproefgemiddelde weet.
-
In dit geval, als je voor elk van deze
groepen 2 van de datapunten kent,
-
dan kan je altijd het derde datapunt
achterhalen.
-
Als je deze twee kent, dan kan je altijd
-
de derde achterhalen, als je het
steekproefgemiddelde kent.
-
Dus in het algemeen, laten we hier
de vrijheidsgraden berekenen.
-
Je hebt, voor elke groep
'n' - 1 vrijheidsgraden
-
Vergeet niet, 'n' is het aantal datapunten
die je in elke groep hebt.
-
Dus je hebt 'n' - 1 vrijheidsgraden voor
elk van deze groepen
-
Dat is dus 'n'-1, 'n'-1, 'n'-1
-
Of je hebt, laat ik het zo zeggen. Je hebt
'n'-1 voor elk van deze groepen,
-
en er zijn 'm' groepen
-
Dus we hebben
m maal ('n'-1) vrijheidsgraden
-
In dit specifieke geval is 'n' -1
gelijk aan twee
-
Je hebt voor elk geval 2 vrijheidsgraden,
-
en er zijn drie groepen, dus er zijn
vrijheidsgraden.
-
We kunnen later een betere discussie
hebben over wat vrijheidsgraden zijn,
-
hoe je er mathematisch over na moet denken
-
Maar de simpelste manier om erover na te
denken is 'echte' onafhankelijke datapunten
-
--
-
--
-
--
-
Dus we hebben 6 vrijheidsgraden hier
-
Dat is dus hoeveel van de totale spreiding
te wijden is aan de spreiding binnen elke groep
-
Denk na over hoeveel van de spreiding te
wijten is aande spreiding tussen degroepen
-
Om dit te doen -- laat ik een mooie
kleur gebruiken --
-
Ik heb volgens mij geen andere
kleuren meer
-
We zullen dit de 'tussen' kwadratensom
noemen.
-
Dus een andere manier om hier naar te
kijken is, hoeveel van de totale spreiding
-
te wijten is aan de spreiding tussen de
gemiddelden
-
Dat is wat we nu gaan berekenen en
-
hoeveel te wijten is aan de afstand tussen
de datapunten en het gemiddelde
-
Laten we uitzoeken hoeveel te wijten is
aan de spreiding tussen deze twee
-
Een manier om hier na te kijken --
-
laten we nu alleen naar de
eerste groep kijken
-
Voor de eerste groep, hoeveel spreiding
van deze punten valt er te wijden
-
aan de spreiding tussen dit gemiddelde
en het gemiddelde van de gemiddelden
-
Voor het eerste punt -- ik ga dit allemaal
uitschrijven --
-
Zal de spreiding het gemiddelde, 2 - het
gemiddelde van de gemiddelden ^2 zijn.
-
En voor dit punt zal dat hetzelfde zijn.
-
Zijn steekproefgemiddelde, 2, min het
gemiddelde van de gemiddelden ^2
-
+ Hetzelfde voor dit punt
-
Zijn steekproefgemiddelde, 2, min het
gemiddelde van de gemiddelden ^2
-
Dit is dus ook gelijk aan
3 * (2-4)^2
-
Wat hetzelfde is als 3 * 4 = 12
-
Ik kan dit voor alle punten doen. Ik wil
namelijk de totale kwadratensom weten
-
Ik ga het even allemaal uitschrijven, dat
zal waarschijnlijk makkelijker zijn
-
Voor al deze punten samen
-
de kwadratensom die voortkomt uit de
verschillen tussen de steekproeven
-
Dus dat is van de eerste steekproef
-
en dan nu van de tweede steekproef
-
--
-
Voor dit data punt zal de hoeveelheid
spreiding dat komt door het verschil in
-
gemiddelden gelijk zijn aan (4-4)^2
-
hetzelfde voor dit punt, (4-4)^2
-
--
-
En dan tenslotte + (4-4)^2
-
We nemen dit
-
min dit gekwadrateerd voor elk van deze
datapunten
-
En dan nog tenslotte de laatste groep
-
het steekproefgemiddelde is 6 dus dat
wordt (6-4)^2 + (6-4)^2 + (6-4)^2
-
--
-
Hoeveel vrijheidsgraden hadden we in deze
berekening hierzo
-
Nou, in het algemeen, denk ik dat de
simpelste manier om hier naar te kijken is:
-
hoeveel info hebben we,ervan uitgaande dat
we het gemiddelde van de gemiddelde kennen
-
Als we het gemiddelde van de gemiddelden
kennen, hoe veel is hier dan nieuwe info?
-
Als je twee van deze, het gemiddelde van
de gemiddelden en 2 van de steekproef
-
gemiddelden kent, dan kan je altijd de
derde berekenen
-
als je dit en dit weet, dan kan je dit
berekenen
-
als je dit en dit weet, dan kan je dit
berekenen
-
Dat is omdat dit het gemiddelde van deze
gemiddelden hier is.
-
Dus als je m groepen hebt of m gemiddelden
-
dan zijn er m-1 vrijheidsgraden
-
In dit geval is m 3
-
Dus we kunnen zeggen dat er in dit geval
2 vrijheidsgraden zijn
-
Laten we nu daadwerkelijk de kwadratensom
berekenen. Wat gaat dat worden?
-
Dit wordt gelijk aan dit hier, 2-4 is -2
in het kwadraat is 4
-
en dan hebben we 3 4-en hier, dus 3 * 4
-
+ 30 + 3 (6-4)^2, wat gelijk is aan 34.
Dus plus 3 4
-
En we krijgen 3*4 is 12 +0 +12 is 24
-
Dus de kwadratensom, of de spreiding
die te wijten valt
-
aan het verschil tussen de groepen is 24
-
Laten we nu alles samen nemen. We hebben
gezegd dat de
-
totale spreiding als je naar alle 9
datapunten kijkt, gelijk is aan 30
-
Ik ga dat even hier schrijven
-
Dus de totale kwadratensom is gelijk
aan 30
-
We hebben de kwadratensom tussen elk
datapunt en zijn gemiddelde gevonden
-
We vonden dat de 'binnen' kwadratensom
gelijk is aan 6
-
De 'binnen' kwadratensom is gelijk aan 6.
In dit geval waren het 6 vrijheidsgraden
-
In het algemeen opgeschreven,
waren er m * (n-1) vrijheidsgraden
-
In feite vonden we dat we m * (n-1)
vrijheidsgraden hadden.
-
Ik schrijf de vrijheidsgraden even in deze
kolom hier
-
In dit geval was dit gelijk aan 8.
-
En we hebben net ook nog de kwadratensom
tussen de steekproeven berekend
-
De 'tussen' kwadratensom = 24
-
En we vonden dat het m-1 vrijheidsgraden
had, wat gelijk was aan 2
-
Het interessante hier --dit is waarom deze
analyse van spreiding zo goed bij elkaar past
-
In toekomstige videos kijken we hoe we
daadwerkelijk een hypothese kunnen testen
-
gebruik makende van de vaardigheden
waar we nu mee bezig zijn --
-
Het interessante hier is dat de
'binnen' kwadratensom +
-
de 'tussen' kwadratensom
gelijk is aan de totale kwadratensom
-
Dus hoe je hier naar moet kijken is dat de
totale spreiding in deze data hier
-
omschreven kan worden als de som van de
spreiding binnen elk van deze groepen
-
plus de som van de spreiding tussen
de groepen
-
plus de som van de spreiding tussen
de groepen
-
Zelfs de vrijheidsgraden kloppen
-
De 'tussen' kwadratensom heeft 2
vrijheidsgraden
-
De 'binnen' kwadratensom heeft 6
vrijheidsgraden
-
2+6 = 8
-
Dat isde totale hoeveelheid vrijheidsgradn
die we hebben voor alle data samen
-
Zelfs als je algemener kijk werkt het
-
Onze 'tussen' kwadratensom had m-1
vrijheidsgraden
-
Onze 'binnen' kwadratensom had m(n-1)
vrijheidsgraden
-
Dit is gelijk aan (m-1) + mn-m
-
Deze kan je tegen elkaar wegstrepen.
Dit is gelijk aan mn-1 vrijheidsgraden
-
wat de precieze hoeveelheid vrijheidsgradn
is voor de totale kwadratensom
-
Dus de reden voor de berekeningen in deze
en de vorige video
-
is om te begrijpen dat de totale spreiding
hier
-
gezien kan worden als de som van deze
twee component spreidingen
-
de hoeveelheid spreiding binnen deze
steekproeven
-
+ de hoeveelheid spreiding tussen de
gemiddelden van deze steekproeven
-
Ik hoop dat dat niet te verwarrend is