0:00:00.520,0:00:02.170
In de laatste video is het ons gelukt om
0:00:02.170,0:00:05.970
de totale kwadratensom te berekenen voor[br]deze 9 data punten.
0:00:05.980,0:00:10.030
Deze data punten zijn verdeeld in drie[br]verschillende groepen,
0:00:10.030,0:00:12.800
of algemener gezegd, in "m" verschillende[br]groepen.
0:00:12.900,0:00:17.940
Wat ik in deze video wil proberen, is[br]uitvinden hoeveel van deze totale kwadratensom
0:00:17.940,0:00:22.360
hoeveel hiervan te wijten is aan de[br]spreiding binnen elke groep
0:00:22.380,0:00:26.230
versus de spreiding tussen de groepen.
0:00:26.250,0:00:29.970
Laten we om te beginnen de totale[br]spreiding binnen de groepen achterhalen,
0:00:29.970,0:00:36.200
laten we dit de 'binnen' kwadratensom[br]noemen, ik doe dit in het geel,
0:00:36.490,0:00:39.940
oh ik heb al geel gebruikt, dus we gaan[br]blauw gebruiken
0:00:40.180,0:00:45.910
Dus de 'binnen' kwadratensom
0:00:46.290,0:00:50.850
Laat ik dit even duidelijk maken,[br]dat staat voor 'binnen'.
0:00:50.890,0:00:53.710
Dus we willen weten hoeveel van een [br]spreiding te wijten is
0:00:53.710,0:00:57.960
aan hoe ver elk van deze data punten[br]verwijderd is van hun
0:00:57.960,0:00:59.550
bijbehorende gemiddelden
0:00:59.550,0:01:02.300
Dus dit gaat gelijk zijn aan - laten [br]we met deze jongens beginnen -
0:01:02.500,0:01:07.220
Dus in plaats van de afstand tussen deze[br]datapunten en hun gemiddelden te nemen,
0:01:07.220,0:01:11.530
ga ik de afstand tussen deze datapunten[br]en het groepsgemiddelde berekenen
0:01:11.550,0:01:16.550
omdat we de totale kwadratensom[br]willen kwadrateren
0:01:16.550,0:01:20.680
tussen elk datapunt en hun bijbehorende[br]gemiddelde
0:01:20.720,0:01:25.740
3 min het gemiddelde hier, [br]dat gelijk is aan 2, gekwadrateerd.
0:01:25.760,0:01:30.700
+ (2 - 2) in het kwadraat[br]
0:01:30.940,0:01:34.480
+ (1- 2) in het kwadraat.
0:01:34.700,0:01:36.600
Ik ga dit voor alle groepen doen,
0:01:36.600,0:01:39.520
maar voor elke groep de afstand tussen[br]zijn datapunt en het gemiddelde.
0:01:39.560,0:01:57.420
Dus: + (5-4)^2 + (3-4)^2 + (4-4)^2
0:01:57.420,0:02:00.360
en dan nu eindelijk de derde groep,
0:02:00.380,0:02:04.910
we stellen de kwadratensom van elk punt[br]naar het bijbehorende gemiddelde vast
0:02:04.910,0:02:06.640
binnen die groep, we gaan ze[br]allemaal optellen
0:02:07.140,0:02:09.280
En dan stellen we de derde groep vast,[br]dus we krijgen:
0:02:09.280,0:02:20.550
(5-6)^2 + (6-6)^2 + (7-6)^2
0:02:20.550,0:02:22.390
En waar gaat dit gelijk aan zijn?
0:02:22.420,0:02:29.050
Dit is dus gelijk aan 1 + 0 + 1,
0:02:29.550,0:02:31.510
dat is dus gelijk aan 2
0:02:31.850,0:02:39.660
+ ,dit wordt 1 + 0 + 1, dus nog[br]een keer 2
0:02:40.020,0:02:51.130
+, dit wordt 1 + 0 + 1, dus 2
0:02:51.540,0:02:56.470
Onze 'binnen' kwadratensom is[br]dus gelijk aan 6
0:02:56.600,0:03:00.870
Een manier om hier naar te kijken is,[br]onze totale spreiding is 30,
0:03:00.870,0:03:08.660
6 van deze 30 komt voort uit spreiding[br]binnen deze steekproeven (groepen).
0:03:09.020,0:03:10.940
Het volgende waar ik over na wil denken
0:03:11.180,0:03:15.560
is hoeveel vrijheidsgraden we hebben in[br]deze berekening
0:03:15.560,0:03:19.300
hoeveel onafhankelijke datapunten we [br]eigenlijk hebben.
0:03:19.630,0:03:27.610
Voor elk van deze, hierzo, als je weet dat[br]we 'n' datapunten hebben voor elke groep,
0:03:27.610,0:03:30.440
hier is 'n' gelijk aan 3, maar als je[br]'n' min een van deze weet,
0:03:30.710,0:03:37.900
dan kan je altijd de n'de vinden, als je[br]het steekproefgemiddelde weet.
0:03:38.090,0:03:42.130
In dit geval, als je voor elk van deze [br]groepen 2 van de datapunten kent,
0:03:42.130,0:03:43.410
dan kan je altijd het derde datapunt[br]achterhalen.
0:03:43.410,0:03:44.550
Als je deze twee kent, dan kan je altijd
0:03:44.550,0:03:46.770
de derde achterhalen, als je het[br]steekproefgemiddelde kent.
0:03:47.130,0:03:50.420
Dus in het algemeen, laten we hier[br]de vrijheidsgraden berekenen.
0:03:50.420,0:03:57.330
Je hebt, voor elke groep[br]'n' - 1 vrijheidsgraden
0:03:57.370,0:04:03.970
Vergeet niet, 'n' is het aantal datapunten[br]die je in elke groep hebt.
0:04:03.970,0:04:09.310
Dus je hebt 'n' - 1 vrijheidsgraden voor [br]elk van deze groepen
0:04:09.350,0:04:12.430
Dat is dus 'n'-1, 'n'-1, 'n'-1
0:04:12.480,0:04:19.210
Of je hebt, laat ik het zo zeggen. Je hebt[br]'n'-1 voor elk van deze groepen,
0:04:19.380,0:04:21.660
en er zijn 'm' groepen
0:04:21.660,0:04:28.890
Dus we hebben [br]m maal ('n'-1) vrijheidsgraden
0:04:28.910,0:04:32.790
In dit specifieke geval is 'n' -1[br]gelijk aan twee
0:04:32.790,0:04:34.970
Je hebt voor elk geval 2 vrijheidsgraden,
0:04:34.970,0:04:45.680
en er zijn drie groepen, dus er zijn[br]vrijheidsgraden.
0:04:46.100,0:04:51.340
We kunnen later een betere discussie[br]hebben over wat vrijheidsgraden zijn,
0:04:51.340,0:04:54.380
hoe je er mathematisch over na moet denken
0:04:54.380,0:04:58.470
Maar de simpelste manier om erover na te[br]denken is 'echte' onafhankelijke datapunten
0:04:58.490,0:05:01.180
--
0:05:01.180,0:05:04.670
--
0:05:04.800,0:05:08.230
--
0:05:08.230,0:05:10.490
Dus we hebben 6 vrijheidsgraden hier
0:05:10.720,0:05:18.090
Dat is dus hoeveel van de totale spreiding[br]te wijden is aan de spreiding binnen elke groep
0:05:18.310,0:05:23.800
Denk na over hoeveel van de spreiding te [br]wijten is aande spreiding tussen degroepen
0:05:25.440,0:05:29.380
Om dit te doen -- laat ik een mooie[br]kleur gebruiken --
0:05:29.390,0:05:30.750
Ik heb volgens mij geen andere[br]kleuren meer
0:05:30.750,0:05:40.570
We zullen dit de 'tussen' kwadratensom[br]noemen.
0:05:41.090,0:05:44.560
Dus een andere manier om hier naar te[br]kijken is, hoeveel van de totale spreiding
0:05:44.560,0:05:49.300
te wijten is aan de spreiding tussen de[br]gemiddelden
0:05:49.380,0:05:50.990
Dat is wat we nu gaan berekenen en
0:05:50.990,0:05:56.430
hoeveel te wijten is aan de afstand tussen[br]de datapunten en het gemiddelde
0:05:56.740,0:06:01.480
Laten we uitzoeken hoeveel te wijten is[br]aan de spreiding tussen deze twee
0:06:01.500,0:06:06.840
Een manier om hier na te kijken --
0:06:06.850,0:06:09.360
laten we nu alleen naar de [br]eerste groep kijken
0:06:09.530,0:06:12.850
Voor de eerste groep, hoeveel spreiding[br]van deze punten valt er te wijden
0:06:12.850,0:06:18.230
aan de spreiding tussen dit gemiddelde[br]en het gemiddelde van de gemiddelden
0:06:18.730,0:06:23.200
Voor het eerste punt -- ik ga dit allemaal[br]uitschrijven --
0:06:23.600,0:06:31.000
Zal de spreiding het gemiddelde, 2 - het [br]gemiddelde van de gemiddelden ^2 zijn.
0:06:31.030,0:06:33.010
En voor dit punt zal dat hetzelfde zijn.
0:06:33.010,0:06:36.880
Zijn steekproefgemiddelde, 2, min het[br]gemiddelde van de gemiddelden ^2
0:06:37.650,0:06:39.220
+ Hetzelfde voor dit punt
0:06:39.250,0:06:41.920
Zijn steekproefgemiddelde, 2, min het[br]gemiddelde van de gemiddelden ^2
0:06:41.920,0:06:52.200
Dit is dus ook gelijk aan [br]3 * (2-4)^2
0:06:52.440,0:07:02.650
Wat hetzelfde is als 3 * 4 = 12
0:07:02.820,0:07:05.810
Ik kan dit voor alle punten doen. Ik wil[br]namelijk de totale kwadratensom weten
0:07:05.810,0:07:08.640
Ik ga het even allemaal uitschrijven, dat[br]zal waarschijnlijk makkelijker zijn
0:07:09.120,0:07:13.230
Voor al deze punten samen
0:07:13.230,0:07:18.040
de kwadratensom die voortkomt uit de[br]verschillen tussen de steekproeven
0:07:18.040,0:07:21.460
Dus dat is van de eerste steekproef
0:07:21.470,0:07:23.130
en dan nu van de tweede steekproef
0:07:23.440,0:07:28.760
--
0:07:28.770,0:07:33.040
Voor dit data punt zal de hoeveelheid[br]spreiding dat komt door het verschil in
0:07:33.040,0:07:37.530
gemiddelden gelijk zijn aan (4-4)^2
0:07:37.770,0:07:41.090
hetzelfde voor dit punt, (4-4)^2
0:07:41.100,0:07:45.610
--
0:07:45.920,0:07:49.110
En dan tenslotte + (4-4)^2
0:07:49.120,0:07:50.370
We nemen dit
0:07:50.370,0:07:53.500
min dit gekwadrateerd voor elk van deze[br]datapunten
0:07:53.500,0:07:57.240
En dan nog tenslotte de laatste groep
0:07:57.550,0:08:09.940
het steekproefgemiddelde is 6 dus dat [br]wordt (6-4)^2 + (6-4)^2 + (6-4)^2
0:08:10.370,0:08:12.070
--
0:08:12.070,0:08:19.490
Hoeveel vrijheidsgraden hadden we in deze[br]berekening hierzo
0:08:19.940,0:08:24.650
Nou, in het algemeen, denk ik dat de[br]simpelste manier om hier naar te kijken is:
0:08:24.650,0:08:28.410
hoeveel info hebben we,ervan uitgaande dat[br]we het gemiddelde van de gemiddelde kennen[br]
0:08:28.410,0:08:31.310
Als we het gemiddelde van de gemiddelden[br]kennen, hoe veel is hier dan nieuwe info?
0:08:31.920,0:08:37.160
Als je twee van deze, het gemiddelde van[br]de gemiddelden en 2 van de steekproef[br]
0:08:37.160,0:08:38.470
gemiddelden kent, dan kan je altijd de[br]derde berekenen
0:08:38.470,0:08:40.590
als je dit en dit weet, dan kan je dit[br]berekenen
0:08:40.700,0:08:42.710
als je dit en dit weet, dan kan je dit[br]berekenen
0:08:42.710,0:08:46.190
Dat is omdat dit het gemiddelde van deze[br]gemiddelden hier is.
0:08:46.360,0:08:51.530
Dus als je m groepen hebt of m gemiddelden
0:08:51.660,0:09:05.880
dan zijn er m-1 vrijheidsgraden
0:09:05.910,0:09:08.900
In dit geval is m 3
0:09:08.900,0:09:14.760
Dus we kunnen zeggen dat er in dit geval[br]2 vrijheidsgraden zijn
0:09:14.760,0:09:18.670
Laten we nu daadwerkelijk de kwadratensom[br]berekenen. Wat gaat dat worden?
0:09:19.120,0:09:29.340
Dit wordt gelijk aan dit hier, 2-4 is -2[br]in het kwadraat is 4
0:09:29.350,0:09:33.230
en dan hebben we 3 4-en hier, dus 3 * 4
0:09:33.590,0:09:51.070
+ 30 + 3 (6-4)^2, wat gelijk is aan 34.[br]Dus plus 3 4
0:09:51.280,0:09:59.730
En we krijgen 3*4 is 12 +0 +12 is 24
0:09:59.750,0:10:03.960
Dus de kwadratensom, of de spreiding[br]die te wijten valt
0:10:03.960,0:10:08.690
aan het verschil tussen de groepen is 24
0:10:08.980,0:10:11.570
Laten we nu alles samen nemen. We hebben[br]gezegd dat de
0:10:11.570,0:10:17.820
totale spreiding als je naar alle 9[br]datapunten kijkt, gelijk is aan 30
0:10:17.820,0:10:19.350
Ik ga dat even hier schrijven
0:10:19.800,0:10:25.500
Dus de totale kwadratensom is gelijk[br]aan 30
0:10:25.880,0:10:32.590
We hebben de kwadratensom tussen elk [br]datapunt en zijn gemiddelde gevonden
0:10:32.590,0:10:39.640
We vonden dat de 'binnen' kwadratensom[br]gelijk is aan 6
0:10:40.140,0:10:48.800
De 'binnen' kwadratensom is gelijk aan 6.[br]In dit geval waren het 6 vrijheidsgraden
0:10:48.810,0:10:54.430
In het algemeen opgeschreven,[br]waren er m * (n-1) vrijheidsgraden
0:10:54.650,0:11:03.300
In feite vonden we dat we m * (n-1)[br]vrijheidsgraden hadden.
0:11:03.320,0:11:06.140
Ik schrijf de vrijheidsgraden even in deze[br]kolom hier
0:11:06.240,0:11:09.240
In dit geval was dit gelijk aan 8.
0:11:09.240,0:11:13.930
En we hebben net ook nog de kwadratensom[br]tussen de steekproeven berekend
0:11:14.180,0:11:18.180
De 'tussen' kwadratensom = 24
0:11:18.180,0:11:24.200
En we vonden dat het m-1 vrijheidsgraden[br]had, wat gelijk was aan 2
0:11:24.560,0:11:31.210
Het interessante hier --dit is waarom deze[br]analyse van spreiding zo goed bij elkaar past
0:11:31.230,0:11:35.230
In toekomstige videos kijken we hoe we[br]daadwerkelijk een hypothese kunnen testen
0:11:35.230,0:11:38.040
gebruik makende van de vaardigheden[br]waar we nu mee bezig zijn --
0:11:38.300,0:11:42.700
Het interessante hier is dat de [br]'binnen' kwadratensom +
0:11:42.700,0:11:44.940
de 'tussen' kwadratensom [br]gelijk is aan de totale kwadratensom
0:11:45.040,0:11:50.680
Dus hoe je hier naar moet kijken is dat de[br]totale spreiding in deze data hier
0:11:50.680,0:11:55.800
omschreven kan worden als de som van de[br]spreiding binnen elk van deze groepen
0:11:55.800,0:11:57.800
plus de som van de spreiding tussen[br]de groepen
0:11:58.130,0:12:03.750
plus de som van de spreiding tussen[br]de groepen
0:12:03.770,0:12:05.970
Zelfs de vrijheidsgraden kloppen
0:12:05.970,0:12:08.900
De 'tussen' kwadratensom heeft 2[br]vrijheidsgraden
0:12:08.960,0:12:12.730
De 'binnen' kwadratensom heeft 6 [br]vrijheidsgraden
0:12:12.740,0:12:14.190
2+6 = 8
0:12:14.230,0:12:19.120
Dat isde totale hoeveelheid vrijheidsgradn[br]die we hebben voor alle data samen
0:12:19.120,0:12:22.910
Zelfs als je algemener kijk werkt het
0:12:22.930,0:12:26.730
Onze 'tussen' kwadratensom had m-1[br]vrijheidsgraden
0:12:27.070,0:12:33.140
Onze 'binnen' kwadratensom had m(n-1) [br]vrijheidsgraden
0:12:33.310,0:12:37.900
Dit is gelijk aan (m-1) + mn-m
0:12:38.280,0:12:43.900
Deze kan je tegen elkaar wegstrepen.[br]Dit is gelijk aan mn-1 vrijheidsgraden
0:12:43.920,0:12:48.610
wat de precieze hoeveelheid vrijheidsgradn[br]is voor de totale kwadratensom
0:12:48.940,0:12:53.660
Dus de reden voor de berekeningen in deze[br]en de vorige video
0:12:53.670,0:12:58.880
is om te begrijpen dat de totale spreiding[br]hier
0:12:58.880,0:13:04.160
gezien kan worden als de som van deze[br]twee component spreidingen
0:13:04.400,0:13:12.150
de hoeveelheid spreiding binnen deze [br]steekproeven
0:13:12.250,0:13:16.910
+ de hoeveelheid spreiding tussen de [br]gemiddelden van deze steekproeven
0:13:16.910,0:13:18.580
Ik hoop dat dat niet te verwarrend is