0:00:00.520,0:00:02.170 In de laatste video is het ons gelukt om 0:00:02.170,0:00:05.970 de totale kwadratensom te berekenen voor[br]deze 9 data punten. 0:00:05.980,0:00:10.030 Deze data punten zijn verdeeld in drie[br]verschillende groepen, 0:00:10.030,0:00:12.800 of algemener gezegd, in "m" verschillende[br]groepen. 0:00:12.900,0:00:17.940 Wat ik in deze video wil proberen, is[br]uitvinden hoeveel van deze totale kwadratensom 0:00:17.940,0:00:22.360 hoeveel hiervan te wijten is aan de[br]spreiding binnen elke groep 0:00:22.380,0:00:26.230 versus de spreiding tussen de groepen. 0:00:26.250,0:00:29.970 Laten we om te beginnen de totale[br]spreiding binnen de groepen achterhalen, 0:00:29.970,0:00:36.200 laten we dit de 'binnen' kwadratensom[br]noemen, ik doe dit in het geel, 0:00:36.490,0:00:39.940 oh ik heb al geel gebruikt, dus we gaan[br]blauw gebruiken 0:00:40.180,0:00:45.910 Dus de 'binnen' kwadratensom 0:00:46.290,0:00:50.850 Laat ik dit even duidelijk maken,[br]dat staat voor 'binnen'. 0:00:50.890,0:00:53.710 Dus we willen weten hoeveel van een [br]spreiding te wijten is 0:00:53.710,0:00:57.960 aan hoe ver elk van deze data punten[br]verwijderd is van hun 0:00:57.960,0:00:59.550 bijbehorende gemiddelden 0:00:59.550,0:01:02.300 Dus dit gaat gelijk zijn aan - laten [br]we met deze jongens beginnen - 0:01:02.500,0:01:07.220 Dus in plaats van de afstand tussen deze[br]datapunten en hun gemiddelden te nemen, 0:01:07.220,0:01:11.530 ga ik de afstand tussen deze datapunten[br]en het groepsgemiddelde berekenen 0:01:11.550,0:01:16.550 omdat we de totale kwadratensom[br]willen kwadrateren 0:01:16.550,0:01:20.680 tussen elk datapunt en hun bijbehorende[br]gemiddelde 0:01:20.720,0:01:25.740 3 min het gemiddelde hier, [br]dat gelijk is aan 2, gekwadrateerd. 0:01:25.760,0:01:30.700 + (2 - 2) in het kwadraat[br] 0:01:30.940,0:01:34.480 + (1- 2) in het kwadraat. 0:01:34.700,0:01:36.600 Ik ga dit voor alle groepen doen, 0:01:36.600,0:01:39.520 maar voor elke groep de afstand tussen[br]zijn datapunt en het gemiddelde. 0:01:39.560,0:01:57.420 Dus: + (5-4)^2 + (3-4)^2 + (4-4)^2 0:01:57.420,0:02:00.360 en dan nu eindelijk de derde groep, 0:02:00.380,0:02:04.910 we stellen de kwadratensom van elk punt[br]naar het bijbehorende gemiddelde vast 0:02:04.910,0:02:06.640 binnen die groep, we gaan ze[br]allemaal optellen 0:02:07.140,0:02:09.280 En dan stellen we de derde groep vast,[br]dus we krijgen: 0:02:09.280,0:02:20.550 (5-6)^2 + (6-6)^2 + (7-6)^2 0:02:20.550,0:02:22.390 En waar gaat dit gelijk aan zijn? 0:02:22.420,0:02:29.050 Dit is dus gelijk aan 1 + 0 + 1, 0:02:29.550,0:02:31.510 dat is dus gelijk aan 2 0:02:31.850,0:02:39.660 + ,dit wordt 1 + 0 + 1, dus nog[br]een keer 2 0:02:40.020,0:02:51.130 +, dit wordt 1 + 0 + 1, dus 2 0:02:51.540,0:02:56.470 Onze 'binnen' kwadratensom is[br]dus gelijk aan 6 0:02:56.600,0:03:00.870 Een manier om hier naar te kijken is,[br]onze totale spreiding is 30, 0:03:00.870,0:03:08.660 6 van deze 30 komt voort uit spreiding[br]binnen deze steekproeven (groepen). 0:03:09.020,0:03:10.940 Het volgende waar ik over na wil denken 0:03:11.180,0:03:15.560 is hoeveel vrijheidsgraden we hebben in[br]deze berekening 0:03:15.560,0:03:19.300 hoeveel onafhankelijke datapunten we [br]eigenlijk hebben. 0:03:19.630,0:03:27.610 Voor elk van deze, hierzo, als je weet dat[br]we 'n' datapunten hebben voor elke groep, 0:03:27.610,0:03:30.440 hier is 'n' gelijk aan 3, maar als je[br]'n' min een van deze weet, 0:03:30.710,0:03:37.900 dan kan je altijd de n'de vinden, als je[br]het steekproefgemiddelde weet. 0:03:38.090,0:03:42.130 In dit geval, als je voor elk van deze [br]groepen 2 van de datapunten kent, 0:03:42.130,0:03:43.410 dan kan je altijd het derde datapunt[br]achterhalen. 0:03:43.410,0:03:44.550 Als je deze twee kent, dan kan je altijd 0:03:44.550,0:03:46.770 de derde achterhalen, als je het[br]steekproefgemiddelde kent. 0:03:47.130,0:03:50.420 Dus in het algemeen, laten we hier[br]de vrijheidsgraden berekenen. 0:03:50.420,0:03:57.330 Je hebt, voor elke groep[br]'n' - 1 vrijheidsgraden 0:03:57.370,0:04:03.970 Vergeet niet, 'n' is het aantal datapunten[br]die je in elke groep hebt. 0:04:03.970,0:04:09.310 Dus je hebt 'n' - 1 vrijheidsgraden voor [br]elk van deze groepen 0:04:09.350,0:04:12.430 Dat is dus 'n'-1, 'n'-1, 'n'-1 0:04:12.480,0:04:19.210 Of je hebt, laat ik het zo zeggen. Je hebt[br]'n'-1 voor elk van deze groepen, 0:04:19.380,0:04:21.660 en er zijn 'm' groepen 0:04:21.660,0:04:28.890 Dus we hebben [br]m maal ('n'-1) vrijheidsgraden 0:04:28.910,0:04:32.790 In dit specifieke geval is 'n' -1[br]gelijk aan twee 0:04:32.790,0:04:34.970 Je hebt voor elk geval 2 vrijheidsgraden, 0:04:34.970,0:04:45.680 en er zijn drie groepen, dus er zijn[br]vrijheidsgraden. 0:04:46.100,0:04:51.340 We kunnen later een betere discussie[br]hebben over wat vrijheidsgraden zijn, 0:04:51.340,0:04:54.380 hoe je er mathematisch over na moet denken 0:04:54.380,0:04:58.470 Maar de simpelste manier om erover na te[br]denken is 'echte' onafhankelijke datapunten 0:04:58.490,0:05:01.180 -- 0:05:01.180,0:05:04.670 -- 0:05:04.800,0:05:08.230 -- 0:05:08.230,0:05:10.490 Dus we hebben 6 vrijheidsgraden hier 0:05:10.720,0:05:18.090 Dat is dus hoeveel van de totale spreiding[br]te wijden is aan de spreiding binnen elke groep 0:05:18.310,0:05:23.800 Denk na over hoeveel van de spreiding te [br]wijten is aande spreiding tussen degroepen 0:05:25.440,0:05:29.380 Om dit te doen -- laat ik een mooie[br]kleur gebruiken -- 0:05:29.390,0:05:30.750 Ik heb volgens mij geen andere[br]kleuren meer 0:05:30.750,0:05:40.570 We zullen dit de 'tussen' kwadratensom[br]noemen. 0:05:41.090,0:05:44.560 Dus een andere manier om hier naar te[br]kijken is, hoeveel van de totale spreiding 0:05:44.560,0:05:49.300 te wijten is aan de spreiding tussen de[br]gemiddelden 0:05:49.380,0:05:50.990 Dat is wat we nu gaan berekenen en 0:05:50.990,0:05:56.430 hoeveel te wijten is aan de afstand tussen[br]de datapunten en het gemiddelde 0:05:56.740,0:06:01.480 Laten we uitzoeken hoeveel te wijten is[br]aan de spreiding tussen deze twee 0:06:01.500,0:06:06.840 Een manier om hier na te kijken -- 0:06:06.850,0:06:09.360 laten we nu alleen naar de [br]eerste groep kijken 0:06:09.530,0:06:12.850 Voor de eerste groep, hoeveel spreiding[br]van deze punten valt er te wijden 0:06:12.850,0:06:18.230 aan de spreiding tussen dit gemiddelde[br]en het gemiddelde van de gemiddelden 0:06:18.730,0:06:23.200 Voor het eerste punt -- ik ga dit allemaal[br]uitschrijven -- 0:06:23.600,0:06:31.000 Zal de spreiding het gemiddelde, 2 - het [br]gemiddelde van de gemiddelden ^2 zijn. 0:06:31.030,0:06:33.010 En voor dit punt zal dat hetzelfde zijn. 0:06:33.010,0:06:36.880 Zijn steekproefgemiddelde, 2, min het[br]gemiddelde van de gemiddelden ^2 0:06:37.650,0:06:39.220 + Hetzelfde voor dit punt 0:06:39.250,0:06:41.920 Zijn steekproefgemiddelde, 2, min het[br]gemiddelde van de gemiddelden ^2 0:06:41.920,0:06:52.200 Dit is dus ook gelijk aan [br]3 * (2-4)^2 0:06:52.440,0:07:02.650 Wat hetzelfde is als 3 * 4 = 12 0:07:02.820,0:07:05.810 Ik kan dit voor alle punten doen. Ik wil[br]namelijk de totale kwadratensom weten 0:07:05.810,0:07:08.640 Ik ga het even allemaal uitschrijven, dat[br]zal waarschijnlijk makkelijker zijn 0:07:09.120,0:07:13.230 Voor al deze punten samen 0:07:13.230,0:07:18.040 de kwadratensom die voortkomt uit de[br]verschillen tussen de steekproeven 0:07:18.040,0:07:21.460 Dus dat is van de eerste steekproef 0:07:21.470,0:07:23.130 en dan nu van de tweede steekproef 0:07:23.440,0:07:28.760 -- 0:07:28.770,0:07:33.040 Voor dit data punt zal de hoeveelheid[br]spreiding dat komt door het verschil in 0:07:33.040,0:07:37.530 gemiddelden gelijk zijn aan (4-4)^2 0:07:37.770,0:07:41.090 hetzelfde voor dit punt, (4-4)^2 0:07:41.100,0:07:45.610 -- 0:07:45.920,0:07:49.110 En dan tenslotte + (4-4)^2 0:07:49.120,0:07:50.370 We nemen dit 0:07:50.370,0:07:53.500 min dit gekwadrateerd voor elk van deze[br]datapunten 0:07:53.500,0:07:57.240 En dan nog tenslotte de laatste groep 0:07:57.550,0:08:09.940 het steekproefgemiddelde is 6 dus dat [br]wordt (6-4)^2 + (6-4)^2 + (6-4)^2 0:08:10.370,0:08:12.070 -- 0:08:12.070,0:08:19.490 Hoeveel vrijheidsgraden hadden we in deze[br]berekening hierzo 0:08:19.940,0:08:24.650 Nou, in het algemeen, denk ik dat de[br]simpelste manier om hier naar te kijken is: 0:08:24.650,0:08:28.410 hoeveel info hebben we,ervan uitgaande dat[br]we het gemiddelde van de gemiddelde kennen[br] 0:08:28.410,0:08:31.310 Als we het gemiddelde van de gemiddelden[br]kennen, hoe veel is hier dan nieuwe info? 0:08:31.920,0:08:37.160 Als je twee van deze, het gemiddelde van[br]de gemiddelden en 2 van de steekproef[br] 0:08:37.160,0:08:38.470 gemiddelden kent, dan kan je altijd de[br]derde berekenen 0:08:38.470,0:08:40.590 als je dit en dit weet, dan kan je dit[br]berekenen 0:08:40.700,0:08:42.710 als je dit en dit weet, dan kan je dit[br]berekenen 0:08:42.710,0:08:46.190 Dat is omdat dit het gemiddelde van deze[br]gemiddelden hier is. 0:08:46.360,0:08:51.530 Dus als je m groepen hebt of m gemiddelden 0:08:51.660,0:09:05.880 dan zijn er m-1 vrijheidsgraden 0:09:05.910,0:09:08.900 In dit geval is m 3 0:09:08.900,0:09:14.760 Dus we kunnen zeggen dat er in dit geval[br]2 vrijheidsgraden zijn 0:09:14.760,0:09:18.670 Laten we nu daadwerkelijk de kwadratensom[br]berekenen. Wat gaat dat worden? 0:09:19.120,0:09:29.340 Dit wordt gelijk aan dit hier, 2-4 is -2[br]in het kwadraat is 4 0:09:29.350,0:09:33.230 en dan hebben we 3 4-en hier, dus 3 * 4 0:09:33.590,0:09:51.070 + 30 + 3 (6-4)^2, wat gelijk is aan 34.[br]Dus plus 3 4 0:09:51.280,0:09:59.730 En we krijgen 3*4 is 12 +0 +12 is 24 0:09:59.750,0:10:03.960 Dus de kwadratensom, of de spreiding[br]die te wijten valt 0:10:03.960,0:10:08.690 aan het verschil tussen de groepen is 24 0:10:08.980,0:10:11.570 Laten we nu alles samen nemen. We hebben[br]gezegd dat de 0:10:11.570,0:10:17.820 totale spreiding als je naar alle 9[br]datapunten kijkt, gelijk is aan 30 0:10:17.820,0:10:19.350 Ik ga dat even hier schrijven 0:10:19.800,0:10:25.500 Dus de totale kwadratensom is gelijk[br]aan 30 0:10:25.880,0:10:32.590 We hebben de kwadratensom tussen elk [br]datapunt en zijn gemiddelde gevonden 0:10:32.590,0:10:39.640 We vonden dat de 'binnen' kwadratensom[br]gelijk is aan 6 0:10:40.140,0:10:48.800 De 'binnen' kwadratensom is gelijk aan 6.[br]In dit geval waren het 6 vrijheidsgraden 0:10:48.810,0:10:54.430 In het algemeen opgeschreven,[br]waren er m * (n-1) vrijheidsgraden 0:10:54.650,0:11:03.300 In feite vonden we dat we m * (n-1)[br]vrijheidsgraden hadden. 0:11:03.320,0:11:06.140 Ik schrijf de vrijheidsgraden even in deze[br]kolom hier 0:11:06.240,0:11:09.240 In dit geval was dit gelijk aan 8. 0:11:09.240,0:11:13.930 En we hebben net ook nog de kwadratensom[br]tussen de steekproeven berekend 0:11:14.180,0:11:18.180 De 'tussen' kwadratensom = 24 0:11:18.180,0:11:24.200 En we vonden dat het m-1 vrijheidsgraden[br]had, wat gelijk was aan 2 0:11:24.560,0:11:31.210 Het interessante hier --dit is waarom deze[br]analyse van spreiding zo goed bij elkaar past 0:11:31.230,0:11:35.230 In toekomstige videos kijken we hoe we[br]daadwerkelijk een hypothese kunnen testen 0:11:35.230,0:11:38.040 gebruik makende van de vaardigheden[br]waar we nu mee bezig zijn -- 0:11:38.300,0:11:42.700 Het interessante hier is dat de [br]'binnen' kwadratensom + 0:11:42.700,0:11:44.940 de 'tussen' kwadratensom [br]gelijk is aan de totale kwadratensom 0:11:45.040,0:11:50.680 Dus hoe je hier naar moet kijken is dat de[br]totale spreiding in deze data hier 0:11:50.680,0:11:55.800 omschreven kan worden als de som van de[br]spreiding binnen elk van deze groepen 0:11:55.800,0:11:57.800 plus de som van de spreiding tussen[br]de groepen 0:11:58.130,0:12:03.750 plus de som van de spreiding tussen[br]de groepen 0:12:03.770,0:12:05.970 Zelfs de vrijheidsgraden kloppen 0:12:05.970,0:12:08.900 De 'tussen' kwadratensom heeft 2[br]vrijheidsgraden 0:12:08.960,0:12:12.730 De 'binnen' kwadratensom heeft 6 [br]vrijheidsgraden 0:12:12.740,0:12:14.190 2+6 = 8 0:12:14.230,0:12:19.120 Dat isde totale hoeveelheid vrijheidsgradn[br]die we hebben voor alle data samen 0:12:19.120,0:12:22.910 Zelfs als je algemener kijk werkt het 0:12:22.930,0:12:26.730 Onze 'tussen' kwadratensom had m-1[br]vrijheidsgraden 0:12:27.070,0:12:33.140 Onze 'binnen' kwadratensom had m(n-1) [br]vrijheidsgraden 0:12:33.310,0:12:37.900 Dit is gelijk aan (m-1) + mn-m 0:12:38.280,0:12:43.900 Deze kan je tegen elkaar wegstrepen.[br]Dit is gelijk aan mn-1 vrijheidsgraden 0:12:43.920,0:12:48.610 wat de precieze hoeveelheid vrijheidsgradn[br]is voor de totale kwadratensom 0:12:48.940,0:12:53.660 Dus de reden voor de berekeningen in deze[br]en de vorige video 0:12:53.670,0:12:58.880 is om te begrijpen dat de totale spreiding[br]hier 0:12:58.880,0:13:04.160 gezien kan worden als de som van deze[br]twee component spreidingen 0:13:04.400,0:13:12.150 de hoeveelheid spreiding binnen deze [br]steekproeven 0:13:12.250,0:13:16.910 + de hoeveelheid spreiding tussen de [br]gemiddelden van deze steekproeven 0:13:16.910,0:13:18.580 Ik hoop dat dat niet te verwarrend is