0:00:00.000,0:00:03.280 In de laatste videos hebben we uitgezocht[br]wat de totale variatie is 0:00:03.280,0:00:06.400 in deze 9 data punten, 0:00:06.400,0:00:10.774 en dat was 30, onze totale kwadratensom.[br]Toen vroegen we ons af, 0:00:10.774,0:00:15.968 hoeveel van deze variatie komt door [br]variatie binnen groepen, versus variatie 0:00:15.968,0:00:18.798 tussen de groepen zelf? 0:00:18.828,0:00:26.045 Voor de variatie binnen groepen hadden we[br]de kwadratensom binnen groepen, dat was 6. 0:00:26.045,0:00:31.493 En de balans hiervan, 30, de balans van[br]deze variatie, 0:00:31.493,0:00:33.943 kwam van de variatie tussen groepen,[br]die hebben we uitgerekend. 0:00:33.943,0:00:38.523 Daaruit kwam 24. 0:00:38.523,0:00:45.903 Wat ik in deze video wil doen, is [br]dit type informatie gebruiken om 0:00:45.903,0:00:53.977 inferenties af te leiden, waarmee we[br]mogelijk een conclusie kunnen trekken. 0:00:53.977,0:00:56.660 Wat ik ga doen is deze groepen in een[br]context plaatsen. 0:00:56.660,0:00:59.247 We hebben deze groepen nu als abstract[br]behandeld, maar je kan bedenken dat 0:00:59.247,0:01:02.550 deze het resultaat zijn van een experiment 0:01:02.550,0:01:11.935 Stel dat ik 3 typen pillen, of 3 typen[br]voedsel, aan mensen geef die een toets maken 0:01:11.935,0:01:13.790 En dat zijn hun scores op die toets. 0:01:13.790,0:01:26.467 Dit is voedsel type 1, type 2, en dat[br]is voedsel 3. 0:01:26.467,0:01:33.313 En nu wil ik weten: beïnvloed het type [br]voedsel dat mensen eten hun testscore? 0:01:33.313,0:01:39.777 Als je naar de gemiddeldes kijkt dan lijkt[br]het alsof groep 3 beter is dan groep 1 &2 0:01:39.777,0:01:44.353 Maar komt dit verschil door toeval? 0:01:44.353,0:01:50.053 Of ben ik zeker dat er daadwerkelijk een[br]verschil zit 0:01:50.053,0:01:56.480 in de populatie gemiddeldes van alle[br]mensen die ooit voedsel 3, 2 of 1 nemen? 0:01:59.250,0:02:04.007 De vraag is hier, verschillen de populatie[br]gemiddeldes met de steekproefgemiddeldes? 0:02:04.007,0:02:07.918 Dit steekproefgemiddelde bestaat uit 3[br]metingen. 0:02:07.918,0:02:10.489 Maar als ik dat de ware populatie gemiddelden wist 0:02:10.489,0:02:14.235 Mijn vraag is: is het populatiegemiddelde [br]van mensen die voedsel type 1 eten gelijk 0:02:14.235,0:02:17.111 aan dat van mensen die voedsel type 2 eten? 0:02:17.111,0:02:22.557 Natuurlijk kan ik dit voedsel niet aan alle [br]mensen geven en ze daarna 0:02:22.557,0:02:25.543 te dwingen om die toets te maken. 0:02:25.543,0:02:28.533 Maar er is wél een ware gemiddelde, [br]we kunnen het alleen niet observeren. 0:02:28.533,0:02:35.460 Dus mijn vraag is 'dit' gelijk aan 'dit'[br]gelijk aan het ware populatiegemiddelde 0:02:35.460,0:02:38.570 van groep 3. Zijn deze drie aan elkaar [br]gelijk? 0:02:38.570,0:02:46.927 Als ze niet aan elkaar gelijk zijn, dan[br]moet een type voedsel een effect hebben 0:02:46.927,0:02:49.120 op mensen hun testscores. 0:02:49.120,0:02:57.717 Laten we een hypothesetoets uitvoeren.[br]Mijn nulhypothese is dat de gemiddeldes 0:02:57.717,0:03:01.073 aan elkaar gelijk zijn. Type voedsel heeft[br]geen effect. 0:03:01.073,0:03:10.960 Voedsel heeft geen effect. 0:03:10.960,0:03:16.247 Mijn alternatieve hypothese is dat voedsel[br]wél een effect heeft. 0:03:16.247,0:03:19.070 Quantitatief gezien betekent dit, 0:03:19.070,0:03:20.497 dat als er geen verschil is 0:03:20.497,0:03:24.520 de ware populatiegemiddeldes aan elkaar[br]gelijk zijn. 0:03:24.520,0:03:28.380 Het ware populatiegemiddelde van de groep[br]die voedsel 1 had zal gelijk zijn aan die 0:03:28.380,0:03:34.990 van de groep dat voedsel 2 had en aan dat[br]van groep 3. 0:03:34.990,0:03:39.483 Als onze alternatieve hypothese juist is[br]dan zijn deze gemiddelden niet aan elkaar gelijk. 0:03:39.483,0:03:43.550 Hoe kunnen we deze hypothese toetsen? 0:03:43.550,0:03:45.863 We nemen aan dat de nulhypothese waar is, 0:03:45.863,0:03:47.967 dat doen we altijd bij hypothese toetsing. 0:03:52.197,0:03:56.027 En dan berekenen we de kans dat 0:03:56.027,0:03:58.238 we een zekere statistiek krijgen die[br]zo extreem is? 0:03:58.238,0:04:01.119 En ik heb nog niet een gedefinieerd wat[br]deze statistiek is. 0:04:01.119,0:04:04.780 Dus we definieren -- we doen alsof de nul-[br]hypothese waar is en dan 0:04:04.797,0:04:09.157 en nu gebruiken we een statistiek genaamd[br]de F-statistiek. 0:04:09.157,0:04:11.933 Onze F-statistiek 0:04:11.933,0:04:17.040 Deze heeft een F-verdeling, daar gaan we [br]niet diep op in. 0:04:17.040,0:04:21.110 Maar je kan je deze voorstellen als zijnde[br]een ratio van 2 chi kwadraat verdelingen 0:04:21.110,0:04:24.069 Die mogelijk verschillende vrijheidsgraden[br]hebben. 0:04:24.069,0:04:36.278 Onze F-statistiek is de ratio van de[br]kwadratensom tussen de samples. 0:04:36.278,0:04:41.967 Gedeeld door de vrijheidsgraden tussen-- 0:04:41.967,0:04:46.133 Dit wordt de gemiddelde kwadratensom[br]genoemd. 0:04:46.133,0:05:03.173 Dat, gedeeld door de kwadratensom binnen,[br]gedeeld door de vrijheidgraden van de 0:05:03.173,0:05:04.463 kwadraten som binnen. 0:05:04.463,0:05:09.123 Dat was m, m keer (n-1) 0:05:09.123,0:05:11.640 Laten we even nadenken wat dit hier doet. 0:05:11.640,0:05:24.757 Als de teller veel groter is dan de noemer[br]dan geeft dat aan dat de variatie in deze 0:05:24.757,0:05:31.143 data voornamelijk veroorzaakt wordt door [br]verschillen in gemiddelden 0:05:31.143,0:05:35.820 en in mindere mate door de variatie binnen[br]de gemiddelden. 0:05:35.820,0:05:40.867 Dus als de teller groter is dan de noemer. 0:05:40.867,0:05:46.323 Dat geeft aan dat er een verschil is in de[br]ware populatiegemiddelden. 0:05:46.323,0:05:51.296 Als dit getal erg groot is, geeft dat aan[br]dat er een kleinere kans is dat onze 0:05:51.333,0:05:53.430 nulhypothese waar is. 0:05:53.430,0:06:01.753 Als dit getal erg klein is, dan komt[br]variatie binnen elke groep een groter 0:06:01.753,0:06:05.217 onderdeel is van de totale variatie dan de[br]variatie tussen groepen. 0:06:05.217,0:06:12.567 Dat betekent dat variatie binnen groepen[br]een groter % is van de totale variatie dan 0:06:12.573,0:06:14.590 vs de variatie tussen de groepen. 0:06:14.590,0:06:20.550 Dat geeft aan dat, een verschil in groeps-[br]gemiddelden waarschijnlijk toeval is. 0:06:20.550,0:06:24.940 En dat maakt het moeilijker om de nul-[br]hypothese te verwerpen. 0:06:24.940,0:06:27.007 Laten we het voor dit voorbeeld uitrekenen 0:06:27.007,0:06:38.480 in dit geval is onze kwadratensom tussen[br]groepen 24 en we hadden 2 vrijheidsgraden. 0:06:38.480,0:06:52.320 en onze kwadratensom binnen groepen was 6[br]en onze vrijheidsgraden waren ook 6. 0:06:52.320,0:06:59.957 24/2=12 /1 = 12 0:06:59.957,0:07:11.517 Dus onze F-statistiek is 12.[br]Dit staat voor Fischer, de bedenker. 0:07:11.517,0:07:16.487 Onze F-statistiek is 12.[br]Dit is een vrij hoog getal. 0:07:16.487,0:07:21.517 1 ding ben ik vergeten te zeggen, in elke[br]hypothese toets moet er een significantie 0:07:21.517,0:07:27.453 niveau zijn. Laten we ons signifiacntie[br]niveau op 10% zetten. 0:07:30.393,0:07:35.837 Wat betekent dat als we aannemen dat[br]de nulhypothese waar is dan is er een 0:07:35.837,0:07:40.220 kans van minder dan 10% om deze waarde,[br]deze F-statistiek te vinden dat we hebben. 0:07:40.220,0:07:41.667 Deze F-statistiek 0:07:41.667,0:07:44.550 Dan verwerpen we de nulhypothese 0:07:44.550,0:07:49.057 Dus wat we willen doen is een kritische[br]F-statistiek waarde die -- 0:07:49.057,0:07:53.610 Dat we zo een waarde of extremer vinden[br]met een kans van 10%. 0:07:53.610,0:07:58.923 En als deze groter is dan onze kritische F[br]waarde dan verwerpen we de nulhypothese. 0:07:58.923,0:08:01.563 Als deze kleiner is kunnen we niet de nul-[br]hypothese verwerpen. 0:08:01.563,0:08:06.267 Ik wil niet ingaan op de details van de[br]F-statistiek maar je kan op prijs stellen 0:08:06.267,0:08:10.357 dat elke kwadratensom chi kwadraat[br]verdeeld is. 0:08:10.357,0:08:14.650 Dit heeft een chi kwadraat verdeling endit[br]heeft een andere chi kwadraat verdeling. 0:08:14.650,0:08:17.533 Deze heeft twee vrijheidsgraden 0:08:17.533,0:08:23.423 Deze heeft ongeveer zes vrijheidsgraden. 0:08:23.427,0:08:29.490 De F-verdeling is een ratio van twee chi[br]kwadraat verdelingen. 0:08:29.490,0:08:40.873 en ik heb deze F-tabel, en zo ziet de F[br]verdeling eruit. 0:08:40.873,0:08:46.607 En deze ziet er anders uit bij andere[br]vrijheidsgraden in de teller of noemer. 0:08:46.607,0:08:52.020 Er zijn 2 vrijheidsgraden om over na te [br]denken. 0:08:52.023,0:08:56.933 Met dat in gedachten laten we de kritische[br]F-waarde berekenen. 0:08:56.933,0:09:02.037 De kritische F-waarde voor alpha=0.10 0:09:02.037,0:09:06.563 En je zal verschillende F-tabellen zien[br]Voor verschillende alpha's 0:09:06.563,0:09:11.563 waarbij onze teller vrijheidsgraden 2 zijn[br]en onze noemer vrijheidsgraden 6 zijn. 0:09:11.563,0:09:18.980 Deze hele tabel is voor een alpha van 0.10 0:09:18.980,0:09:24.583 En onze teller vrijheidsgraden is 2 en [br]onze noemer vrijheidsgraden is 6. 0:09:24.583,0:09:30.133 Dus onze kritische F-waarde is 3.46 0:09:39.440,0:09:45.323 De waarde die wij hebben gekregen is veel [br]hoger dan deze en heeft dus een erg kleine 0:09:45.323,0:09:49.627 p-waarde. De kans om zoiets extreems te[br]vinden per toeval aannemend dat de nul- 0:09:49.627,0:09:54.733 hypothese waar is, is erg klein. 0:09:56.423,0:10:04.193 Daarom kunnen we de nulhypothese verwerpen[br]en kunnen we concluderen dat de populatie 0:10:04.193,0:10:10.520 gemiddelden verschillen. Dat geeft aan dat[br]er een verschil is in prestatie op de test 0:10:10.520,0:10:14.000 als je de verschillende voedseltypes [br]toedient.