< Return to Video

ANOVA 3-Hypothesis Test with F-Statistic

  • 0:00 - 0:03
    In de laatste videos hebben we uitgezocht
    wat de totale variatie is
  • 0:03 - 0:06
    in deze 9 data punten,
  • 0:06 - 0:11
    en dat was 30, onze totale kwadratensom.
    Toen vroegen we ons af,
  • 0:11 - 0:16
    hoeveel van deze variatie komt door
    variatie binnen groepen, versus variatie
  • 0:16 - 0:19
    tussen de groepen zelf?
  • 0:19 - 0:26
    Voor de variatie binnen groepen hadden we
    de kwadratensom binnen groepen, dat was 6.
  • 0:26 - 0:31
    En de balans hiervan, 30, de balans van
    deze variatie,
  • 0:31 - 0:34
    kwam van de variatie tussen groepen,
    die hebben we uitgerekend.
  • 0:34 - 0:39
    Daaruit kwam 24.
  • 0:39 - 0:46
    Wat ik in deze video wil doen, is
    dit type informatie gebruiken om
  • 0:46 - 0:54
    inferenties af te leiden, waarmee we
    mogelijk een conclusie kunnen trekken.
  • 0:54 - 0:57
    Wat ik ga doen is deze groepen in een
    context plaatsen.
  • 0:57 - 0:59
    We hebben deze groepen nu als abstract
    behandeld, maar je kan bedenken dat
  • 0:59 - 1:03
    deze het resultaat zijn van een experiment
  • 1:03 - 1:12
    Stel dat ik 3 typen pillen, of 3 typen
    voedsel, aan mensen geef die een toets maken
  • 1:12 - 1:14
    En dat zijn hun scores op die toets.
  • 1:14 - 1:26
    Dit is voedsel type 1, type 2, en dat
    is voedsel 3.
  • 1:26 - 1:33
    En nu wil ik weten: beïnvloed het type
    voedsel dat mensen eten hun testscore?
  • 1:33 - 1:40
    Als je naar de gemiddeldes kijkt dan lijkt
    het alsof groep 3 beter is dan groep 1 &2
  • 1:40 - 1:44
    Maar komt dit verschil door toeval?
  • 1:44 - 1:50
    Of ben ik zeker dat er daadwerkelijk een
    verschil zit
  • 1:50 - 1:56
    in de populatie gemiddeldes van alle
    mensen die ooit voedsel 3, 2 of 1 nemen?
  • 1:59 - 2:04
    De vraag is hier, verschillen de populatie
    gemiddeldes met de steekproefgemiddeldes?
  • 2:04 - 2:08
    Dit steekproefgemiddelde bestaat uit 3
    metingen.
  • 2:08 - 2:10
    Maar als ik dat de ware populatie gemiddelden wist
  • 2:10 - 2:14
    Mijn vraag is: is het populatiegemiddelde
    van mensen die voedsel type 1 eten gelijk
  • 2:14 - 2:17
    aan dat van mensen die voedsel type 2 eten?
  • 2:17 - 2:23
    Natuurlijk kan ik dit voedsel niet aan alle
    mensen geven en ze daarna
  • 2:23 - 2:26
    te dwingen om die toets te maken.
  • 2:26 - 2:29
    Maar er is wél een ware gemiddelde,
    we kunnen het alleen niet observeren.
  • 2:29 - 2:35
    Dus mijn vraag is 'dit' gelijk aan 'dit'
    gelijk aan het ware populatiegemiddelde
  • 2:35 - 2:39
    van groep 3. Zijn deze drie aan elkaar
    gelijk?
  • 2:39 - 2:47
    Als ze niet aan elkaar gelijk zijn, dan
    moet een type voedsel een effect hebben
  • 2:47 - 2:49
    op mensen hun testscores.
  • 2:49 - 2:58
    Laten we een hypothesetoets uitvoeren.
    Mijn nulhypothese is dat de gemiddeldes
  • 2:58 - 3:01
    aan elkaar gelijk zijn. Type voedsel heeft
    geen effect.
  • 3:01 - 3:11
    Voedsel heeft geen effect.
  • 3:11 - 3:16
    Mijn alternatieve hypothese is dat voedsel
    wél een effect heeft.
  • 3:16 - 3:19
    Quantitatief gezien betekent dit,
  • 3:19 - 3:20
    dat als er geen verschil is
  • 3:20 - 3:25
    de ware populatiegemiddeldes aan elkaar
    gelijk zijn.
  • 3:25 - 3:28
    Het ware populatiegemiddelde van de groep
    die voedsel 1 had zal gelijk zijn aan die
  • 3:28 - 3:35
    van de groep dat voedsel 2 had en aan dat
    van groep 3.
  • 3:35 - 3:39
    Als onze alternatieve hypothese juist is
    dan zijn deze gemiddelden niet aan elkaar gelijk.
  • 3:39 - 3:44
    Hoe kunnen we deze hypothese toetsen?
  • 3:44 - 3:46
    We nemen aan dat de nulhypothese waar is,
  • 3:46 - 3:48
    dat doen we altijd bij hypothese toetsing.
  • 3:52 - 3:56
    En dan berekenen we de kans dat
  • 3:56 - 3:58
    we een zekere statistiek krijgen die
    zo extreem is?
  • 3:58 - 4:01
    En ik heb nog niet een gedefinieerd wat
    deze statistiek is.
  • 4:01 - 4:05
    Dus we definieren -- we doen alsof de nul-
    hypothese waar is en dan
  • 4:05 - 4:09
    en nu gebruiken we een statistiek genaamd
    de F-statistiek.
  • 4:09 - 4:12
    Onze F-statistiek
  • 4:12 - 4:17
    Deze heeft een F-verdeling, daar gaan we
    niet diep op in.
  • 4:17 - 4:21
    Maar je kan je deze voorstellen als zijnde
    een ratio van 2 chi kwadraat verdelingen
  • 4:21 - 4:24
    Die mogelijk verschillende vrijheidsgraden
    hebben.
  • 4:24 - 4:36
    Onze F-statistiek is de ratio van de
    kwadratensom tussen de samples.
  • 4:36 - 4:42
    Gedeeld door de vrijheidsgraden tussen--
  • 4:42 - 4:46
    Dit wordt de gemiddelde kwadratensom
    genoemd.
  • 4:46 - 5:03
    Dat, gedeeld door de kwadratensom binnen,
    gedeeld door de vrijheidgraden van de
  • 5:03 - 5:04
    kwadraten som binnen.
  • 5:04 - 5:09
    Dat was m, m keer (n-1)
  • 5:09 - 5:12
    Laten we even nadenken wat dit hier doet.
  • 5:12 - 5:25
    Als de teller veel groter is dan de noemer
    dan geeft dat aan dat de variatie in deze
  • 5:25 - 5:31
    data voornamelijk veroorzaakt wordt door
    verschillen in gemiddelden
  • 5:31 - 5:36
    en in mindere mate door de variatie binnen
    de gemiddelden.
  • 5:36 - 5:41
    Dus als de teller groter is dan de noemer.
  • 5:41 - 5:46
    Dat geeft aan dat er een verschil is in de
    ware populatiegemiddelden.
  • 5:46 - 5:51
    Als dit getal erg groot is, geeft dat aan
    dat er een kleinere kans is dat onze
  • 5:51 - 5:53
    nulhypothese waar is.
  • 5:53 - 6:02
    Als dit getal erg klein is, dan komt
    variatie binnen elke groep een groter
  • 6:02 - 6:05
    onderdeel is van de totale variatie dan de
    variatie tussen groepen.
  • 6:05 - 6:13
    Dat betekent dat variatie binnen groepen
    een groter % is van de totale variatie dan
  • 6:13 - 6:15
    vs de variatie tussen de groepen.
  • 6:15 - 6:21
    Dat geeft aan dat, een verschil in groeps-
    gemiddelden waarschijnlijk toeval is.
  • 6:21 - 6:25
    En dat maakt het moeilijker om de nul-
    hypothese te verwerpen.
  • 6:25 - 6:27
    Laten we het voor dit voorbeeld uitrekenen
  • 6:27 - 6:38
    in dit geval is onze kwadratensom tussen
    groepen 24 en we hadden 2 vrijheidsgraden.
  • 6:38 - 6:52
    en onze kwadratensom binnen groepen was 6
    en onze vrijheidsgraden waren ook 6.
  • 6:52 - 7:00
    24/2=12 /1 = 12
  • 7:00 - 7:12
    Dus onze F-statistiek is 12.
    Dit staat voor Fischer, de bedenker.
  • 7:12 - 7:16
    Onze F-statistiek is 12.
    Dit is een vrij hoog getal.
  • 7:16 - 7:22
    1 ding ben ik vergeten te zeggen, in elke
    hypothese toets moet er een significantie
  • 7:22 - 7:27
    niveau zijn. Laten we ons signifiacntie
    niveau op 10% zetten.
  • 7:30 - 7:36
    Wat betekent dat als we aannemen dat
    de nulhypothese waar is dan is er een
  • 7:36 - 7:40
    kans van minder dan 10% om deze waarde,
    deze F-statistiek te vinden dat we hebben.
  • 7:40 - 7:42
    Deze F-statistiek
  • 7:42 - 7:45
    Dan verwerpen we de nulhypothese
  • 7:45 - 7:49
    Dus wat we willen doen is een kritische
    F-statistiek waarde die --
  • 7:49 - 7:54
    Dat we zo een waarde of extremer vinden
    met een kans van 10%.
  • 7:54 - 7:59
    En als deze groter is dan onze kritische F
    waarde dan verwerpen we de nulhypothese.
  • 7:59 - 8:02
    Als deze kleiner is kunnen we niet de nul-
    hypothese verwerpen.
  • 8:02 - 8:06
    Ik wil niet ingaan op de details van de
    F-statistiek maar je kan op prijs stellen
  • 8:06 - 8:10
    dat elke kwadratensom chi kwadraat
    verdeeld is.
  • 8:10 - 8:15
    Dit heeft een chi kwadraat verdeling endit
    heeft een andere chi kwadraat verdeling.
  • 8:15 - 8:18
    Deze heeft twee vrijheidsgraden
  • 8:18 - 8:23
    Deze heeft ongeveer zes vrijheidsgraden.
  • 8:23 - 8:29
    De F-verdeling is een ratio van twee chi
    kwadraat verdelingen.
  • 8:29 - 8:41
    en ik heb deze F-tabel, en zo ziet de F
    verdeling eruit.
  • 8:41 - 8:47
    En deze ziet er anders uit bij andere
    vrijheidsgraden in de teller of noemer.
  • 8:47 - 8:52
    Er zijn 2 vrijheidsgraden om over na te
    denken.
  • 8:52 - 8:57
    Met dat in gedachten laten we de kritische
    F-waarde berekenen.
  • 8:57 - 9:02
    De kritische F-waarde voor alpha=0.10
  • 9:02 - 9:07
    En je zal verschillende F-tabellen zien
    Voor verschillende alpha's
  • 9:07 - 9:12
    waarbij onze teller vrijheidsgraden 2 zijn
    en onze noemer vrijheidsgraden 6 zijn.
  • 9:12 - 9:19
    Deze hele tabel is voor een alpha van 0.10
  • 9:19 - 9:25
    En onze teller vrijheidsgraden is 2 en
    onze noemer vrijheidsgraden is 6.
  • 9:25 - 9:30
    Dus onze kritische F-waarde is 3.46
  • 9:39 - 9:45
    De waarde die wij hebben gekregen is veel
    hoger dan deze en heeft dus een erg kleine
  • 9:45 - 9:50
    p-waarde. De kans om zoiets extreems te
    vinden per toeval aannemend dat de nul-
  • 9:50 - 9:55
    hypothese waar is, is erg klein.
  • 9:56 - 10:04
    Daarom kunnen we de nulhypothese verwerpen
    en kunnen we concluderen dat de populatie
  • 10:04 - 10:11
    gemiddelden verschillen. Dat geeft aan dat
    er een verschil is in prestatie op de test
  • 10:11 - 10:14
    als je de verschillende voedseltypes
    toedient.
Title:
ANOVA 3-Hypothesis Test with F-Statistic
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
10:14

Dutch subtitles

Revisions