< Return to Video

ANOVA 2 - Calculating SSW and SSB (Total Sum of Squares Within and Between).avi

  • 0:01 - 0:02
    In de laatste video is het ons gelukt om
  • 0:02 - 0:06
    de totale kwadratensom te berekenen voor
    deze 9 data punten.
  • 0:06 - 0:10
    Deze data punten zijn verdeeld in drie
    verschillende groepen,
  • 0:10 - 0:13
    of algemener gezegd, in "m" verschillende
    groepen.
  • 0:13 - 0:18
    Wat ik in deze video wil proberen, is
    uitvinden hoeveel van deze totale kwadratensom
  • 0:18 - 0:22
    hoeveel hiervan te wijten is aan de
    spreiding binnen elke groep
  • 0:22 - 0:26
    versus de spreiding tussen de groepen.
  • 0:26 - 0:30
    Laten we om te beginnen de totale
    spreiding binnen de groepen achterhalen,
  • 0:30 - 0:36
    laten we dit de 'binnen' kwadratensom
    noemen, ik doe dit in het geel,
  • 0:36 - 0:40
    oh ik heb al geel gebruikt, dus we gaan
    blauw gebruiken
  • 0:40 - 0:46
    Dus de 'binnen' kwadratensom
  • 0:46 - 0:51
    Laat ik dit even duidelijk maken,
    dat staat voor 'binnen'.
  • 0:51 - 0:54
    Dus we willen weten hoeveel van een
    spreiding te wijten is
  • 0:54 - 0:58
    aan hoe ver elk van deze data punten
    verwijderd is van hun
  • 0:58 - 1:00
    bijbehorende gemiddelden
  • 1:00 - 1:02
    Dus dit gaat gelijk zijn aan - laten
    we met deze jongens beginnen -
  • 1:02 - 1:07
    Dus in plaats van de afstand tussen deze
    datapunten en hun gemiddelden te nemen,
  • 1:07 - 1:12
    ga ik de afstand tussen deze datapunten
    en het groepsgemiddelde berekenen
  • 1:12 - 1:17
    omdat we de totale kwadratensom
    willen kwadrateren
  • 1:17 - 1:21
    tussen elk datapunt en hun bijbehorende
    gemiddelde
  • 1:21 - 1:26
    3 min het gemiddelde hier,
    dat gelijk is aan 2, gekwadrateerd.
  • 1:26 - 1:31
    + (2 - 2) in het kwadraat
  • 1:31 - 1:34
    + (1- 2) in het kwadraat.
  • 1:35 - 1:37
    Ik ga dit voor alle groepen doen,
  • 1:37 - 1:40
    maar voor elke groep de afstand tussen
    zijn datapunt en het gemiddelde.
  • 1:40 - 1:57
    Dus: + (5-4)^2 + (3-4)^2 + (4-4)^2
  • 1:57 - 2:00
    en dan nu eindelijk de derde groep,
  • 2:00 - 2:05
    we stellen de kwadratensom van elk punt
    naar het bijbehorende gemiddelde vast
  • 2:05 - 2:07
    binnen die groep, we gaan ze
    allemaal optellen
  • 2:07 - 2:09
    En dan stellen we de derde groep vast,
    dus we krijgen:
  • 2:09 - 2:21
    (5-6)^2 + (6-6)^2 + (7-6)^2
  • 2:21 - 2:22
    En waar gaat dit gelijk aan zijn?
  • 2:22 - 2:29
    Dit is dus gelijk aan 1 + 0 + 1,
  • 2:30 - 2:32
    dat is dus gelijk aan 2
  • 2:32 - 2:40
    + ,dit wordt 1 + 0 + 1, dus nog
    een keer 2
  • 2:40 - 2:51
    +, dit wordt 1 + 0 + 1, dus 2
  • 2:52 - 2:56
    Onze 'binnen' kwadratensom is
    dus gelijk aan 6
  • 2:57 - 3:01
    Een manier om hier naar te kijken is,
    onze totale spreiding is 30,
  • 3:01 - 3:09
    6 van deze 30 komt voort uit spreiding
    binnen deze steekproeven (groepen).
  • 3:09 - 3:11
    Het volgende waar ik over na wil denken
  • 3:11 - 3:16
    is hoeveel vrijheidsgraden we hebben in
    deze berekening
  • 3:16 - 3:19
    hoeveel onafhankelijke datapunten we
    eigenlijk hebben.
  • 3:20 - 3:28
    Voor elk van deze, hierzo, als je weet dat
    we 'n' datapunten hebben voor elke groep,
  • 3:28 - 3:30
    hier is 'n' gelijk aan 3, maar als je
    'n' min een van deze weet,
  • 3:31 - 3:38
    dan kan je altijd de n'de vinden, als je
    het steekproefgemiddelde weet.
  • 3:38 - 3:42
    In dit geval, als je voor elk van deze
    groepen 2 van de datapunten kent,
  • 3:42 - 3:43
    dan kan je altijd het derde datapunt
    achterhalen.
  • 3:43 - 3:45
    Als je deze twee kent, dan kan je altijd
  • 3:45 - 3:47
    de derde achterhalen, als je het
    steekproefgemiddelde kent.
  • 3:47 - 3:50
    Dus in het algemeen, laten we hier
    de vrijheidsgraden berekenen.
  • 3:50 - 3:57
    Je hebt, voor elke groep
    'n' - 1 vrijheidsgraden
  • 3:57 - 4:04
    Vergeet niet, 'n' is het aantal datapunten
    die je in elke groep hebt.
  • 4:04 - 4:09
    Dus je hebt 'n' - 1 vrijheidsgraden voor
    elk van deze groepen
  • 4:09 - 4:12
    Dat is dus 'n'-1, 'n'-1, 'n'-1
  • 4:12 - 4:19
    Of je hebt, laat ik het zo zeggen. Je hebt
    'n'-1 voor elk van deze groepen,
  • 4:19 - 4:22
    en er zijn 'm' groepen
  • 4:22 - 4:29
    Dus we hebben
    m maal ('n'-1) vrijheidsgraden
  • 4:29 - 4:33
    In dit specifieke geval is 'n' -1
    gelijk aan twee
  • 4:33 - 4:35
    Je hebt voor elk geval 2 vrijheidsgraden,
  • 4:35 - 4:46
    en er zijn drie groepen, dus er zijn
    vrijheidsgraden.
  • 4:46 - 4:51
    We kunnen later een betere discussie
    hebben over wat vrijheidsgraden zijn,
  • 4:51 - 4:54
    hoe je er mathematisch over na moet denken
  • 4:54 - 4:58
    Maar de simpelste manier om erover na te
    denken is 'echte' onafhankelijke datapunten
  • 4:58 - 5:01
    --
  • 5:01 - 5:05
    --
  • 5:05 - 5:08
    --
  • 5:08 - 5:10
    Dus we hebben 6 vrijheidsgraden hier
  • 5:11 - 5:18
    Dat is dus hoeveel van de totale spreiding
    te wijden is aan de spreiding binnen elke groep
  • 5:18 - 5:24
    Denk na over hoeveel van de spreiding te
    wijten is aande spreiding tussen degroepen
  • 5:25 - 5:29
    Om dit te doen -- laat ik een mooie
    kleur gebruiken --
  • 5:29 - 5:31
    Ik heb volgens mij geen andere
    kleuren meer
  • 5:31 - 5:41
    We zullen dit de 'tussen' kwadratensom
    noemen.
  • 5:41 - 5:45
    Dus een andere manier om hier naar te
    kijken is, hoeveel van de totale spreiding
  • 5:45 - 5:49
    te wijten is aan de spreiding tussen de
    gemiddelden
  • 5:49 - 5:51
    Dat is wat we nu gaan berekenen en
  • 5:51 - 5:56
    hoeveel te wijten is aan de afstand tussen
    de datapunten en het gemiddelde
  • 5:57 - 6:01
    Laten we uitzoeken hoeveel te wijten is
    aan de spreiding tussen deze twee
  • 6:02 - 6:07
    Een manier om hier na te kijken --
  • 6:07 - 6:09
    laten we nu alleen naar de
    eerste groep kijken
  • 6:10 - 6:13
    Voor de eerste groep, hoeveel spreiding
    van deze punten valt er te wijden
  • 6:13 - 6:18
    aan de spreiding tussen dit gemiddelde
    en het gemiddelde van de gemiddelden
  • 6:19 - 6:23
    Voor het eerste punt -- ik ga dit allemaal
    uitschrijven --
  • 6:24 - 6:31
    Zal de spreiding het gemiddelde, 2 - het
    gemiddelde van de gemiddelden ^2 zijn.
  • 6:31 - 6:33
    En voor dit punt zal dat hetzelfde zijn.
  • 6:33 - 6:37
    Zijn steekproefgemiddelde, 2, min het
    gemiddelde van de gemiddelden ^2
  • 6:38 - 6:39
    + Hetzelfde voor dit punt
  • 6:39 - 6:42
    Zijn steekproefgemiddelde, 2, min het
    gemiddelde van de gemiddelden ^2
  • 6:42 - 6:52
    Dit is dus ook gelijk aan
    3 * (2-4)^2
  • 6:52 - 7:03
    Wat hetzelfde is als 3 * 4 = 12
  • 7:03 - 7:06
    Ik kan dit voor alle punten doen. Ik wil
    namelijk de totale kwadratensom weten
  • 7:06 - 7:09
    Ik ga het even allemaal uitschrijven, dat
    zal waarschijnlijk makkelijker zijn
  • 7:09 - 7:13
    Voor al deze punten samen
  • 7:13 - 7:18
    de kwadratensom die voortkomt uit de
    verschillen tussen de steekproeven
  • 7:18 - 7:21
    Dus dat is van de eerste steekproef
  • 7:21 - 7:23
    en dan nu van de tweede steekproef
  • 7:23 - 7:29
    --
  • 7:29 - 7:33
    Voor dit data punt zal de hoeveelheid
    spreiding dat komt door het verschil in
  • 7:33 - 7:38
    gemiddelden gelijk zijn aan (4-4)^2
  • 7:38 - 7:41
    hetzelfde voor dit punt, (4-4)^2
  • 7:41 - 7:46
    --
  • 7:46 - 7:49
    En dan tenslotte + (4-4)^2
  • 7:49 - 7:50
    We nemen dit
  • 7:50 - 7:54
    min dit gekwadrateerd voor elk van deze
    datapunten
  • 7:54 - 7:57
    En dan nog tenslotte de laatste groep
  • 7:58 - 8:10
    het steekproefgemiddelde is 6 dus dat
    wordt (6-4)^2 + (6-4)^2 + (6-4)^2
  • 8:10 - 8:12
    --
  • 8:12 - 8:19
    Hoeveel vrijheidsgraden hadden we in deze
    berekening hierzo
  • 8:20 - 8:25
    Nou, in het algemeen, denk ik dat de
    simpelste manier om hier naar te kijken is:
  • 8:25 - 8:28
    hoeveel info hebben we,ervan uitgaande dat
    we het gemiddelde van de gemiddelde kennen
  • 8:28 - 8:31
    Als we het gemiddelde van de gemiddelden
    kennen, hoe veel is hier dan nieuwe info?
  • 8:32 - 8:37
    Als je twee van deze, het gemiddelde van
    de gemiddelden en 2 van de steekproef
  • 8:37 - 8:38
    gemiddelden kent, dan kan je altijd de
    derde berekenen
  • 8:38 - 8:41
    als je dit en dit weet, dan kan je dit
    berekenen
  • 8:41 - 8:43
    als je dit en dit weet, dan kan je dit
    berekenen
  • 8:43 - 8:46
    Dat is omdat dit het gemiddelde van deze
    gemiddelden hier is.
  • 8:46 - 8:52
    Dus als je m groepen hebt of m gemiddelden
  • 8:52 - 9:06
    dan zijn er m-1 vrijheidsgraden
  • 9:06 - 9:09
    In dit geval is m 3
  • 9:09 - 9:15
    Dus we kunnen zeggen dat er in dit geval
    2 vrijheidsgraden zijn
  • 9:15 - 9:19
    Laten we nu daadwerkelijk de kwadratensom
    berekenen. Wat gaat dat worden?
  • 9:19 - 9:29
    Dit wordt gelijk aan dit hier, 2-4 is -2
    in het kwadraat is 4
  • 9:29 - 9:33
    en dan hebben we 3 4-en hier, dus 3 * 4
  • 9:34 - 9:51
    + 30 + 3 (6-4)^2, wat gelijk is aan 34.
    Dus plus 3
    4
  • 9:51 - 10:00
    En we krijgen 3*4 is 12 +0 +12 is 24
  • 10:00 - 10:04
    Dus de kwadratensom, of de spreiding
    die te wijten valt
  • 10:04 - 10:09
    aan het verschil tussen de groepen is 24
  • 10:09 - 10:12
    Laten we nu alles samen nemen. We hebben
    gezegd dat de
  • 10:12 - 10:18
    totale spreiding als je naar alle 9
    datapunten kijkt, gelijk is aan 30
  • 10:18 - 10:19
    Ik ga dat even hier schrijven
  • 10:20 - 10:26
    Dus de totale kwadratensom is gelijk
    aan 30
  • 10:26 - 10:33
    We hebben de kwadratensom tussen elk
    datapunt en zijn gemiddelde gevonden
  • 10:33 - 10:40
    We vonden dat de 'binnen' kwadratensom
    gelijk is aan 6
  • 10:40 - 10:49
    De 'binnen' kwadratensom is gelijk aan 6.
    In dit geval waren het 6 vrijheidsgraden
  • 10:49 - 10:54
    In het algemeen opgeschreven,
    waren er m * (n-1) vrijheidsgraden
  • 10:55 - 11:03
    In feite vonden we dat we m * (n-1)
    vrijheidsgraden hadden.
  • 11:03 - 11:06
    Ik schrijf de vrijheidsgraden even in deze
    kolom hier
  • 11:06 - 11:09
    In dit geval was dit gelijk aan 8.
  • 11:09 - 11:14
    En we hebben net ook nog de kwadratensom
    tussen de steekproeven berekend
  • 11:14 - 11:18
    De 'tussen' kwadratensom = 24
  • 11:18 - 11:24
    En we vonden dat het m-1 vrijheidsgraden
    had, wat gelijk was aan 2
  • 11:25 - 11:31
    Het interessante hier --dit is waarom deze
    analyse van spreiding zo goed bij elkaar past
  • 11:31 - 11:35
    In toekomstige videos kijken we hoe we
    daadwerkelijk een hypothese kunnen testen
  • 11:35 - 11:38
    gebruik makende van de vaardigheden
    waar we nu mee bezig zijn --
  • 11:38 - 11:43
    Het interessante hier is dat de
    'binnen' kwadratensom +
  • 11:43 - 11:45
    de 'tussen' kwadratensom
    gelijk is aan de totale kwadratensom
  • 11:45 - 11:51
    Dus hoe je hier naar moet kijken is dat de
    totale spreiding in deze data hier
  • 11:51 - 11:56
    omschreven kan worden als de som van de
    spreiding binnen elk van deze groepen
  • 11:56 - 11:58
    plus de som van de spreiding tussen
    de groepen
  • 11:58 - 12:04
    plus de som van de spreiding tussen
    de groepen
  • 12:04 - 12:06
    Zelfs de vrijheidsgraden kloppen
  • 12:06 - 12:09
    De 'tussen' kwadratensom heeft 2
    vrijheidsgraden
  • 12:09 - 12:13
    De 'binnen' kwadratensom heeft 6
    vrijheidsgraden
  • 12:13 - 12:14
    2+6 = 8
  • 12:14 - 12:19
    Dat isde totale hoeveelheid vrijheidsgradn
    die we hebben voor alle data samen
  • 12:19 - 12:23
    Zelfs als je algemener kijk werkt het
  • 12:23 - 12:27
    Onze 'tussen' kwadratensom had m-1
    vrijheidsgraden
  • 12:27 - 12:33
    Onze 'binnen' kwadratensom had m(n-1)
    vrijheidsgraden
  • 12:33 - 12:38
    Dit is gelijk aan (m-1) + mn-m
  • 12:38 - 12:44
    Deze kan je tegen elkaar wegstrepen.
    Dit is gelijk aan mn-1 vrijheidsgraden
  • 12:44 - 12:49
    wat de precieze hoeveelheid vrijheidsgradn
    is voor de totale kwadratensom
  • 12:49 - 12:54
    Dus de reden voor de berekeningen in deze
    en de vorige video
  • 12:54 - 12:59
    is om te begrijpen dat de totale spreiding
    hier
  • 12:59 - 13:04
    gezien kan worden als de som van deze
    twee component spreidingen
  • 13:04 - 13:12
    de hoeveelheid spreiding binnen deze
    steekproeven
  • 13:12 - 13:17
    + de hoeveelheid spreiding tussen de
    gemiddelden van deze steekproeven
  • 13:17 - 13:19
    Ik hoop dat dat niet te verwarrend is
Title:
ANOVA 2 - Calculating SSW and SSB (Total Sum of Squares Within and Between).avi
Description:

more » « less
Video Language:
English
Duration:
13:20

Dutch subtitles

Revisions