Ik wil in deze video er voor zorgen dat we
intuitief en ook anders het verschil begrijpen
tussen een Z-toets --iets dat ik maar moeilijk
uit kan spreken--- en een T-toets
Een hoop van wat we doen in dit soort
statistiek, is er achter proberen te komen wat
de kans is op een bepaald steekproefgemiddelde.
Dus wat we aan het doen zijn, in het bijzonder bij een
grote steekproef --Wacht, ik teken even een steekproeven-
Dus dit is de
steekproeven verdeling,
Je neemt een bepaald steekproeven-gemiddelde en standaarddeviatie aan.
En wat wij gaan doen is dat een verkregen resultaat, laten we zeggen
dat we dit steekproefgemiddelde krijgen.
We willen uitvinden wat de kans is dat we
een resultaat krijgen dat minstens zo extreem is als deze.
Dat kan je doen door de kans te vinden van een
resultaat onder dit gemiddelde en dat van 1 aftrekken, of
gewoon dit gebiedje hier berekenen.
En om dat te doen, kijken we hoeveel standaard
deviaties we boven het steekproeven-gemiddelde zitten.
En hoe we dat doen is dat we ons steekproefgemiddelde nemen, en we
trekken daar het steekproeven-gemiddelde van af
(of wat we aannemen dat het steekproeven-gemiddelde is, misschien weten we
dat wel niet)
En dat delen we door de standaarddeviate van de
steekproevenverdeling.
En dit is hoeveel standaarddeviaties ons steekproefgemiddelde
boven het steekproeven-gemiddelde zit.
Dat is deze afstand hier.
Gewoonlijk weten we ook niet wat dit hier is is.
Normaal weet je dat ook niet.
En de centrale limiet stelling vertelt ons dat, aangenomen
dat onze steekproef groot genoeg is, dat dit ding hier, dit
is hetzelfde als -- onze steekproef is
hetzelfde als de standaard deviatie van
de populatie, gedeeld door de wortel van
Dus dit deel van de formule hier kan worden herschreven als
het steekproefgemiddelde min het steekproevengemiddelde
gedeeld door dit deel hier --
gedeeld door het populatiegemiddelde, gedeeld door de wortel
van de steekproefgrootte
En dit is in essentie de beste maat die we hebben voor
hoe veel standaarddeviaties we van een gemiddelde we af zitten.
En dit hier, zoals we eerder geleerd hebben, is een
Z- score, of als we te maken hebben met echte statistiek, als
het afgeleid is van het steekproefgemiddelde, dan noemen we dit een
een z-toets.
En dat kunnen we opzoeken in een Z-tabel of in een normale
verdelingstabel, om te zien wat de kans id op
een waarde van deze Z of groter.
Dus dan zou je die kans krijgen.
Dus wat is de kans op
zo'n extreem resultaat?
Normaal gezien, en in de afgelopen paar video's hebben we dat ook gezien,
weten we ook niet wat de standaarddeviatie van de
populatie is.
Dus om de z-score te benaderen, om
te zeggen wat die ongeveer
zal zijn -- ik zal het even opnieuw
opschrijven-- We schatten de standaarddeviatie uit de populatie met onze standaarddeviatie
uit de steekproef -- ik doe het in een nieuwe kleur --- we gebruiken onze
standaarddeviatie uit de steekproef.
En dit mag als je steekproef groter is dan 30.
Of, op een andere manier gezegd, je kunt aannemen dat de steekproef normaal verdeeld is
als hij groter is dan 30.
En zelfs deze benadering is ongeveer normaal
verdeeld
Als je steekproef kleiner is dan 30, in het bijzonder als
het een heleboel kleiner is dan 30, dan zal dit
niet normaal verdeeld zijn.
Dus ik schrijf hem hier opnieuw.
Steekproefgemiddelde min je steekproeven-gemiddelde
gedeeld door de standaarddeviatie van de steekproef
gedeeld door de wortel van de steekproefgrootte.
We zeiden net al dat dit hier groter is dan 30, of gelijk aan 30.
Dan zal deze waarde hier
normaal verdeeld zijn
Als dat niet zo is, als dit klein is, dan zal dit een
T-verdeling zijn.
En dan ga je hetzelfde doen hier
maar nu neem je aan dat de verdeling
niet meer normaal verdeeld is,
dus in dit voorbeeld was het normaal.
alles van Z is normaal verdeeld.
Bij de t-verdeling, en dit zal
een normale t-verdeling zijn omdat
we het gemiddelde hebben afgetrokken.
Dus in een normale t-verdeling,
zal je een gemiddelde van 0 hebben.
En wat je gaat doen, is je wil weten wat de
waarschijnlijkheid is van het krijgen van
een t-waarde tenminste zo extreem.
Dus dit is de t-waarde die je zou krijgen,
en dan bereken je het gebied onder de lijn
hier.
Dus een makkelijke vuistregel is:
Bereken deze hoeveelheid hoe dan ook.
Als je meer dan 30 steekproeven hebt,
als je meer dan 30 steekproeven hebt,
Dan is de standaard deviatie van je steekproef
een goede schatter voor je
populatie standaard deviatie.
En dus zal dit hele ding
ongeveer normaal verdeeld zijn,
en kan je een Z tabel gebruiken
om de waarschijnlijkheid van een resultaat
zo extreem te vinden.
Als je steekproef klein is,
dan deze statistiek, deze hoeveelheid,
zal een t verdeling hebben,
en dan moet je een t tabel gebruiken,
om de waarschijnlijkheid van de t-waarde
te vinden ten minste zo extreem.
En we gaan dit zien in een voorbeeld
een paar videos verder dan nu,
in ieder geval, hopelijk heeft dit geholpen,
om wat dingen te verduidelijken in je hoofd
over hoe de Z-toets gebruikt moet worden
of wanneer je t-statistiek gebruikt.