-
.
-
I denne video skal vi snakke om en af de
-
mest fundamentale og dybgående koncepter i statistik og
-
måske også i hele matematikkens Verden.
-
Og det er netop den "centrale grænseværdi sætning".
-
.
-
og den viser os, at vi kan starte med en hvilken som helst
-
fordeling, som har et vel-defineret gennemsnit og varians.
-
Og hvis den har en vel-defineret varians, så har den også en vel-defineret
-
standard afvigelse.
-
Det kan være en kontinuert fordeling eller en diskret fordeling.
-
vi tegner en diskret en, fordi det er nemmere at
-
forestille sig - i det mindste for denne videos formål.
-
Lad os sige, at vi har en diskret sandsynligheds
-
fordelings funktion.
-
og vi skal sikre os, at den ikke kommer til at ligne
-
en normal fordeling, fordi vi vil vise
-
styrken ved den centrale grænseværdi sætning.
-
Lad os sige, at vi en fordeling.
-
Lad os sige, vi bruger værdierne 1 til 6
-
1, 2, 3, 4, 5, 6.
-
det er en slags skør terning
-
lad os sige, at det er meget sandsynligt at slå 1
-
lad os lige lave en lige linie - der er en meget store sandsynlighed
-
for at slå en 1'er, lad os sige det er umuligt at slå 2, lad os
-
sige at der er OK stor sandsynlighed for at slå en 3'er og en 4'er,
-
Lad os sige det er umuligt at slå 5.
-
og lad os sige at det er meget sandsynligt at slå 6.
-
Det er så vores sandsynligheds fordelings funktion.
-
Hvis vi skulle vise gennemsnittet - denne er symetrisk, så måske ville gennemsnittet
-
se nogenlunde sådan her ud.
-
Så ville gennemsnittet være halvvejs.
-
Det ville altså være gennemsnittet lige her.
-
Standard afvigelsen, ville måske - den ville
-
være så langt over og så langt under gennemsnittet.
-
Men det er altså vores diskrete sandsynligheds
-
fordelings funktion.
-
Det vi så gør nu, i stedet for bare at udvælge stikprøver
-
af denne tilfældige variabel som er beskrevet af denne sandsynligheds
-
fordelings funktion. Vi tager en stikprøve..
-
men vi laver et gennemsnit af stikprøverne og ser så på
-
stikprøverne og den frekvens som gennemsnittene giver.
-
og når jeg siger "average", så mener jeg gennemsnittet.
-
Lad os sige - og lad os lige definere en ting - lad os sige at vores
-
stikprøve størrelsen, og her kunne vi skrive et hvilket som helst tal, med lad os
-
først prøve en stikprøve størrelse af n = 4.
-
og det betyder altså, at vi tager 4
-
stikprøver fra denne.
-
Lad os sige vi tager 4 stikprøver.
-
Så vores stikprøve-størrelse er 4.
-
Lad os antage, at vi en 1'er, og en til 1'er, lad os sige
-
vi får en 3'er og en 6'er.
-
Så det er altså min første stikprøve med prøve-størrelsen 4.
-
Terminologien kan være lidt forvirrende fordi dette er
-
en stikprøve der består af 4 stikprøver.
-
Men når vi snakker om stikprøvens gennemsnit og den fordeling
-
som prøvetagningen antager, af stikprøve-gennemsnittet, som vi kommer til at tale mere
-
og mere omkring i de næste par videoer. Normalt vil prøvetagningen
-
referere til stikprøverne fra vores fordeling.
-
Og stikprøvestørrelsen fortæller os hvor mange vi rent faktisk tog
-
fra vores fordeling.
-
Men igen kan terminologien være meget forvirrende fordi vi kan
-
let komme til at se en af disse som en stikprøve.
-
Men vi tager altså 4 stikprøver her.
-
Vi har en stikprøve-størrelse på 4.
-
Og det vi gør nu, er at vi tager gennemsnittet af dem.
-
Så lad os tage gennemsnittet
-
Gennemsnittet af den første stikprøve på 4 er hvad?
-
1 + 1 er 2
-
2 + 3 er 5.
-
5 + 6 er 11.
-
11 divideret med 4 er 2,75.
-
Det er gennemsnitet af første stikprøve på 4.
-
Lad os tage en til.
-
Min anden stikprøve er på 4.
-
Lad os sige, at vi har en 3'er, en 4'er, og en til 3'er,
-
og lad os sige vi får en 1'er.
-
Denne gang fik vi ikke en 6'er.
-
og bemærk, at vi ikke kan få 2 og 5.
-
Det er umuligt for denne fordeling.
-
Chancen for at få en 2'er eller en 5'er er 0.
-
Vi kan ikke slå nogle 2'ere og 5'ere.
-
Så for denne anden stikprøve på 4, vores prøve gennemsnit
-
vil være 3 + 4 er 7.
-
7 + 3 er 10, plus 1 er 11.
-
11 divideret med 4, er atter en gang 2,75.
-
Lad os tage en til for at gøre det helt klart
-
hvad vi har gang i.
-
Vi tager en til - rent faktisk tager vi mange
-
flere, men lad os tage en til
-
Lad os sige vores tredje stikprøve på 4
-
Vi laver 4 stikprøver.
-
Vores stikprøve består af 4 prøver fra denne originale
-
skøre fordeling.
-
lad os sige vi får en 1'er, en 1'er, en 6'er og en 6'er.
-
Og så bliver vores tredje stikprøve gennemsnit 1 + 1 er 2.
-
2 plus 6 er 8.
-
8 plus 6 er 14.
-
14 divideret med 4 er 3,5.
-
.
-
Så for hvert af vores
-
stikprøver, af prøve-størrelse 4, finder vi vores gennemsnit
-
og som vi beregner hvert af dem, plotter vi dem ind i denne frekvens fordeling.
-
Og dette vil sikkert overraske jer om lidt.
-
Vi plotter dette ind i en frekvens fordeling.
-
I vores første strikprøve er
-
vores gennemsnit 2,75.
-
Vi plotter frekvenserne af stikprøve gennemsnittene ind
-
for hver af vores stikprøver.
-
2,75 - har vi allerede.
-
Så vi sætter en lille markering her.
-
Det er fra den lige her.
-
Den anden er også 2,75.
-
Det er 2,75 der.
-
Det fik vi så to gange.
-
vi markere frekvensen lige her.
-
Så har vi 3,5.
-
Altså alle vores mulige værdier. Vi kunne have 3, og
-
3,25, vi kunne have 3,5
-
Så vi markere 3,5 her.
-
Og vi bliver ved med at
-
tage disse stikprøver.
-
Måske tager vi 10.000 stikprøver.
-
Vi bliver altså ved med at tage stikprøver.
-
Så vi kommer helt op til 10.000.
-
Vi tager lige nogle flere.
-
Over tid vil vi markere en prik for hver af disse
-
vi zoomer lige lidt ud
-
Når vi ser på det, på denne måde - over tid - vil den stadig have
-
alle de værdier som den kan antage.
-
Vi ved, at 2,75 må være her.
-
Så den første prik, bliver altså den lige her,
-
som vi placerer der, og den anden sætter vi lige
-
der, og den der placerer vi ved 3,5, lige der.
-
Men vi skal gøre det 10.000 gange, så
-
vi har 10.000.
-
Og imens vi beregner dem, så
-
plotter vi dem ind.
-
Vi markerer bare frekvenserne
-
igen og igen
-
og igen og igen.
-
Og det vi vil se, som vi tager mange mange
-
stikprøver á 4
-
får vi noget der begynder at
-
ligne en normal fordeling.
-
hver af disse prikker indikere altså et gennemsnit af en stikprøve.
-
Som vi bliver ved med at tillægge den kolonne her, betyder
-
det at vi blev ved med at gå gennemsnittet 2,75.
-
Så over tid, får vi altså noget der begynder
-
at ligne en normal fordeling.
-
Og det er det der gør central grænse sætningen speciel.
-
Så central grænsen - vi skriver det i
-
orange - er tilfældet for n = 4.
-
Dette var for prøvestørrelse 4.
-
Hvis vi så gjorde det samme med en prøvestørrelse på 20.
-
I dette tilfælde, i stedet for bare at tage 4 prøver fra vores
-
originale skøre fordeling, tager vi 20
-
tilfælde af vores tilfældige variable og regner gennemsnittet af disse 20 og
-
vi markerer prøve gennemsnittet her.
-
I det tilfælde, får vi en fordeling
-
som ser sådan her ud.
-
Og det vil vi diskuterer mere i andre videoer.
-
Men det viser sig, at hvis vi plottede 10.000 gennemsnit ind
-
her, får vi noget der - to ting:
-
-kommer mere til at ligne en normal
-
fordeling.
-
Og vi vil kunne se i senere videoer, at den
-
vil have en mindre - eller lad os være specifikke - den vil
-
have det samme gennemsnit.
-
Så det er altså gennemsnittet.
-
Den vil have det samme gennemsnit.
-
Den vil have en mindre standard afvigelse.
-
Så vi plotter disse fra bunden, fordi
-
vi, nærmest stabler dem.
-
man får flere og flere tilfælde.
-
Og dette vil mere end nærme sig
-
en normal fordeling.
-
Så det er altså - og det er det som er så fedt ved
-
central grænse sætningen - som vores stikprøve størrelse bliver større,
-
eller vi kan sige som den nærmer sig uendeligt
-
eller så tæt behøver vi heller ikke at komme på uendeligt,
-
så kommer vi tættere på en normal fordeling.
-
Selv hvis vi har en stikprøve størrelse på 10 eller 20, vil vi
-
komme tæt på en normal fordeling.
-
Ja rent faktisk så tæt på som vi vil se det
-
i vores hverdag.
-
Men det lækre er, at vi kan starte med en tilfældig
-
fordeling.
-
Dette har ikke noget at gøre med en normal fordeling
-
Men hvis vi sætter stikprøvestørrelsen til - her var den 4 - men hvis vi
-
sætter den til 10 eller 100 og vi skulle
-
tage 100 af disse i stedet for 4 here og finde gennemsnittet af dem
-
og så plotte gennemsnittene, frekvensen af dem.
-
Og vi tager 100 igen, gennemsnitter dem,
-
og plotter det igen.
-
Og hvis vi gjorde det et par gange, ja faktisk hvis vi
-
gjorde det uendeligt mange gange, ville vi se -
-
især hvis vi havde uendeligt mange - vi
-
ville se en perfekt normal fordeling.
-
Det er det skøre ved det.
-
Og det virker ikke ved bare at tage gennemsnittet af stikprøven.
-
Her tog vi gennemsnittet, men vi kunne også have
-
taget summen.
-
Central grænse sætningen ville stadig have virket.
-
Og det er det som gør den så brugbar.
-
Fordi i det virkelige liv, er der alle mulige processer der ude,
-
proteiner der slår mod hinanden, folk der gør skøre
-
ting, mennesker agerer på mærkelige måder.
-
Og vi kender ikke sandsynligheds fordelings
-
funktionen for nogle af disse ting.
-
Men det som central grænse sætningen fortæller os, er hvis vi
-
lagde en masse af de funktioner sammen, og antog at de
-
alle havde den samme fordeling, eller hvis vi tog gennemsnittet
-
af alle de funktioner og hvis vi plottede
-
frekvensen af de gennemsnit ind, ville vi få en normal
-
fordeling.
-
Og det derfor normal fordelingen ses så
-
ofte i statistik, og også derfor det er er en meget god
-
tilnærmelse for summen af gennemsnittene for en masse
-
processer.
-
Normal fordelingen.
-
Det vi skal se på i den næste video er
-
at dette er virkeligheden.
-
At som vi øger vores stikprøvestørrelse, som vi gør
-
n større, og som vi tager en masse gennemsnit, vil vi
-
have et frekvens plot, der vil afspejle en
-
normal fordeling.
-
.