< Return to Video

Central Limit Theorem

  • 0:00 - 0:00
    .
  • 0:00 - 0:03
    I denne video skal vi snakke om en af de
  • 0:03 - 0:07
    mest fundamentale og dybgående koncepter i statistik og
  • 0:07 - 0:09
    måske også i hele matematikkens Verden.
  • 0:09 - 0:10
    Og det er netop den "centrale grænseværdi sætning".
  • 0:10 - 0:17
    .
  • 0:17 - 0:19
    og den viser os, at vi kan starte med en hvilken som helst
  • 0:19 - 0:22
    fordeling, som har et vel-defineret gennemsnit og varians.
  • 0:22 - 0:24
    Og hvis den har en vel-defineret varians, så har den også en vel-defineret
  • 0:24 - 0:25
    standard afvigelse.
  • 0:25 - 0:28
    Det kan være en kontinuert fordeling eller en diskret fordeling.
  • 0:28 - 0:30
    vi tegner en diskret en, fordi det er nemmere at
  • 0:30 - 0:33
    forestille sig - i det mindste for denne videos formål.
  • 0:33 - 0:35
    Lad os sige, at vi har en diskret sandsynligheds
  • 0:35 - 0:37
    fordelings funktion.
  • 0:37 - 0:40
    og vi skal sikre os, at den ikke kommer til at ligne
  • 0:40 - 0:42
    en normal fordeling, fordi vi vil vise
  • 0:42 - 0:44
    styrken ved den centrale grænseværdi sætning.
  • 0:44 - 0:45
    Lad os sige, at vi en fordeling.
  • 0:45 - 0:47
    Lad os sige, vi bruger værdierne 1 til 6
  • 0:47 - 0:51
    1, 2, 3, 4, 5, 6.
  • 0:51 - 0:53
    det er en slags skør terning
  • 0:53 - 0:55
    lad os sige, at det er meget sandsynligt at slå 1
  • 0:55 - 0:58
    lad os lige lave en lige linie - der er en meget store sandsynlighed
  • 0:58 - 1:01
    for at slå en 1'er, lad os sige det er umuligt at slå 2, lad os
  • 1:01 - 1:03
    sige at der er OK stor sandsynlighed for at slå en 3'er og en 4'er,
  • 1:03 - 1:05
    Lad os sige det er umuligt at slå 5.
  • 1:05 - 1:08
    og lad os sige at det er meget sandsynligt at slå 6.
  • 1:08 - 1:10
    Det er så vores sandsynligheds fordelings funktion.
  • 1:10 - 1:13
    Hvis vi skulle vise gennemsnittet - denne er symetrisk, så måske ville gennemsnittet
  • 1:13 - 1:15
    se nogenlunde sådan her ud.
  • 1:15 - 1:16
    Så ville gennemsnittet være halvvejs.
  • 1:16 - 1:18
    Det ville altså være gennemsnittet lige her.
  • 1:18 - 1:20
    Standard afvigelsen, ville måske - den ville
  • 1:20 - 1:23
    være så langt over og så langt under gennemsnittet.
  • 1:23 - 1:25
    Men det er altså vores diskrete sandsynligheds
  • 1:25 - 1:26
    fordelings funktion.
  • 1:26 - 1:29
    Det vi så gør nu, i stedet for bare at udvælge stikprøver
  • 1:29 - 1:33
    af denne tilfældige variabel som er beskrevet af denne sandsynligheds
  • 1:33 - 1:36
    fordelings funktion. Vi tager en stikprøve..
  • 1:36 - 1:39
    men vi laver et gennemsnit af stikprøverne og ser så på
  • 1:39 - 1:42
    stikprøverne og den frekvens som gennemsnittene giver.
  • 1:42 - 1:43
    og når jeg siger "average", så mener jeg gennemsnittet.
  • 1:43 - 1:46
    Lad os sige - og lad os lige definere en ting - lad os sige at vores
  • 1:46 - 1:49
    stikprøve størrelsen, og her kunne vi skrive et hvilket som helst tal, med lad os
  • 1:49 - 1:58
    først prøve en stikprøve størrelse af n = 4.
  • 1:58 - 1:59
    og det betyder altså, at vi tager 4
  • 1:59 - 2:00
    stikprøver fra denne.
  • 2:00 - 2:03
    Lad os sige vi tager 4 stikprøver.
  • 2:03 - 2:04
    Så vores stikprøve-størrelse er 4.
  • 2:04 - 2:08
    Lad os antage, at vi en 1'er, og en til 1'er, lad os sige
  • 2:08 - 2:11
    vi får en 3'er og en 6'er.
  • 2:11 - 2:15
    Så det er altså min første stikprøve med prøve-størrelsen 4.
  • 2:15 - 2:17
    Terminologien kan være lidt forvirrende fordi dette er
  • 2:17 - 2:20
    en stikprøve der består af 4 stikprøver.
  • 2:20 - 2:23
    Men når vi snakker om stikprøvens gennemsnit og den fordeling
  • 2:23 - 2:26
    som prøvetagningen antager, af stikprøve-gennemsnittet, som vi kommer til at tale mere
  • 2:26 - 2:30
    og mere omkring i de næste par videoer. Normalt vil prøvetagningen
  • 2:30 - 2:33
    referere til stikprøverne fra vores fordeling.
  • 2:33 - 2:36
    Og stikprøvestørrelsen fortæller os hvor mange vi rent faktisk tog
  • 2:36 - 2:37
    fra vores fordeling.
  • 2:37 - 2:40
    Men igen kan terminologien være meget forvirrende fordi vi kan
  • 2:40 - 2:42
    let komme til at se en af disse som en stikprøve.
  • 2:42 - 2:44
    Men vi tager altså 4 stikprøver her.
  • 2:44 - 2:46
    Vi har en stikprøve-størrelse på 4.
  • 2:46 - 2:48
    Og det vi gør nu, er at vi tager gennemsnittet af dem.
  • 2:48 - 2:51
    Så lad os tage gennemsnittet
  • 2:51 - 2:55
    Gennemsnittet af den første stikprøve på 4 er hvad?
  • 2:55 - 2:56
    1 + 1 er 2
  • 2:56 - 2:58
    2 + 3 er 5.
  • 2:58 - 3:00
    5 + 6 er 11.
  • 3:00 - 3:06
    11 divideret med 4 er 2,75.
  • 3:06 - 3:11
    Det er gennemsnitet af første stikprøve på 4.
  • 3:11 - 3:12
    Lad os tage en til.
  • 3:12 - 3:14
    Min anden stikprøve er på 4.
  • 3:14 - 3:21
    Lad os sige, at vi har en 3'er, en 4'er, og en til 3'er,
  • 3:21 - 3:22
    og lad os sige vi får en 1'er.
  • 3:22 - 3:23
    Denne gang fik vi ikke en 6'er.
  • 3:23 - 3:25
    og bemærk, at vi ikke kan få 2 og 5.
  • 3:25 - 3:27
    Det er umuligt for denne fordeling.
  • 3:27 - 3:29
    Chancen for at få en 2'er eller en 5'er er 0.
  • 3:29 - 3:31
    Vi kan ikke slå nogle 2'ere og 5'ere.
  • 3:31 - 3:38
    Så for denne anden stikprøve på 4, vores prøve gennemsnit
  • 3:38 - 3:42
    vil være 3 + 4 er 7.
  • 3:42 - 3:46
    7 + 3 er 10, plus 1 er 11.
  • 3:46 - 3:50
    11 divideret med 4, er atter en gang 2,75.
  • 3:50 - 3:52
    Lad os tage en til for at gøre det helt klart
  • 3:52 - 3:53
    hvad vi har gang i.
  • 3:53 - 3:55
    Vi tager en til - rent faktisk tager vi mange
  • 3:55 - 3:57
    flere, men lad os tage en til
  • 3:57 - 4:01
    Lad os sige vores tredje stikprøve på 4
  • 4:01 - 4:03
    Vi laver 4 stikprøver.
  • 4:03 - 4:06
    Vores stikprøve består af 4 prøver fra denne originale
  • 4:06 - 4:08
    skøre fordeling.
  • 4:08 - 4:13
    lad os sige vi får en 1'er, en 1'er, en 6'er og en 6'er.
  • 4:13 - 4:19
    Og så bliver vores tredje stikprøve gennemsnit 1 + 1 er 2.
  • 4:19 - 4:20
    2 plus 6 er 8.
  • 4:20 - 4:22
    8 plus 6 er 14.
  • 4:22 - 4:27
    14 divideret med 4 er 3,5.
  • 4:27 - 4:30
    .
  • 4:30 - 4:33
    Så for hvert af vores
  • 4:33 - 4:37
    stikprøver, af prøve-størrelse 4, finder vi vores gennemsnit
  • 4:37 - 4:40
    og som vi beregner hvert af dem, plotter vi dem ind i denne frekvens fordeling.
  • 4:40 - 4:44
    Og dette vil sikkert overraske jer om lidt.
  • 4:44 - 4:46
    Vi plotter dette ind i en frekvens fordeling.
  • 4:46 - 4:49
    I vores første strikprøve er
  • 4:49 - 4:52
    vores gennemsnit 2,75.
  • 4:52 - 4:55
    Vi plotter frekvenserne af stikprøve gennemsnittene ind
  • 4:55 - 4:56
    for hver af vores stikprøver.
  • 4:56 - 4:59
    2,75 - har vi allerede.
  • 4:59 - 5:00
    Så vi sætter en lille markering her.
  • 5:00 - 5:02
    Det er fra den lige her.
  • 5:02 - 5:05
    Den anden er også 2,75.
  • 5:05 - 5:07
    Det er 2,75 der.
  • 5:07 - 5:08
    Det fik vi så to gange.
  • 5:08 - 5:10
    vi markere frekvensen lige her.
  • 5:10 - 5:11
    Så har vi 3,5.
  • 5:11 - 5:14
    Altså alle vores mulige værdier. Vi kunne have 3, og
  • 5:14 - 5:17
    3,25, vi kunne have 3,5
  • 5:17 - 5:20
    Så vi markere 3,5 her.
  • 5:20 - 5:21
    Og vi bliver ved med at
  • 5:21 - 5:23
    tage disse stikprøver.
  • 5:23 - 5:25
    Måske tager vi 10.000 stikprøver.
  • 5:25 - 5:27
    Vi bliver altså ved med at tage stikprøver.
  • 5:27 - 5:30
    Så vi kommer helt op til 10.000.
  • 5:30 - 5:31
    Vi tager lige nogle flere.
  • 5:31 - 5:34
    Over tid vil vi markere en prik for hver af disse
  • 5:34 - 5:37
    vi zoomer lige lidt ud
  • 5:37 - 5:41
    Når vi ser på det, på denne måde - over tid - vil den stadig have
  • 5:41 - 5:43
    alle de værdier som den kan antage.
  • 5:43 - 5:45
    Vi ved, at 2,75 må være her.
  • 5:45 - 5:49
    Så den første prik, bliver altså den lige her,
  • 5:49 - 5:52
    som vi placerer der, og den anden sætter vi lige
  • 5:52 - 5:57
    der, og den der placerer vi ved 3,5, lige der.
  • 5:57 - 5:58
    Men vi skal gøre det 10.000 gange, så
  • 5:58 - 5:59
    vi har 10.000.
  • 5:59 - 6:00
    Og imens vi beregner dem, så
  • 6:00 - 6:02
    plotter vi dem ind.
  • 6:02 - 6:04
    Vi markerer bare frekvenserne
  • 6:04 - 6:07
    igen og igen
  • 6:07 - 6:08
    og igen og igen.
  • 6:08 - 6:10
    Og det vi vil se, som vi tager mange mange
  • 6:10 - 6:13
    stikprøver á 4
  • 6:13 - 6:15
    får vi noget der begynder at
  • 6:15 - 6:18
    ligne en normal fordeling.
  • 6:18 - 6:22
    hver af disse prikker indikere altså et gennemsnit af en stikprøve.
  • 6:22 - 6:25
    Som vi bliver ved med at tillægge den kolonne her, betyder
  • 6:25 - 6:28
    det at vi blev ved med at gå gennemsnittet 2,75.
  • 6:28 - 6:30
    Så over tid, får vi altså noget der begynder
  • 6:30 - 6:33
    at ligne en normal fordeling.
  • 6:33 - 6:36
    Og det er det der gør central grænse sætningen speciel.
  • 6:36 - 6:39
    Så central grænsen - vi skriver det i
  • 6:39 - 6:42
    orange - er tilfældet for n = 4.
  • 6:42 - 6:45
    Dette var for prøvestørrelse 4.
  • 6:45 - 6:50
    Hvis vi så gjorde det samme med en prøvestørrelse på 20.
  • 6:50 - 6:52
    I dette tilfælde, i stedet for bare at tage 4 prøver fra vores
  • 6:52 - 6:57
    originale skøre fordeling, tager vi 20
  • 6:57 - 7:00
    tilfælde af vores tilfældige variable og regner gennemsnittet af disse 20 og
  • 7:00 - 7:03
    vi markerer prøve gennemsnittet her.
  • 7:03 - 7:05
    I det tilfælde, får vi en fordeling
  • 7:05 - 7:07
    som ser sådan her ud.
  • 7:07 - 7:09
    Og det vil vi diskuterer mere i andre videoer.
  • 7:09 - 7:13
    Men det viser sig, at hvis vi plottede 10.000 gennemsnit ind
  • 7:13 - 7:15
    her, får vi noget der - to ting:
  • 7:15 - 7:18
    -kommer mere til at ligne en normal
  • 7:18 - 7:19
    fordeling.
  • 7:19 - 7:20
    Og vi vil kunne se i senere videoer, at den
  • 7:20 - 7:24
    vil have en mindre - eller lad os være specifikke - den vil
  • 7:24 - 7:26
    have det samme gennemsnit.
  • 7:26 - 7:27
    Så det er altså gennemsnittet.
  • 7:27 - 7:29
    Den vil have det samme gennemsnit.
  • 7:29 - 7:31
    Den vil have en mindre standard afvigelse.
  • 7:31 - 7:34
    Så vi plotter disse fra bunden, fordi
  • 7:34 - 7:34
    vi, nærmest stabler dem.
  • 7:34 - 7:37
    man får flere og flere tilfælde.
  • 7:37 - 7:39
    Og dette vil mere end nærme sig
  • 7:39 - 7:40
    en normal fordeling.
  • 7:40 - 7:44
    Så det er altså - og det er det som er så fedt ved
  • 7:44 - 7:53
    central grænse sætningen - som vores stikprøve størrelse bliver større,
  • 7:53 - 7:55
    eller vi kan sige som den nærmer sig uendeligt
  • 7:55 - 7:58
    eller så tæt behøver vi heller ikke at komme på uendeligt,
  • 7:58 - 7:59
    så kommer vi tættere på en normal fordeling.
  • 7:59 - 8:02
    Selv hvis vi har en stikprøve størrelse på 10 eller 20, vil vi
  • 8:02 - 8:04
    komme tæt på en normal fordeling.
  • 8:04 - 8:06
    Ja rent faktisk så tæt på som vi vil se det
  • 8:06 - 8:07
    i vores hverdag.
  • 8:07 - 8:10
    Men det lækre er, at vi kan starte med en tilfældig
  • 8:10 - 8:11
    fordeling.
  • 8:11 - 8:14
    Dette har ikke noget at gøre med en normal fordeling
  • 8:14 - 8:16
    Men hvis vi sætter stikprøvestørrelsen til - her var den 4 - men hvis vi
  • 8:16 - 8:20
    sætter den til 10 eller 100 og vi skulle
  • 8:20 - 8:23
    tage 100 af disse i stedet for 4 here og finde gennemsnittet af dem
  • 8:23 - 8:25
    og så plotte gennemsnittene, frekvensen af dem.
  • 8:25 - 8:27
    Og vi tager 100 igen, gennemsnitter dem,
  • 8:27 - 8:28
    og plotter det igen.
  • 8:28 - 8:31
    Og hvis vi gjorde det et par gange, ja faktisk hvis vi
  • 8:31 - 8:33
    gjorde det uendeligt mange gange, ville vi se -
  • 8:33 - 8:35
    især hvis vi havde uendeligt mange - vi
  • 8:35 - 8:38
    ville se en perfekt normal fordeling.
  • 8:38 - 8:39
    Det er det skøre ved det.
  • 8:39 - 8:42
    Og det virker ikke ved bare at tage gennemsnittet af stikprøven.
  • 8:42 - 8:45
    Her tog vi gennemsnittet, men vi kunne også have
  • 8:45 - 8:47
    taget summen.
  • 8:47 - 8:49
    Central grænse sætningen ville stadig have virket.
  • 8:49 - 8:51
    Og det er det som gør den så brugbar.
  • 8:51 - 8:54
    Fordi i det virkelige liv, er der alle mulige processer der ude,
  • 8:54 - 8:57
    proteiner der slår mod hinanden, folk der gør skøre
  • 8:57 - 9:01
    ting, mennesker agerer på mærkelige måder.
  • 9:01 - 9:03
    Og vi kender ikke sandsynligheds fordelings
  • 9:03 - 9:04
    funktionen for nogle af disse ting.
  • 9:04 - 9:07
    Men det som central grænse sætningen fortæller os, er hvis vi
  • 9:07 - 9:10
    lagde en masse af de funktioner sammen, og antog at de
  • 9:10 - 9:13
    alle havde den samme fordeling, eller hvis vi tog gennemsnittet
  • 9:13 - 9:15
    af alle de funktioner og hvis vi plottede
  • 9:15 - 9:18
    frekvensen af de gennemsnit ind, ville vi få en normal
  • 9:18 - 9:19
    fordeling.
  • 9:19 - 9:22
    Og det derfor normal fordelingen ses så
  • 9:22 - 9:27
    ofte i statistik, og også derfor det er er en meget god
  • 9:27 - 9:30
    tilnærmelse for summen af gennemsnittene for en masse
  • 9:30 - 9:31
    processer.
  • 9:31 - 9:34
    Normal fordelingen.
  • 9:34 - 9:36
    Det vi skal se på i den næste video er
  • 9:36 - 9:38
    at dette er virkeligheden.
  • 9:38 - 9:41
    At som vi øger vores stikprøvestørrelse, som vi gør
  • 9:41 - 9:43
    n større, og som vi tager en masse gennemsnit, vil vi
  • 9:43 - 9:46
    have et frekvens plot, der vil afspejle en
  • 9:46 - 9:48
    normal fordeling.
  • 9:48 - 9:48
    .
Title:
Central Limit Theorem
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
09:49

Danish subtitles

Revisions