< Return to Video

Pearson's Chi Square Test (Goodness of Fit)

  • 0:01 - 0:03
    Uvedu příklad. Chci si koupit restauraci.
  • 0:03 - 0:04
    Zeptám se nynějšího majitele: jaké je
  • 0:04 - 0:08
    rozdělení počtu zákazníků, kteří k vám každý den chodí?
  • 0:08 - 0:12
    On na to: to víme. A dá mi toto rozdělení.
  • 0:12 - 0:15
    Znamená, že 10 % zákazníků přijde v pondělí.
  • 0:15 - 0:18
    10 % v úterý. 15 % ve středu.
  • 0:18 - 0:20
    V neděli je zavřeno.
  • 0:20 - 0:23
    Dohromady je to 100 % zákazníků za týden.
  • 0:24 - 0:26
    Je mi to trochu divné.
  • 0:26 - 0:32
    Podívám se, jak jeho rozdělení odpovídá pozorování.
  • 0:32 - 0:36
    Zaznamenám skutečný počet zákazníků, jak chodí během týdne.
  • 0:36 - 0:38
    To jsou pozorovaná data.
  • 0:39 - 0:44
    Chceme zjistit, zda-li přijímáme nebo zamítáme jeho hypotézu.
  • 0:44 - 0:47
    Uděláme test hypotézy.
  • 0:47 - 1:03
    Nulová hypotéza je, že majitelovo rozdělení je správné.
  • 1:03 - 1:09
    Alternativa je, že není správné.
  • 1:09 - 1:15
    Je dostatečný důvod nedůvěřovat tomu, že jde o správné rozdělení.
  • 1:15 - 1:19
    Pak odmítneme majitelovo rozdělení.
  • 1:19 - 1:27
    Provedeme test na úrovni 5 % statistické významnosti.
  • 1:27 - 1:32
    Nebo se na to podíváme jinak. Spočítáme statistiku založenou na těchto datech.
  • 1:32 - 1:34
    Jmenuje se statistika chí-kvadrát.
  • 1:34 - 1:41
    Vypočítaná statistika má přibližně rozdělení chí-kvadrát.
  • 1:42 - 1:46
    Má rozdělení chí-kvadrát s určitým počtem stupňů volnosti.
  • 1:46 - 1:47
    Spočítáme tedy:
  • 1:48 - 1:57
    pravděpodobnost takového nebo extrémnějšího výsledku je < 5 %.
  • 1:57 - 2:01
    Jestliže je pravděpodobnost takového nebo méně pravděpodobného výsledku menší než 5 %,
  • 2:01 - 2:05
    pak odmítneme nulovou hypotézu.
  • 2:05 - 2:11
    Což je majitelovo rozdělení.
  • 2:11 - 2:16
    Jestli to však neodmítneme, jestliže pravděpodobnost statistiky chí-kvadrát je větší než alfa,
  • 2:23 - 2:29
    nezamítám a majitel se zřejmě neplete.
  • 2:30 - 2:32
    Abychom mohli spočítat statistiku chí-kvadrát,
  • 2:32 - 2:41
    předpokládejme, že majitelovo rozdělení je správné.
  • 2:41 - 2:45
    Takže, je-li majitelovo rozdělení správné,
  • 2:45 - 2:48
    jaká bychom očekávali pozorování?
  • 2:48 - 2:52
    Zde máme procenta očekávaných pozorování, ale která to jsou?
  • 2:52 - 2:56
    Napíšu zde: očekávaná.
  • 2:56 - 3:01
    Očekával bych, že 10 % všech zákazníků v tomto týdnu přijde v pondělí.
  • 3:01 - 3:04
    10 % v úterý.
  • 3:04 - 3:06
    15 % ve středu. Abychom zjistili
  • 3:06 - 3:10
    přesnou hodnotu, musíme znát celkový počet zákazníků.
  • 3:10 - 3:12
    Takže tyto hodnoty sečteme.
  • 3:14 - 3:16
    Na kalkulačce.
  • 3:18 - 3:26
    Máme 30+14+34+45+57+20.
  • 3:26 - 3:30
    Máme celkem 200 zákazníků, kteří navštívili restauraci v jednom týdnu.
  • 3:31 - 3:32
    Napíšeme si to.
  • 3:32 - 3:38
    Toto se rovná. Tak, napíšeme celkem zde. Celkem.
  • 3:38 - 3:41
    Toho se nevšímejte. Mám 200 zákazníků, kteří přišli za týden.
  • 3:41 - 3:43
    Jaké je očekávané množství zákazníků v pondělí?
  • 3:43 - 3:48
    V pondělí bychom čekali 10 % z 200.
  • 3:48 - 3:51
    20 zákazníků, 10 % krát 200.
  • 3:51 - 3:55
    V úterý dalších 10 %. Takže 20 zákazníků.
  • 3:55 - 3:59
    Ve středu 15 % z 200, to je 30 zákazníků.
  • 3:59 - 4:05
    Ve čtvrtek 20 % z 200, to je 40 zákazníků.
  • 4:05 - 4:09
    V pátek 30 %, to je 60 zákazníků.
  • 4:09 - 4:14
    V sobotu 15 % z 200, to by mělo být 30 zákazníků.
  • 4:14 - 4:21
    Pokud je tedy toto rozdělení správné, toto jsou očekávaná množství zákazníků.
  • 4:21 - 4:23
    Teď spočítáme statistiku chí-kvadrát.
  • 4:24 - 4:30
    Místo písmena chí budu psát velké X2.
  • 4:30 - 4:33
    Někteří lidé používají spíš řecké písmeno chí.
  • 4:33 - 4:37
    Napíšu X2.
  • 4:37 - 4:45
    To je naše statistika chí-kvadrát.
  • 4:45 - 4:49
    Budu používat písmeno X místo chí, protože naše rozdělení
  • 4:49 - 4:52
    se bude rozdělení chí-kvadrát pouze podobat.
  • 4:52 - 4:56
    Není to přesně stejné. Jde o odhady.
  • 4:56 - 4:59
    Vypočítá se jednoduše.
  • 4:59 - 5:03
    Uděláme rozdíl pro každý den mezi očekávaným a pozorovaným počtem.
  • 5:03 - 5:08
    Toto je 30-20.
  • 5:08 - 5:10
    Použiji různé barvy.
  • 5:10 - 5:12
    Kvadrát.
  • 5:12 - 5:14
    Děleno očekávaným počtem.
  • 5:14 - 5:17
    Takže děláme kvadrát jakési chyby
  • 5:17 - 5:20
    mezi pozorovanou a očekávanou hodnotou.
  • 5:20 - 5:23
    Čili rozdílu mezi pozorovanou a očekávanou hodnotou.
  • 5:23 - 5:26
    Pomocí očekávané hodnoty to normalizujeme.
  • 5:26 - 5:30
    To sečtu. Žlutou.
  • 5:30 - 6:13
    Takže + (14-20)2/20 + (34-30)2/30 + (45-40)2/40 + (57-60)2/60 + (20-30)2/30.
  • 6:13 - 6:17
    Odečetl jsem očekávané od pozorovaných hodnot, druhá mocnina, lomeno očekávaná hodnota. Výsledky jsem sečetl.
  • 6:17 - 6:20
    To je statistika chí-kvadrát.
  • 6:20 - 6:23
    Spočítáme to číslo.
  • 6:24 - 6:33
    To se rovná čemu?
  • 6:33 - 6:41
    30 - 20 je 10 na druhou, což je 100 lomeno 20, což je 5.
  • 6:41 - 6:43
    Asi se mi nepodaří spočítat všechny z hlavy.
  • 6:43 - 6:46
    Napíšu to tak, abyste viděli, co dělám.
  • 6:46 - 6:51
    To je 100/20.
  • 6:51 - 6:59
    + 14-20 je -6, kvadrát, což je plus 36. Takže plus 36/20.
  • 7:00 - 7:07
    + 34-30 je 4, kvadrát je 16, takže +16/30.
  • 7:07 - 7:14
    + 45-40 je 5, kvadrát je 25, takže +25/40.
  • 7:15 - 7:20
    Plus 3 na druhou, to je 9, takže 9/60
  • 7:20 - 7:28
    plus rozdíl 10, kvadrát je 100, lomeno 30 je +100/30
  • 7:28 - 7:36
    To se rovná, použiji kalkulátor.
  • 7:36 - 7:56
    100/20+36/20+16/30+25/40+9/60+100/30.
  • 7:56 - 8:02
    Výsledek je 11,44.
  • 8:02 - 8:10
    Toto je 11,44.
  • 8:10 - 8:14
    Je to statistika chí-kvadrát, nebo X2.
  • 8:14 - 8:18
    Občas to uvidíte psáno jako chí-kvadrát, ale toto je přibližné.
  • 8:18 - 8:22
    Tato statistika má přibližně chí rozdělení.
  • 8:22 - 8:28
    Takže, řekněme, že se jedná o rozdělení chí-kvadrát.
  • 8:28 - 8:35
    Jaká je pravděpodobnost, že získám takto extrémní výsledek?
  • 8:36 - 8:37
    Neboli,
  • 8:38 - 8:42
    Je to víc extrémní výsledek, než kritická hodnota chí-kvadrát,
  • 8:42 - 8:46
    že je 5% šance získat takto extrémní výsledek?
  • 8:46 - 8:48
    Takže se na to podíváme, zjistíme kritickou hodnotu chí-kvadrát.
  • 8:48 - 8:53
    A pokud je extrémnější, zamítneme nulovou hypotézu.
  • 8:53 - 8:57
    Takže zjistíme kritickou hodnotu chí-kvadrát.
  • 8:57 - 8:59
    To je alfa 5 %.
  • 8:59 - 9:02
    A ještě musíme zjistit stupně volnosti.
  • 9:02 - 9:09
    Děláme celkem 6 součtů.
  • 9:09 - 9:11
    Takže byste mohli čekat, že počet volností je 6.
  • 9:11 - 9:15
    Ale pokud bychom měli všechny tyto informace,
  • 9:15 - 9:20
    zjistili bychom tuto poslední část.
  • 9:20 - 9:22
    Takže máme jen 5 stupňů volnosti.
  • 9:22 - 9:27
    Pokud máte n podobných datových bodů, měříte pozorované proti očekávaným hodnotám,
  • 9:27 - 9:29
    počet stupňů volnosti bude n-1,
  • 9:29 - 9:31
    protože můžete zjistit n-tý datový bod
  • 9:31 - 9:34
    ze zbytku informací.
  • 9:35 - 9:39
    Takže náš počet stupňů volnosti bude 5, n-1.
  • 9:39 - 9:48
    Hladina významnosti je 5 %, a počet stupňů volnosti je 5.
  • 9:48 - 9:51
    Podíváme se na rozdělení chí-kvadrát.
  • 9:51 - 9:59
    5 stupňů volnosti, hladina významnosti 5 %.
  • 9:59 - 10:05
    Kritická hodnota chí-kvadrát je 11,07.
  • 10:05 - 10:09
    Máme rozdělení chí-kvadrát s 5 stupni volnosti.
  • 10:09 - 10:11
    Rozdělení je purpurovou.
  • 10:12 - 10:17
    Kritická hodnota je 11,07.
  • 10:17 - 10:19
    Není tu ani vidět.
  • 10:19 - 10:27
    Budeme-li pokračovat purpurovou,
  • 10:27 - 10:29
    máme 8.
  • 10:29 - 10:32
    Tady. Zde je 10, zde máme 12.
  • 10:32 - 10:36
    11,07 bude někde zde.
  • 10:36 - 10:46
    Takže pravděpodobnost, že získáme výsledek alespoň 11,07 je 5 %.
  • 10:46 - 10:58
    Naše kritická hodnota chí-kvadrát je rovna 11,07.
  • 10:58 - 11:05
    Pro kontrolu. 11,07.
  • 11:06 - 11:13
    Výsledek, který jsme spočítali, má ještě menší pravděpodobnost.
  • 11:13 - 11:16
    Pravděpodobnost je nižší, než úroveň významnosti.
  • 11:16 - 11:19
    Takže zamítáme.
  • 11:19 - 11:31
    Pravděpodobnost, že budeme mít 11,44 je víc extrémní, než kritická hodnota chí-kvadrát.
  • 11:31 - 11:35
    Takže je nepravděpodobné, že toto rozdělení je pravdivé.
  • 11:36 - 11:43
    Odmítneme tvrzení majitele, odmítneme toto rozdělení.
  • 11:43 - 11:47
    Není to dobrá aproximace na naší hladině statistické významnosti.
Title:
Pearson's Chi Square Test (Goodness of Fit)
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
11:48

Czech subtitles

Revisions