-
Uvedu příklad. Chci si koupit restauraci.
-
Zeptám se nynějšího majitele: jaké je
-
rozdělení počtu zákazníků, kteří k vám každý den chodí?
-
On na to: to víme. A dá mi toto rozdělení.
-
Znamená, že 10 % zákazníků přijde v pondělí.
-
10 % v úterý. 15 % ve středu.
-
V neděli je zavřeno.
-
Dohromady je to 100 % zákazníků za týden.
-
Je mi to trochu divné.
-
Podívám se, jak jeho rozdělení odpovídá pozorování.
-
Zaznamenám skutečný počet zákazníků, jak chodí během týdne.
-
To jsou pozorovaná data.
-
Chceme zjistit, zda-li přijímáme nebo zamítáme jeho hypotézu.
-
Uděláme test hypotézy.
-
Nulová hypotéza je, že majitelovo rozdělení je správné.
-
Alternativa je, že není správné.
-
Je dostatečný důvod nedůvěřovat tomu, že jde o správné rozdělení.
-
Pak odmítneme majitelovo rozdělení.
-
Provedeme test na úrovni 5 % statistické významnosti.
-
Nebo se na to podíváme jinak. Spočítáme statistiku založenou na těchto datech.
-
Jmenuje se statistika chí-kvadrát.
-
Vypočítaná statistika má přibližně rozdělení chí-kvadrát.
-
Má rozdělení chí-kvadrát s určitým počtem stupňů volnosti.
-
Spočítáme tedy:
-
pravděpodobnost takového nebo extrémnějšího výsledku je < 5 %.
-
Jestliže je pravděpodobnost takového nebo méně pravděpodobného výsledku menší než 5 %,
-
pak odmítneme nulovou hypotézu.
-
Což je majitelovo rozdělení.
-
Jestli to však neodmítneme, jestliže pravděpodobnost statistiky chí-kvadrát je větší než alfa,
-
nezamítám a majitel se zřejmě neplete.
-
Abychom mohli spočítat statistiku chí-kvadrát,
-
předpokládejme, že majitelovo rozdělení je správné.
-
Takže, je-li majitelovo rozdělení správné,
-
jaká bychom očekávali pozorování?
-
Zde máme procenta očekávaných pozorování, ale která to jsou?
-
Napíšu zde: očekávaná.
-
Očekával bych, že 10 % všech zákazníků v tomto týdnu přijde v pondělí.
-
10 % v úterý.
-
15 % ve středu. Abychom zjistili
-
přesnou hodnotu, musíme znát celkový počet zákazníků.
-
Takže tyto hodnoty sečteme.
-
Na kalkulačce.
-
Máme 30+14+34+45+57+20.
-
Máme celkem 200 zákazníků, kteří navštívili restauraci v jednom týdnu.
-
Napíšeme si to.
-
Toto se rovná. Tak, napíšeme celkem zde. Celkem.
-
Toho se nevšímejte. Mám 200 zákazníků, kteří přišli za týden.
-
Jaké je očekávané množství zákazníků v pondělí?
-
V pondělí bychom čekali 10 % z 200.
-
20 zákazníků, 10 % krát 200.
-
V úterý dalších 10 %. Takže 20 zákazníků.
-
Ve středu 15 % z 200, to je 30 zákazníků.
-
Ve čtvrtek 20 % z 200, to je 40 zákazníků.
-
V pátek 30 %, to je 60 zákazníků.
-
V sobotu 15 % z 200, to by mělo být 30 zákazníků.
-
Pokud je tedy toto rozdělení správné, toto jsou očekávaná množství zákazníků.
-
Teď spočítáme statistiku chí-kvadrát.
-
Místo písmena chí budu psát velké X2.
-
Někteří lidé používají spíš řecké písmeno chí.
-
Napíšu X2.
-
To je naše statistika chí-kvadrát.
-
Budu používat písmeno X místo chí, protože naše rozdělení
-
se bude rozdělení chí-kvadrát pouze podobat.
-
Není to přesně stejné. Jde o odhady.
-
Vypočítá se jednoduše.
-
Uděláme rozdíl pro každý den mezi očekávaným a pozorovaným počtem.
-
Toto je 30-20.
-
Použiji různé barvy.
-
Kvadrát.
-
Děleno očekávaným počtem.
-
Takže děláme kvadrát jakési chyby
-
mezi pozorovanou a očekávanou hodnotou.
-
Čili rozdílu mezi pozorovanou a očekávanou hodnotou.
-
Pomocí očekávané hodnoty to normalizujeme.
-
To sečtu. Žlutou.
-
Takže + (14-20)2/20 + (34-30)2/30 + (45-40)2/40 + (57-60)2/60 + (20-30)2/30.
-
Odečetl jsem očekávané od pozorovaných hodnot, druhá mocnina, lomeno očekávaná hodnota. Výsledky jsem sečetl.
-
To je statistika chí-kvadrát.
-
Spočítáme to číslo.
-
To se rovná čemu?
-
30 - 20 je 10 na druhou, což je 100 lomeno 20, což je 5.
-
Asi se mi nepodaří spočítat všechny z hlavy.
-
Napíšu to tak, abyste viděli, co dělám.
-
To je 100/20.
-
+ 14-20 je -6, kvadrát, což je plus 36. Takže plus 36/20.
-
+ 34-30 je 4, kvadrát je 16, takže +16/30.
-
+ 45-40 je 5, kvadrát je 25, takže +25/40.
-
Plus 3 na druhou, to je 9, takže 9/60
-
plus rozdíl 10, kvadrát je 100, lomeno 30 je +100/30
-
To se rovná, použiji kalkulátor.
-
100/20+36/20+16/30+25/40+9/60+100/30.
-
Výsledek je 11,44.
-
Toto je 11,44.
-
Je to statistika chí-kvadrát, nebo X2.
-
Občas to uvidíte psáno jako chí-kvadrát, ale toto je přibližné.
-
Tato statistika má přibližně chí rozdělení.
-
Takže, řekněme, že se jedná o rozdělení chí-kvadrát.
-
Jaká je pravděpodobnost, že získám takto extrémní výsledek?
-
Neboli,
-
Je to víc extrémní výsledek, než kritická hodnota chí-kvadrát,
-
že je 5% šance získat takto extrémní výsledek?
-
Takže se na to podíváme, zjistíme kritickou hodnotu chí-kvadrát.
-
A pokud je extrémnější, zamítneme nulovou hypotézu.
-
Takže zjistíme kritickou hodnotu chí-kvadrát.
-
To je alfa 5 %.
-
A ještě musíme zjistit stupně volnosti.
-
Děláme celkem 6 součtů.
-
Takže byste mohli čekat, že počet volností je 6.
-
Ale pokud bychom měli všechny tyto informace,
-
zjistili bychom tuto poslední část.
-
Takže máme jen 5 stupňů volnosti.
-
Pokud máte n podobných datových bodů, měříte pozorované proti očekávaným hodnotám,
-
počet stupňů volnosti bude n-1,
-
protože můžete zjistit n-tý datový bod
-
ze zbytku informací.
-
Takže náš počet stupňů volnosti bude 5, n-1.
-
Hladina významnosti je 5 %, a počet stupňů volnosti je 5.
-
Podíváme se na rozdělení chí-kvadrát.
-
5 stupňů volnosti, hladina významnosti 5 %.
-
Kritická hodnota chí-kvadrát je 11,07.
-
Máme rozdělení chí-kvadrát s 5 stupni volnosti.
-
Rozdělení je purpurovou.
-
Kritická hodnota je 11,07.
-
Není tu ani vidět.
-
Budeme-li pokračovat purpurovou,
-
máme 8.
-
Tady. Zde je 10, zde máme 12.
-
11,07 bude někde zde.
-
Takže pravděpodobnost, že získáme výsledek alespoň 11,07 je 5 %.
-
Naše kritická hodnota chí-kvadrát je rovna 11,07.
-
Pro kontrolu. 11,07.
-
Výsledek, který jsme spočítali, má ještě menší pravděpodobnost.
-
Pravděpodobnost je nižší, než úroveň významnosti.
-
Takže zamítáme.
-
Pravděpodobnost, že budeme mít 11,44 je víc extrémní, než kritická hodnota chí-kvadrát.
-
Takže je nepravděpodobné, že toto rozdělení je pravdivé.
-
Odmítneme tvrzení majitele, odmítneme toto rozdělení.
-
Není to dobrá aproximace na naší hladině statistické významnosti.