Pearson's Chi Square Test (Goodness of Fit)
-
0:01 - 0:03我正考虑购入一家餐厅
-
0:01 - 0:15本字幕由网易公开课提供,更多课程请到http//open.163.com
-
0:03 - 0:04我询问目前的店主
-
0:04 - 0:08店内每天顾客数的分布是怎样的
-
0:08 - 0:12他于是把这样一个分布给我
-
0:12 - 0:1510%顾客来自周一
-
0:15 - 0:18周二10% 周三15% 等等
-
0:17 - 0:25网易公开课官方微博 http://t.163.com/163open
-
0:18 - 0:20周日停业
-
0:20 - 0:23整周的百分比加起来等于100%
-
0:24 - 0:26我有些怀疑
-
0:26 - 0:32想检验他给出的分布和我观测的数据是否吻合
-
0:30 - 0:45oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org
-
0:32 - 0:36这是我一周内观测到的值
-
0:36 - 0:38这是我一周内观测到的值
-
0:39 - 0:44要看是否吻合 我需要进行假设检验
-
0:44 - 0:47要看是否吻合 我需要进行假设检验
-
0:47 - 1:03零假设是 店主的分布是正确的
-
1:03 - 1:09备择假设是 这并不正确
-
1:09 - 1:15我不能依赖这个分布 我要拒绝店主的分布
-
1:15 - 1:19我不能依赖这个分布 我要拒绝店主的分布
-
1:19 - 1:27显著性水平是5%
-
1:27 - 1:32或者说 我要根据这些数据计算出一个统计量
-
1:32 - 1:34这是一个χ2统计量
-
1:34 - 1:41也就是说我要计算的统计量近似服从χ2分布
-
1:42 - 1:46根据特定自由度的χ2分布
-
1:46 - 1:47我将要计算它
-
1:48 - 1:57我想知道得到这样或更极端结果的概率是否小于5%
-
1:57 - 2:01如果该概率小于5% 我将拒绝零假设
-
2:01 - 2:05如果该概率小于5% 我将拒绝零假设
-
2:05 - 2:11也就是拒绝店主的分布
-
2:11 - 2:16如果χ2统计量得到如此极端或更极端的概率大于显著性水平α
-
2:16 - 2:23如果χ2统计量得到如此极端或更极端的概率大于显著性水平α
that is this extreme or more is greater than my α, significance level, -
2:23 - 2:29我就不能拒绝它 没有理由认为店主在撒谎
-
2:30 - 2:32下面来计算χ2统计量
-
2:32 - 2:41假设店主的分布是正确的
-
2:41 - 2:45在此前提下 观测值预计会得到多少呢
-
2:45 - 2:48在此前提下 观测值预计会得到多少呢
-
2:48 - 2:52这里有预计百分比 我要求预计观测值
-
2:52 - 2:56我写一下 预计值
-
2:56 - 3:01周一预计是10%的顾客
-
3:01 - 3:04周二预计是10%的顾客
-
3:04 - 3:06周三是15%
-
3:06 - 3:10要求得实际数字 我们需要先算总顾客数
-
3:10 - 3:12先把这些数字加起来
-
3:14 - 3:16用计算器算算
-
3:18 - 3:2630+14+34+45+57+20
-
3:26 - 3:30这一周总共是200名顾客光顾
-
3:31 - 3:32我写一下
-
3:32 - 3:38我把总和写下来
-
3:38 - 3:41一周内总共来了200名顾客
-
3:41 - 3:43那么周一的预计数量是多少
-
3:43 - 3:48周一也就是200的10% 也就是20人
-
3:48 - 3:51周一也就是200的10% 也就是20人
-
3:51 - 3:55周二还是10% 预计有20人来
-
3:55 - 3:59周三是200的15% 即30人
-
3:59 - 4:05周四是200的20% 即40人
-
4:05 - 4:09周五是30% 即60人
-
4:09 - 4:14周六 200的15% 即30人
-
4:14 - 4:21如果分布正确 这就是预计的顾客数
-
4:21 - 4:23下面计算χ2统计量
-
4:24 - 4:30我写一下 这里我不用χ2 而用X2表示
-
4:30 - 4:33有些人可能会用希腊字母χ
-
4:33 - 4:37我这里写X2 我这样写吧
-
4:37 - 4:45这是我们的χ2统计量
-
4:45 - 4:49实际统计量用X代替χ 因为这是近似服从χ2分布
-
4:49 - 4:52实际统计量用X代替χ 因为这是近似服从χ2分布
-
4:52 - 4:56这里不是准确的χ2分布 只是近似
-
4:56 - 4:59计算起来很容易
-
4:59 - 5:03将每天的观测值和预计值相减
-
5:03 - 5:08周一是30-20
-
5:08 - 5:10第一个我用颜色标注下
-
5:10 - 5:12然后平方
-
5:12 - 5:14再除以预计值
-
5:14 - 5:17也就是将观测值和预计值之差平方
-
5:17 - 5:20也就是将观测值和预计值之差平方
-
5:20 - 5:23也就是将观测值和预计值之差平方
-
5:23 - 5:26然后用预计值标准化
-
5:26 - 5:30我们要求所有这些的和 后面是
-
5:30 - 6:13+(14-20)2/20+(34-30)2/30+(45-40)2/40+(57-60)2/60+(20-30)2/30
-
6:13 - 6:17都是(观测值-预计值)2/预计值 然后求和
-
6:17 - 6:20这就得到χ2统计量
-
6:20 - 6:23下面计算一下这些数字
-
6:24 - 6:33这等于什么呢
-
6:33 - 6:4130-20是10 平方得100 除以20 得5
-
6:41 - 6:43我不见得能全部这么心算
-
6:43 - 6:46加上… 我这样写吧 这样更容易理解
-
6:46 - 6:51这里是100/20
-
6:51 - 6:5914-20=-6 平方得36 于是有+36/20
-
7:00 - 7:0734-30=4 平方得16 于是有+16/30
-
7:07 - 7:1445-40=5 平方得25 于是有+25/40
-
7:15 - 7:2057-60=-3 平方得9 于是有+9/30
-
7:20 - 7:2820-30=-10 平方得100 于是有+100/30
-
7:28 - 7:36结果我用计算器算一下
-
7:36 - 7:56100/20+36/20+16/30+25/40+9/60+100/30
-
7:56 - 8:02结果是11.44
-
8:02 - 8:10我写一下 这个等于11.44
-
8:10 - 8:14这就是我的χ2统计量 记作X2
-
8:14 - 8:18有时人们用χ2 不过这里只是近似的χ2分布
-
8:18 - 8:22有时人们用χ2 不过这里只是近似的χ2分布
-
8:22 - 8:28总之 我们假设这是大致的χ2分布
-
8:28 - 8:35那么得到至少这么极端情况的概率是多少呢
-
8:36 - 8:37或者说
-
8:38 - 8:42这里的结果会不会比临界χ2值更极端
-
8:42 - 8:46得到5%概率的临界χ2值
-
8:46 - 8:48我们先来求临界χ2值
-
8:48 - 8:53如果我们的结果比该临界值更极端 我们就将拒绝零假设
-
8:53 - 8:57下面来求临界χ2值
-
8:57 - 8:59这里α是5%
-
8:59 - 9:02另外 我们还要先求出自由度
-
9:02 - 9:09这里总共求了6次和
-
9:09 - 9:11你也许会误认为这里的自由度是6
-
9:11 - 9:15其实 有5条信息 就能求出第6条信息
-
9:15 - 9:20其实 有5条信息 就能求出第6条信息
-
9:20 - 9:22因此自由度只有5
-
9:22 - 9:27n个像这样的数据点 对比观测值和预计值
-
9:27 - 9:29自由度只有n-1
-
9:29 - 9:31因为第n个数据点能够通过其它数据求出
-
9:31 - 9:34因为第n个数据点能够通过其它数据求出
-
9:35 - 9:39因此 这里自由度是5 也就是n-1
-
9:39 - 9:48显著性水平5% 自由度5
-
9:48 - 9:51查χ2分布表
-
9:51 - 9:59自由度5 显著性水平5%
-
9:59 - 10:05查得临界χ2值是11.07 下面用图像来分析下
-
10:05 - 10:09紫红色那条是5自由度χ2分布的曲线
-
10:09 - 10:11紫红色那条是5自由度χ2分布的曲线
-
10:12 - 10:17我们关心的临界值是11.07
-
10:17 - 10:19甚至超出了图表范围
-
10:19 - 10:27我可以把紫红色曲线延长一些
-
10:27 - 10:29这里是8
-
10:29 - 10:32后面是10 12
-
10:32 - 10:3611.07大概在这附近
-
10:36 - 10:46结果至少达到11.07这么极端的概率是5%
-
10:46 - 10:58这里的临界χ2值是11.07
-
10:58 - 11:05对一下表格 11.07
-
11:06 - 11:13而我们得到的结果甚至比这更极端 可能性更小
-
11:13 - 11:16其概率小于显著性水平
-
11:16 - 11:19因此我们将拒绝…
-
11:19 - 11:3111.44的情况比临界χ2值更极端
-
11:31 - 11:35因此 店主分布正确的可能性很低
-
11:36 - 11:43因此我们将拒绝他给我们的分布
-
11:43 - 11:47根据显著性水平5% 它和实际吻合得不好
- Title:
- Pearson's Chi Square Test (Goodness of Fit)
- Description:
-
- Video Language:
- English
- Team:
Khan Academy
- Duration:
- 11:48
![]() |
Fran Ontanaya edited Chinese (Simplified, China) subtitles for Pearson's Chi Square Test (Goodness of Fit) |