< Return to Video

Pearson's Chi Square Test (Goodness of Fit)

  • 0:01 - 0:03
    我正考虑购入一家餐厅
  • 0:01 - 0:15
    本字幕由网易公开课提供,更多课程请到http//open.163.com
  • 0:03 - 0:04
    我询问目前的店主
  • 0:04 - 0:08
    店内每天顾客数的分布是怎样的
  • 0:08 - 0:12
    他于是把这样一个分布给我
  • 0:12 - 0:15
    10%顾客来自周一
  • 0:15 - 0:18
    周二10% 周三15% 等等
  • 0:17 - 0:25
    网易公开课官方微博 http://t.163.com/163open
  • 0:18 - 0:20
    周日停业
  • 0:20 - 0:23
    整周的百分比加起来等于100%
  • 0:24 - 0:26
    我有些怀疑
  • 0:26 - 0:32
    想检验他给出的分布和我观测的数据是否吻合
  • 0:30 - 0:45
    oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org
  • 0:32 - 0:36
    这是我一周内观测到的值
  • 0:36 - 0:38
    这是我一周内观测到的值
  • 0:39 - 0:44
    要看是否吻合 我需要进行假设检验
  • 0:44 - 0:47
    要看是否吻合 我需要进行假设检验
  • 0:47 - 1:03
    零假设是 店主的分布是正确的
  • 1:03 - 1:09
    备择假设是 这并不正确
  • 1:09 - 1:15
    我不能依赖这个分布 我要拒绝店主的分布
  • 1:15 - 1:19
    我不能依赖这个分布 我要拒绝店主的分布
  • 1:19 - 1:27
    显著性水平是5%
  • 1:27 - 1:32
    或者说 我要根据这些数据计算出一个统计量
  • 1:32 - 1:34
    这是一个χ2统计量
  • 1:34 - 1:41
    也就是说我要计算的统计量近似服从χ2分布
  • 1:42 - 1:46
    根据特定自由度的χ2分布
  • 1:46 - 1:47
    我将要计算它
  • 1:48 - 1:57
    我想知道得到这样或更极端结果的概率是否小于5%
  • 1:57 - 2:01
    如果该概率小于5% 我将拒绝零假设
  • 2:01 - 2:05
    如果该概率小于5% 我将拒绝零假设
  • 2:05 - 2:11
    也就是拒绝店主的分布
  • 2:11 - 2:16
    如果χ2统计量得到如此极端或更极端的概率大于显著性水平α
  • 2:16 - 2:23
    如果χ2统计量得到如此极端或更极端的概率大于显著性水平α
    that is this extreme or more is greater than my α, significance level,
  • 2:23 - 2:29
    我就不能拒绝它 没有理由认为店主在撒谎
  • 2:30 - 2:32
    下面来计算χ2统计量
  • 2:32 - 2:41
    假设店主的分布是正确的
  • 2:41 - 2:45
    在此前提下 观测值预计会得到多少呢
  • 2:45 - 2:48
    在此前提下 观测值预计会得到多少呢
  • 2:48 - 2:52
    这里有预计百分比 我要求预计观测值
  • 2:52 - 2:56
    我写一下 预计值
  • 2:56 - 3:01
    周一预计是10%的顾客
  • 3:01 - 3:04
    周二预计是10%的顾客
  • 3:04 - 3:06
    周三是15%
  • 3:06 - 3:10
    要求得实际数字 我们需要先算总顾客数
  • 3:10 - 3:12
    先把这些数字加起来
  • 3:14 - 3:16
    用计算器算算
  • 3:18 - 3:26
    30+14+34+45+57+20
  • 3:26 - 3:30
    这一周总共是200名顾客光顾
  • 3:31 - 3:32
    我写一下
  • 3:32 - 3:38
    我把总和写下来
  • 3:38 - 3:41
    一周内总共来了200名顾客
  • 3:41 - 3:43
    那么周一的预计数量是多少
  • 3:43 - 3:48
    周一也就是200的10% 也就是20人
  • 3:48 - 3:51
    周一也就是200的10% 也就是20人
  • 3:51 - 3:55
    周二还是10% 预计有20人来
  • 3:55 - 3:59
    周三是200的15% 即30人
  • 3:59 - 4:05
    周四是200的20% 即40人
  • 4:05 - 4:09
    周五是30% 即60人
  • 4:09 - 4:14
    周六 200的15% 即30人
  • 4:14 - 4:21
    如果分布正确 这就是预计的顾客数
  • 4:21 - 4:23
    下面计算χ2统计量
  • 4:24 - 4:30
    我写一下 这里我不用χ2 而用X2表示
  • 4:30 - 4:33
    有些人可能会用希腊字母χ
  • 4:33 - 4:37
    我这里写X2 我这样写吧
  • 4:37 - 4:45
    这是我们的χ2统计量
  • 4:45 - 4:49
    实际统计量用X代替χ 因为这是近似服从χ2分布
  • 4:49 - 4:52
    实际统计量用X代替χ 因为这是近似服从χ2分布
  • 4:52 - 4:56
    这里不是准确的χ2分布 只是近似
  • 4:56 - 4:59
    计算起来很容易
  • 4:59 - 5:03
    将每天的观测值和预计值相减
  • 5:03 - 5:08
    周一是30-20
  • 5:08 - 5:10
    第一个我用颜色标注下
  • 5:10 - 5:12
    然后平方
  • 5:12 - 5:14
    再除以预计值
  • 5:14 - 5:17
    也就是将观测值和预计值之差平方
  • 5:17 - 5:20
    也就是将观测值和预计值之差平方
  • 5:20 - 5:23
    也就是将观测值和预计值之差平方
  • 5:23 - 5:26
    然后用预计值标准化
  • 5:26 - 5:30
    我们要求所有这些的和 后面是
  • 5:30 - 6:13
    +(14-20)2/20+(34-30)2/30+(45-40)2/40+(57-60)2/60+(20-30)2/30
  • 6:13 - 6:17
    都是(观测值-预计值)2/预计值 然后求和
  • 6:17 - 6:20
    这就得到χ2统计量
  • 6:20 - 6:23
    下面计算一下这些数字
  • 6:24 - 6:33
    这等于什么呢
  • 6:33 - 6:41
    30-20是10 平方得100 除以20 得5
  • 6:41 - 6:43
    我不见得能全部这么心算
  • 6:43 - 6:46
    加上… 我这样写吧 这样更容易理解
  • 6:46 - 6:51
    这里是100/20
  • 6:51 - 6:59
    14-20=-6 平方得36 于是有+36/20
  • 7:00 - 7:07
    34-30=4 平方得16 于是有+16/30
  • 7:07 - 7:14
    45-40=5 平方得25 于是有+25/40
  • 7:15 - 7:20
    57-60=-3 平方得9 于是有+9/30
  • 7:20 - 7:28
    20-30=-10 平方得100 于是有+100/30
  • 7:28 - 7:36
    结果我用计算器算一下
  • 7:36 - 7:56
    100/20+36/20+16/30+25/40+9/60+100/30
  • 7:56 - 8:02
    结果是11.44
  • 8:02 - 8:10
    我写一下 这个等于11.44
  • 8:10 - 8:14
    这就是我的χ2统计量 记作X2
  • 8:14 - 8:18
    有时人们用χ2 不过这里只是近似的χ2分布
  • 8:18 - 8:22
    有时人们用χ2 不过这里只是近似的χ2分布
  • 8:22 - 8:28
    总之 我们假设这是大致的χ2分布
  • 8:28 - 8:35
    那么得到至少这么极端情况的概率是多少呢
  • 8:36 - 8:37
    或者说
  • 8:38 - 8:42
    这里的结果会不会比临界χ2值更极端
  • 8:42 - 8:46
    得到5%概率的临界χ2值
  • 8:46 - 8:48
    我们先来求临界χ2值
  • 8:48 - 8:53
    如果我们的结果比该临界值更极端 我们就将拒绝零假设
  • 8:53 - 8:57
    下面来求临界χ2值
  • 8:57 - 8:59
    这里α是5%
  • 8:59 - 9:02
    另外 我们还要先求出自由度
  • 9:02 - 9:09
    这里总共求了6次和
  • 9:09 - 9:11
    你也许会误认为这里的自由度是6
  • 9:11 - 9:15
    其实 有5条信息 就能求出第6条信息
  • 9:15 - 9:20
    其实 有5条信息 就能求出第6条信息
  • 9:20 - 9:22
    因此自由度只有5
  • 9:22 - 9:27
    n个像这样的数据点 对比观测值和预计值
  • 9:27 - 9:29
    自由度只有n-1
  • 9:29 - 9:31
    因为第n个数据点能够通过其它数据求出
  • 9:31 - 9:34
    因为第n个数据点能够通过其它数据求出
  • 9:35 - 9:39
    因此 这里自由度是5 也就是n-1
  • 9:39 - 9:48
    显著性水平5% 自由度5
  • 9:48 - 9:51
    查χ2分布表
  • 9:51 - 9:59
    自由度5 显著性水平5%
  • 9:59 - 10:05
    查得临界χ2值是11.07 下面用图像来分析下
  • 10:05 - 10:09
    紫红色那条是5自由度χ2分布的曲线
  • 10:09 - 10:11
    紫红色那条是5自由度χ2分布的曲线
  • 10:12 - 10:17
    我们关心的临界值是11.07
  • 10:17 - 10:19
    甚至超出了图表范围
  • 10:19 - 10:27
    我可以把紫红色曲线延长一些
  • 10:27 - 10:29
    这里是8
  • 10:29 - 10:32
    后面是10 12
  • 10:32 - 10:36
    11.07大概在这附近
  • 10:36 - 10:46
    结果至少达到11.07这么极端的概率是5%
  • 10:46 - 10:58
    这里的临界χ2值是11.07
  • 10:58 - 11:05
    对一下表格 11.07
  • 11:06 - 11:13
    而我们得到的结果甚至比这更极端 可能性更小
  • 11:13 - 11:16
    其概率小于显著性水平
  • 11:16 - 11:19
    因此我们将拒绝…
  • 11:19 - 11:31
    11.44的情况比临界χ2值更极端
  • 11:31 - 11:35
    因此 店主分布正确的可能性很低
  • 11:36 - 11:43
    因此我们将拒绝他给我们的分布
  • 11:43 - 11:47
    根据显著性水平5% 它和实际吻合得不好
Title:
Pearson's Chi Square Test (Goodness of Fit)
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
11:48

Chinese (Simplified, China) subtitles

Incomplete

Revisions