< Return to Video

Small Sample Size Confidence Intervals

  • 0:01 - 0:06
    7个患者在服用新药3个月后测量血压
  • 0:06 - 0:08
    其血压上升值分别为下面七个值
  • 0:08 - 0:13
    其血压上升值分别为下面七个值
  • 0:13 - 0:18
    为总体中所有病人的血压升高真正期望值
  • 0:18 - 0:22
    建立一个95%置信区间
  • 0:22 - 0:25
    这里存在某种总体分布
  • 0:25 - 0:29
    有理由相信它是正态的 因为是生物过程
  • 0:29 - 0:34
    这相当于将药品给到所有存在过的患者
  • 0:34 - 0:41
    会得到一个血压升高均值
  • 0:41 - 0:46
    然后还会得到一定的标准差
  • 0:46 - 0:50
    这是一个正态分布 因为这是一个生物过程
  • 0:50 - 0:53
    这是一个正态分布 因为这是一个生物过程
  • 0:53 - 0:57
    这是大量随机事件的和
  • 0:57 - 1:00
    而大量随机事件之和接近于正态分布
  • 1:00 - 1:02
    而大量随机事件之和接近于正态分布
  • 1:02 - 1:09
    这里是总体分布
  • 1:09 - 1:14
    除了样本 我们对它一无所知
  • 1:14 - 1:17
    这时 一般情况下
  • 1:17 - 1:20
    我们可以先求出样本的各种统计量
  • 1:20 - 1:22
    我们可以先求出样本的各种统计量
  • 1:22 - 1:25
    这里有7个数据点 全部相加然后除以7就是样本均值
  • 1:25 - 1:29
    这里有7个数据点 全部相加然后除以7就是样本均值
  • 1:29 - 1:34
    这里样本均值是2.34
  • 1:34 - 1:37
    然后还可以算出样本标准差
  • 1:37 - 1:40
    离均值距离平方之和除以n-1
  • 1:40 - 1:44
    离均值距离平方之和除以n-1
  • 1:44 - 1:48
    然后开根号 得到标准差
  • 1:48 - 1:53
    为了节约时间我提前算过 样本标准差是1.04
  • 1:53 - 1:55
    不知道总体情况的时候 我们总可以
  • 1:55 - 1:58
    不知道总体情况的时候 我们总可以
  • 1:58 - 2:05
    使用样本标准差S来估计总体标准差σ
  • 2:05 - 2:08
    使用样本标准差S来估计总体标准差σ
  • 2:08 - 2:16
    使用样本标准差S来估计总体标准差σ
  • 2:16 - 2:21
    而在这个问题里 我们碰到了问题
  • 2:21 - 2:25
    估计标准差时 n只有7
  • 2:25 - 2:32
    此时 这个估计值就不算好了
  • 2:32 - 2:41
    因为n太小了
  • 2:41 - 2:46
    n小于30通常被认为是糟糕的估计
  • 2:46 - 2:49
    30以上才能算是好估计
  • 2:49 - 2:55
    这个视频里我要讲的是 我们关注抽样分布
  • 2:55 - 2:58
    以此来生成区间
  • 2:58 - 3:03
    这里抽样分布不能像原来那样认为是正态分布
  • 3:03 - 3:06
    使用中心极限定理之类的
  • 3:06 - 3:09
    我们需要改变抽样分布
  • 3:09 - 3:12
    不再假设是正态分布 因为这是糟糕估计
  • 3:12 - 3:16
    我们假设是所谓的t分布
  • 3:16 - 3:19
    可以认为t分布是专门为
  • 3:19 - 3:23
    可以认为t分布是专门为
  • 3:23 - 3:26
    小样本容量时置信区间的更好估计所设计的
  • 3:26 - 3:30
    小样本容量时置信区间的更好估计所设计的
  • 3:30 - 3:35
    它和正态分布很像
  • 3:35 - 3:40
    这是此抽样分布的均值
  • 3:40 - 3:47
    不过它的尾部较肥
  • 3:47 - 3:50
    为什么会有肥尾呢 我谈一下我的理解
  • 3:50 - 3:56
    为什么会有肥尾呢 我谈一下我的理解
  • 3:56 - 4:00
    一般而言 抽样分布的实际标准差
  • 4:00 - 4:02
    一般而言 抽样分布的实际标准差
  • 4:02 - 4:08
    一般而言 抽样分布的实际标准差
  • 4:08 - 4:14
    等于原分布标准差除以根号n
  • 4:14 - 4:19
    这里n=7 我们一般不知道总体的标准差σ
  • 4:19 - 4:23
    这里n=7 我们一般不知道总体的标准差σ
  • 4:23 - 4:32
    此时最好的办法就是用样本标准差S来进行估计
  • 4:32 - 4:36
    这就是不说95%概率区间 而说置信区间的原因
  • 4:36 - 4:40
    这就是不说95%概率区间 而说置信区间的原因
  • 4:40 - 4:41
    因为我们进行了估计
  • 4:41 - 4:44
    因为我们进行了估计
  • 4:44 - 4:47
    S会随着样本的不同而改变
  • 4:47 - 4:50
    而且 这里的估计还很糟糕
  • 4:51 - 4:56
    因为样本容量很小 远小于30
  • 4:56 - 4:59
    此时如果用样本标准差的这个公式估计抽样分布标准差
  • 4:59 - 5:01
    此时如果用样本标准差的这个公式估计抽样分布标准差
  • 5:01 - 5:05
    此时如果用样本标准差的这个公式估计抽样分布标准差
  • 5:05 - 5:08
    此时如果用样本标准差的这个公式估计抽样分布标准差
  • 5:08 - 5:10
    此时如果用样本标准差的这个公式估计抽样分布标准差
  • 5:10 - 5:14
    就不能将抽样分布看成正态分布
  • 5:14 - 5:18
    而应假设它有更肥的尾部
  • 5:18 - 5:20
    肥尾是因为低估了抽样分布的标准差
  • 5:20 - 5:24
    肥尾是因为低估了抽样分布的标准差
  • 5:24 - 5:28
    说了这么多 下面看题目吧
  • 5:28 - 5:34
    我们需要找一个均值左右的95%置信区间
  • 5:34 - 5:37
    对于正态分布的情况 我们会去查z表格
  • 5:37 - 5:40
    对于正态分布的情况 我们会去查z表格
  • 5:40 - 5:46
    但这里不是正态分布 而是t分布
  • 5:46 - 5:48
    我们要求95%置信区间
  • 5:48 - 5:54
    也就是均值左右包含95%面积的区间
  • 5:54 - 6:00
    t分布对应有t表格 我提前准备到这里了
  • 6:00 - 6:05
    这里我们要用双侧这一行
  • 6:05 - 6:10
    也就是说该分布关于中轴对称 所以叫"双侧"
  • 6:10 - 6:12
    也就是说该分布关于中轴对称 所以叫"双侧"
  • 6:12 - 6:16
    单侧表示一直到特定值的累积百分比
  • 6:16 - 6:19
    这里是对称的 所以是双侧
  • 6:19 - 6:22
    也就是说 我们将两侧排除在外
  • 6:22 - 6:26
    我们需要中间是95%
  • 6:26 - 6:37
    这是n=7时的样本均值抽样分布
  • 6:37 - 6:40
    这里我就不详细讲了
  • 6:40 - 6:46
    总之n=7时 有6个自由度 也就是n-1个
  • 6:46 - 6:50
    t表格中 你要确定自由度
  • 6:50 - 6:55
    自由度不是n 而是n-1 所以这里是6
  • 6:55 - 6:59
    要包括95%的面积
  • 6:59 - 7:06
    而自由度是6 此时对应两侧2.447个标准差
  • 7:06 - 7:11
    t表格中说的标准差是通过样本标准差得到的估计值
  • 7:11 - 7:14
    t表格中说的标准差是通过样本标准差得到的估计值
  • 7:14 - 7:21
    也就是说 2.447个标准差估计值
  • 7:21 - 7:29
    画到图上 这里也就是2.447个标准差估计值
  • 7:29 - 7:38
    画到图上 这里也就是2.447个标准差估计值
  • 7:38 - 7:40
    有时 一些统计书上 这样表示这个数字
  • 7:40 - 7:44
    有时 一些统计书上 这样表示这个数字
  • 7:44 - 7:47
    上面加"一顶帽子"
  • 7:47 - 7:52
    表示这是用样本均值估计的值
  • 7:52 - 7:54
    老实说 我们也只能算出这个
  • 7:54 - 7:56
    老实说 我们也只能算出这个
  • 7:56 - 8:00
    这就是两个方向的距离
  • 8:00 - 8:11
    下面用计算器算一下
  • 8:11 - 8:18
    样本标准差是1.04
  • 8:18 - 8:24
    用此除以根号7
  • 8:24 - 8:37
    得到0.39 这个是0.39
  • 8:37 - 8:40
    要求抽样分布上包含95%面积的这个区域
  • 8:40 - 8:46
    要求抽样分布上包含95%面积的这个区域
  • 8:46 - 8:52
    我们需要用0.39×2.447
  • 8:52 - 9:02
    0.39×2.447=0.96
  • 9:02 - 9:10
    所以这个距离是0.96
  • 9:10 - 9:14
    这个也是0.96
  • 9:14 - 9:20
    我们这里抽取的是一个随机样本 容量为7
  • 9:20 - 9:23
    然后算出其均值
  • 9:23 - 9:27
    均值可以看作是抽样分布的随机样本值
  • 9:27 - 9:31
    因此这里可以看成是
  • 9:31 - 9:37
    95%几率… 作为警告 一切我们都说是"置信" 因为这些都是估计
  • 9:37 - 9:41
    95%几率… 作为警告 一切我们都说是"置信" 因为这些都是估计
  • 9:41 - 9:44
    表示并非真正的95%概率
  • 9:44 - 9:49
    我们只是"相信" 有95%几率
  • 9:49 - 9:54
    随机抽样的均值2.34
  • 9:54 - 10:00
    也就是说2.34从这个分布中抽出
  • 10:00 - 10:15
    有95%几率 2.34在抽样分布实际均值周围0.96范围内
  • 10:15 - 10:22
    也就是总体均值周围0.96的范围内
  • 10:22 - 10:26
    或者改变一下顺序 也就是
  • 10:26 - 10:34
    95%几率 μ 也就是抽样分布均值 在样本均值2.34周围0.96范围内
  • 10:34 - 10:46
    95%几率 μ 也就是抽样分布均值 在样本均值2.34周围0.96范围内
  • 10:46 - 10:53
    置信区间下限是2.34-0.96 也就是1.38
  • 10:53 - 10:58
    置信区间下限是2.34-0.96 也就是1.38
  • 10:58 - 11:06
    置信区间的上限是2.34+0.96 也就是3.3
  • 11:06 - 11:11
    所以95%置信区间是1.38到3.3
Title:
Small Sample Size Confidence Intervals
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
11:11

Chinese (Simplified, China) subtitles

Revisions