Small Sample Size Confidence Intervals
-
0:01 - 0:067个患者在服用新药3个月后测量血压
-
0:06 - 0:08其血压上升值分别为下面七个值
-
0:08 - 0:13其血压上升值分别为下面七个值
-
0:13 - 0:18为总体中所有病人的血压升高真正期望值
-
0:18 - 0:22建立一个95%置信区间
-
0:22 - 0:25这里存在某种总体分布
-
0:25 - 0:29有理由相信它是正态的 因为是生物过程
-
0:29 - 0:34这相当于将药品给到所有存在过的患者
-
0:34 - 0:41会得到一个血压升高均值
-
0:41 - 0:46然后还会得到一定的标准差
-
0:46 - 0:50这是一个正态分布 因为这是一个生物过程
-
0:50 - 0:53这是一个正态分布 因为这是一个生物过程
-
0:53 - 0:57这是大量随机事件的和
-
0:57 - 1:00而大量随机事件之和接近于正态分布
-
1:00 - 1:02而大量随机事件之和接近于正态分布
-
1:02 - 1:09这里是总体分布
-
1:09 - 1:14除了样本 我们对它一无所知
-
1:14 - 1:17这时 一般情况下
-
1:17 - 1:20我们可以先求出样本的各种统计量
-
1:20 - 1:22我们可以先求出样本的各种统计量
-
1:22 - 1:25这里有7个数据点 全部相加然后除以7就是样本均值
-
1:25 - 1:29这里有7个数据点 全部相加然后除以7就是样本均值
-
1:29 - 1:34这里样本均值是2.34
-
1:34 - 1:37然后还可以算出样本标准差
-
1:37 - 1:40离均值距离平方之和除以n-1
-
1:40 - 1:44离均值距离平方之和除以n-1
-
1:44 - 1:48然后开根号 得到标准差
-
1:48 - 1:53为了节约时间我提前算过 样本标准差是1.04
-
1:53 - 1:55不知道总体情况的时候 我们总可以
-
1:55 - 1:58不知道总体情况的时候 我们总可以
-
1:58 - 2:05使用样本标准差S来估计总体标准差σ
-
2:05 - 2:08使用样本标准差S来估计总体标准差σ
-
2:08 - 2:16使用样本标准差S来估计总体标准差σ
-
2:16 - 2:21而在这个问题里 我们碰到了问题
-
2:21 - 2:25估计标准差时 n只有7
-
2:25 - 2:32此时 这个估计值就不算好了
-
2:32 - 2:41因为n太小了
-
2:41 - 2:46n小于30通常被认为是糟糕的估计
-
2:46 - 2:4930以上才能算是好估计
-
2:49 - 2:55这个视频里我要讲的是 我们关注抽样分布
-
2:55 - 2:58以此来生成区间
-
2:58 - 3:03这里抽样分布不能像原来那样认为是正态分布
-
3:03 - 3:06使用中心极限定理之类的
-
3:06 - 3:09我们需要改变抽样分布
-
3:09 - 3:12不再假设是正态分布 因为这是糟糕估计
-
3:12 - 3:16我们假设是所谓的t分布
-
3:16 - 3:19可以认为t分布是专门为
-
3:19 - 3:23可以认为t分布是专门为
-
3:23 - 3:26小样本容量时置信区间的更好估计所设计的
-
3:26 - 3:30小样本容量时置信区间的更好估计所设计的
-
3:30 - 3:35它和正态分布很像
-
3:35 - 3:40这是此抽样分布的均值
-
3:40 - 3:47不过它的尾部较肥
-
3:47 - 3:50为什么会有肥尾呢 我谈一下我的理解
-
3:50 - 3:56为什么会有肥尾呢 我谈一下我的理解
-
3:56 - 4:00一般而言 抽样分布的实际标准差
-
4:00 - 4:02一般而言 抽样分布的实际标准差
-
4:02 - 4:08一般而言 抽样分布的实际标准差
-
4:08 - 4:14等于原分布标准差除以根号n
-
4:14 - 4:19这里n=7 我们一般不知道总体的标准差σ
-
4:19 - 4:23这里n=7 我们一般不知道总体的标准差σ
-
4:23 - 4:32此时最好的办法就是用样本标准差S来进行估计
-
4:32 - 4:36这就是不说95%概率区间 而说置信区间的原因
-
4:36 - 4:40这就是不说95%概率区间 而说置信区间的原因
-
4:40 - 4:41因为我们进行了估计
-
4:41 - 4:44因为我们进行了估计
-
4:44 - 4:47S会随着样本的不同而改变
-
4:47 - 4:50而且 这里的估计还很糟糕
-
4:51 - 4:56因为样本容量很小 远小于30
-
4:56 - 4:59此时如果用样本标准差的这个公式估计抽样分布标准差
-
4:59 - 5:01此时如果用样本标准差的这个公式估计抽样分布标准差
-
5:01 - 5:05此时如果用样本标准差的这个公式估计抽样分布标准差
-
5:05 - 5:08此时如果用样本标准差的这个公式估计抽样分布标准差
-
5:08 - 5:10此时如果用样本标准差的这个公式估计抽样分布标准差
-
5:10 - 5:14就不能将抽样分布看成正态分布
-
5:14 - 5:18而应假设它有更肥的尾部
-
5:18 - 5:20肥尾是因为低估了抽样分布的标准差
-
5:20 - 5:24肥尾是因为低估了抽样分布的标准差
-
5:24 - 5:28说了这么多 下面看题目吧
-
5:28 - 5:34我们需要找一个均值左右的95%置信区间
-
5:34 - 5:37对于正态分布的情况 我们会去查z表格
-
5:37 - 5:40对于正态分布的情况 我们会去查z表格
-
5:40 - 5:46但这里不是正态分布 而是t分布
-
5:46 - 5:48我们要求95%置信区间
-
5:48 - 5:54也就是均值左右包含95%面积的区间
-
5:54 - 6:00t分布对应有t表格 我提前准备到这里了
-
6:00 - 6:05这里我们要用双侧这一行
-
6:05 - 6:10也就是说该分布关于中轴对称 所以叫"双侧"
-
6:10 - 6:12也就是说该分布关于中轴对称 所以叫"双侧"
-
6:12 - 6:16单侧表示一直到特定值的累积百分比
-
6:16 - 6:19这里是对称的 所以是双侧
-
6:19 - 6:22也就是说 我们将两侧排除在外
-
6:22 - 6:26我们需要中间是95%
-
6:26 - 6:37这是n=7时的样本均值抽样分布
-
6:37 - 6:40这里我就不详细讲了
-
6:40 - 6:46总之n=7时 有6个自由度 也就是n-1个
-
6:46 - 6:50t表格中 你要确定自由度
-
6:50 - 6:55自由度不是n 而是n-1 所以这里是6
-
6:55 - 6:59要包括95%的面积
-
6:59 - 7:06而自由度是6 此时对应两侧2.447个标准差
-
7:06 - 7:11t表格中说的标准差是通过样本标准差得到的估计值
-
7:11 - 7:14t表格中说的标准差是通过样本标准差得到的估计值
-
7:14 - 7:21也就是说 2.447个标准差估计值
-
7:21 - 7:29画到图上 这里也就是2.447个标准差估计值
-
7:29 - 7:38画到图上 这里也就是2.447个标准差估计值
-
7:38 - 7:40有时 一些统计书上 这样表示这个数字
-
7:40 - 7:44有时 一些统计书上 这样表示这个数字
-
7:44 - 7:47上面加"一顶帽子"
-
7:47 - 7:52表示这是用样本均值估计的值
-
7:52 - 7:54老实说 我们也只能算出这个
-
7:54 - 7:56老实说 我们也只能算出这个
-
7:56 - 8:00这就是两个方向的距离
-
8:00 - 8:11下面用计算器算一下
-
8:11 - 8:18样本标准差是1.04
-
8:18 - 8:24用此除以根号7
-
8:24 - 8:37得到0.39 这个是0.39
-
8:37 - 8:40要求抽样分布上包含95%面积的这个区域
-
8:40 - 8:46要求抽样分布上包含95%面积的这个区域
-
8:46 - 8:52我们需要用0.39×2.447
-
8:52 - 9:020.39×2.447=0.96
-
9:02 - 9:10所以这个距离是0.96
-
9:10 - 9:14这个也是0.96
-
9:14 - 9:20我们这里抽取的是一个随机样本 容量为7
-
9:20 - 9:23然后算出其均值
-
9:23 - 9:27均值可以看作是抽样分布的随机样本值
-
9:27 - 9:31因此这里可以看成是
-
9:31 - 9:3795%几率… 作为警告 一切我们都说是"置信" 因为这些都是估计
-
9:37 - 9:4195%几率… 作为警告 一切我们都说是"置信" 因为这些都是估计
-
9:41 - 9:44表示并非真正的95%概率
-
9:44 - 9:49我们只是"相信" 有95%几率
-
9:49 - 9:54随机抽样的均值2.34
-
9:54 - 10:00也就是说2.34从这个分布中抽出
-
10:00 - 10:15有95%几率 2.34在抽样分布实际均值周围0.96范围内
-
10:15 - 10:22也就是总体均值周围0.96的范围内
-
10:22 - 10:26或者改变一下顺序 也就是
-
10:26 - 10:3495%几率 μ 也就是抽样分布均值 在样本均值2.34周围0.96范围内
-
10:34 - 10:4695%几率 μ 也就是抽样分布均值 在样本均值2.34周围0.96范围内
-
10:46 - 10:53置信区间下限是2.34-0.96 也就是1.38
-
10:53 - 10:58置信区间下限是2.34-0.96 也就是1.38
-
10:58 - 11:06置信区间的上限是2.34+0.96 也就是3.3
-
11:06 - 11:11所以95%置信区间是1.38到3.3
- Title:
- Small Sample Size Confidence Intervals
- Description:
-
- Video Language:
- English
- Team:
Khan Academy
- Duration:
- 11:11
![]() |
Fran Ontanaya edited Chinese (Simplified, China) subtitles for Small Sample Size Confidence Intervals |