Central Limit Theorem
-
0:00 - 0:03这一节我将讲到统计 甚至所有数学中
-
0:03 - 0:06最基础 也最意义重大的概念之一
-
0:06 - 0:08最基础 也最意义重大的概念之一
-
0:08 - 0:16也就是中心极限定理
-
0:16 - 0:18根据该定理 任意良好定义了均值和方差的分布
-
0:18 - 0:21根据该定理 任意良好定义了均值和方差的分布
-
0:21 - 0:24有方差也就是有标准差
-
0:24 - 0:27不管该分布是连续还是离散的
-
0:27 - 0:30这里我准备画一个离散的 因为这更容易
-
0:30 - 0:32这里我准备画一个离散的 因为这更容易
-
0:32 - 0:37下面来看一个离散概率分布函数
-
0:37 - 0:40让它完全不像是一个正态分布
-
0:40 - 0:41我将展示中心极限定理的力量
-
0:41 - 0:44我将展示中心极限定理的力量
-
0:44 - 0:45分布是这样的 值是1到6
-
0:45 - 0:50分布是这样的 值是1到6
-
0:50 - 0:52这是一种疯狂的骰子 得到1的概率非常高
-
0:52 - 0:55这是一种疯狂的骰子 得到1的概率非常高
-
0:55 - 0:57我画一下 1的概率很高 不可能得到2
-
0:57 - 1:00我画一下 1的概率很高 不可能得到2
-
1:00 - 1:03得到3或4的概率是正常的 不可能得到5
-
1:03 - 1:04得到3或4的概率是正常的 不可能得到5
-
1:04 - 1:07得到6的概率很高
-
1:07 - 1:10这就是我的概率分布函数
-
1:10 - 1:12这是对称的 所以均值应该在正中间
-
1:12 - 1:14这是对称的 所以均值应该在正中间
-
1:14 - 1:17这是对称的 所以均值应该在正中间
-
1:17 - 1:20而标准差同这些值离均值的远近有关
-
1:20 - 1:22而标准差同这些值离均值的远近有关
-
1:22 - 1:26这就是我的离散概率分布函数
-
1:26 - 1:29我这里不仅要取该随机变量的样本
-
1:29 - 1:32我这里不仅要取该随机变量的样本
-
1:32 - 1:35我这里不仅要取该随机变量的样本
-
1:35 - 1:38还要求其平均值 然后看其平均值的频率
-
1:38 - 1:41还要求其平均值 然后看其平均值的频率
-
1:41 - 1:43还要求其平均值 然后看其平均值的频率
-
1:43 - 1:45假设样本容量是4
-
1:45 - 1:48假设样本容量是4
-
1:48 - 1:57假设样本容量是4
-
1:57 - 2:00也就是从中取4个样本值
-
2:00 - 2:04第一次取4个样本值 样本容量为4
-
2:04 - 2:07假设得到1 1 3 6
-
2:07 - 2:10假设得到1 1 3 6
-
2:10 - 2:14这是第一个样本容量为4的样本
-
2:14 - 2:16有点绕 由4个样本值构成的样本
-
2:16 - 2:19有点绕 由4个样本值构成的样本
-
2:19 - 2:23之后几个视频中我们将更多地
-
2:23 - 2:25讨论样本均值的抽样分布这些概念
-
2:25 - 2:28讨论样本均值的抽样分布这些概念
-
2:28 - 2:29一般而言 样本表示来自分布的一系列样本值
-
2:29 - 2:32一般而言 样本表示来自分布的一系列样本值
-
2:32 - 2:36而样本容量是指从分布中抽取多少个样本值
-
2:36 - 2:37而样本容量是指从分布中抽取多少个样本值
-
2:37 - 2:40总之 不要被这里的术语弄迷糊了
-
2:40 - 2:42总之 不要被这里的术语弄迷糊了
-
2:42 - 2:45这里是4个样本值 样本容量为4
-
2:45 - 2:47然后求均值
-
2:47 - 2:50第一个样本中4个样本值的均值是多少
-
2:50 - 2:55第一个样本中4个样本值的均值是多少
-
2:55 - 2:591+1=2 2+3=5 5+6=11
-
2:59 - 3:0611/4=2.75
-
3:06 - 3:11这是第一个样本的均值
-
3:11 - 3:14再看第二个样本 容量还是4
-
3:14 - 3:20假设是3 4 3 1 这次碰巧没有6
-
3:20 - 3:23假设是3 4 3 1 这次碰巧没有6
-
3:23 - 3:25注意2和5是不能有的
-
3:25 - 3:27注意2和5是不能有的
-
3:27 - 3:28因为该分布中2和5的概率是0
-
3:28 - 3:30因为该分布中2和5的概率是0
-
3:30 - 3:37对于第二个样本 还是计算样本均值
-
3:37 - 3:413+4=7 7+3=10 10+1=11 11/4还是2.75
-
3:41 - 3:503+4=7 7+3=10 10+1=11 11/4还是2.75
-
3:50 - 3:51再看一个 我要讲清楚这里在做什么
-
3:51 - 3:53再看一个 我要讲清楚这里在做什么
-
3:53 - 3:55其实我们这里要做很多很多 至少这里再详细讲一个
-
3:55 - 3:57其实我们这里要做很多很多 至少这里再详细讲一个
-
3:57 - 4:01假设有第三个样本 容量还是4
-
4:01 - 4:03假设有第三个样本 容量还是4
-
4:03 - 4:064个样本值来自我们的疯狂分布
-
4:06 - 4:084个样本值来自我们的疯狂分布
-
4:08 - 4:13假设是1 1 6 6
-
4:13 - 4:18计算样本均值 1+1=2
-
4:18 - 4:292+6=8 8+6=14 14/4=3.5
-
4:29 - 4:33我们要进行很多次抽样
-
4:33 - 4:37然后对每次的四个样本值进行平均
-
4:37 - 4:40然后都画到一个频率分布中
-
4:40 - 4:43过一会你们就会感到惊讶的
-
4:43 - 4:46所有都画到一个频率分布中
-
4:46 - 4:52第一个样本 均值是2.75
-
4:52 - 4:54这里是所有样本均值的频率 第一个是2.75 这里1次
-
4:54 - 4:58这里是所有样本均值的频率 第一个是2.75 这里1次
-
4:58 - 5:01画一个长方形 也就是这个样本均值
-
5:01 - 5:04之后又有一个2.75
-
5:04 - 5:08这里 于是得到2次
-
5:08 - 5:11画上去 然后是3.5
-
5:11 - 5:14我这里要所有可能值 可能是3
-
5:14 - 5:16也可能是3.25或3.5
-
5:16 - 5:19这里得到3.5 画到这里
-
5:19 - 5:22之后我还要一直抽取样本
-
5:22 - 5:25也许我需要1万个样本
-
5:25 - 5:26一直照此进行下去 直到s
-
5:26 - 5:31一直照此进行下去 直到s
-
5:31 - 5:33由于太多 每个样本均值我用点来表示
-
5:33 - 5:37由于太多 每个样本均值我用点来表示
-
5:37 - 5:41大概是这样 仍然是这些可能取到的值
-
5:41 - 5:43大概是这样 仍然是这些可能取到的值
-
5:43 - 5:452.75在这里
-
5:45 - 5:48所以第一个点在这里
-
5:48 - 5:51而第二个点在这里
-
5:51 - 5:56然后3.5在这里
-
5:56 - 5:58这里一共有1万个点
-
5:58 - 6:01我会把它们都绘在图上
-
6:01 - 6:04一直绘制频率
-
6:04 - 6:07不断把它们绘制上去
-
6:07 - 6:12这些样本容量都是4 非常之多
-
6:12 - 6:14都画上去后结果将近似于正态分布
-
6:14 - 6:18都画上去后结果将近似于正态分布
-
6:18 - 6:22每个点表示一个样本均值
-
6:22 - 6:24比如加到这一列上的都是均值为2.75的样本
-
6:24 - 6:27比如加到这一列上的都是均值为2.75的样本
-
6:27 - 6:30都画上去后结果将近似于正态分布
-
6:30 - 6:32都画上去后结果将近似于正态分布
-
6:32 - 6:36这就是中心极限定理的妙处所在
-
6:36 - 6:39中心极限…
-
6:39 - 6:42橙色这些是对于n=4的情况
-
6:42 - 6:45橙色这些是对于n=4的情况
-
6:45 - 6:49样本容量也可以是20
-
6:49 - 6:52还是原来那个疯狂分布 只是样本容量由4变为20
-
6:52 - 6:56还是原来那个疯狂分布 只是样本容量由4变为20
-
6:56 - 7:00然后计算出20个样本值的均值 然后绘图
-
7:00 - 7:02然后计算出20个样本值的均值 然后绘图
-
7:02 - 7:06这时 分布大概会像这样
-
7:06 - 7:08以后还会讨论得更多
-
7:08 - 7:12绘制出1万个样本均值点后结果会是这样
-
7:12 - 7:15绘制出1万个样本均值点后结果会是这样
-
7:15 - 7:18这更近似于正态分布
-
7:18 - 7:21虽然同之前具有相同的均值
-
7:21 - 7:25虽然同之前具有相同的均值
-
7:25 - 7:28但标准差比原来更小了
-
7:28 - 7:30但标准差比原来更小了
-
7:30 - 7:34我应该从下面画的 因为是逐渐堆上去的
-
7:34 - 7:36一个个往上堆
-
7:36 - 7:40这更趋近于正态分布
-
7:40 - 7:44这是中心极限定律妙处所在 随着样本容量增大
-
7:44 - 7:53这是中心极限定律妙处所在 随着样本容量增大
-
7:53 - 7:55甚至趋于∞…
-
7:55 - 7:57说清楚一点 不一定要很大才近似于正态分布
-
7:57 - 7:58说清楚一点 不一定要很大才近似于正态分布
-
7:58 - 8:01哪怕是10或20的样本容量都能得到正态分布的很好近似
-
8:01 - 8:04哪怕是10或20的样本容量都能得到正态分布的很好近似
-
8:04 - 8:07这种近似和日常生活中的很多情况都一样好
-
8:07 - 8:11奇妙的地方是 我们可以从任意疯狂分布
-
8:11 - 8:13任意和正态分布无关的分布
-
8:13 - 8:16取任意数量的样本值n 比如这里n=4
-
8:16 - 8:19n也可以是10或100
-
8:19 - 8:23然后取样本均值画到图上 看频率
-
8:23 - 8:25然后取样本均值画到图上 看频率
-
8:25 - 8:28不断取样本容量为n的样本的均值 绘图
-
8:28 - 8:30不断取样本容量为n的样本的均值 绘图
-
8:30 - 8:32进行无限次后
-
8:32 - 8:35特别是在无限样本容量时
-
8:35 - 8:39最后会得到完美的正态分布 很疯狂
-
8:39 - 8:42这里不一定要是样本均值
-
8:42 - 8:44还可以是样本和 中心极限定理仍然成立
-
8:44 - 8:46还可以是样本和 中心极限定理仍然成立
-
8:46 - 8:48还可以是样本和 中心极限定理仍然成立
-
8:48 - 8:51这非常有用
-
8:51 - 8:54因为生活中很多的随机过程
-
8:54 - 8:57蛋白质之间的作用 人们的疯狂行为
-
8:57 - 9:00蛋白质之间的作用 人们的疯狂行为
-
9:00 - 9:02这些的概率分布都不知道
-
9:02 - 9:04这些的概率分布都不知道
-
9:04 - 9:07但根据中心极限定理
-
9:07 - 9:09我们能将这些综合起来考虑 得到相同分布
-
9:09 - 9:12我们能将这些综合起来考虑 得到相同分布
-
9:12 - 9:15我们可以看这些的均值频率 得到正态分布
-
9:15 - 9:18我们可以看这些的均值频率 得到正态分布
-
9:18 - 9:22这也正是正态分布在统计中如此常用的原因
-
9:22 - 9:26这也正是正态分布在统计中如此常用的原因
-
9:26 - 9:31它是很多过程的和或均值的很好近似
-
9:31 - 9:34正态分布
-
9:34 - 9:36下一节我将证明这个
-
9:36 - 9:37下一节我将证明这个
-
9:37 - 9:40即随着样本容量n的增加
-
9:40 - 9:44样本均值的频率图将很接近于正态分布
-
9:44 - 9:48样本均值的频率图将很接近于正态分布
- Title:
- Central Limit Theorem
- Description:
-
- Video Language:
- English
- Team:
Khan Academy
- Duration:
- 09:49
![]() |
Jenny_Zhang edited Chinese, Simplified subtitles for Central Limit Theorem |