< Return to Video

Central Limit Theorem

  • 0:00 - 0:03
    这一节我将讲到统计 甚至所有数学中
  • 0:03 - 0:06
    最基础 也最意义重大的概念之一
  • 0:06 - 0:08
    最基础 也最意义重大的概念之一
  • 0:08 - 0:16
    也就是中心极限定理
  • 0:16 - 0:18
    根据该定理 任意良好定义了均值和方差的分布
  • 0:18 - 0:21
    根据该定理 任意良好定义了均值和方差的分布
  • 0:21 - 0:24
    有方差也就是有标准差
  • 0:24 - 0:27
    不管该分布是连续还是离散的
  • 0:27 - 0:30
    这里我准备画一个离散的 因为这更容易
  • 0:30 - 0:32
    这里我准备画一个离散的 因为这更容易
  • 0:32 - 0:37
    下面来看一个离散概率分布函数
  • 0:37 - 0:40
    让它完全不像是一个正态分布
  • 0:40 - 0:41
    我将展示中心极限定理的力量
  • 0:41 - 0:44
    我将展示中心极限定理的力量
  • 0:44 - 0:45
    分布是这样的 值是1到6
  • 0:45 - 0:50
    分布是这样的 值是1到6
  • 0:50 - 0:52
    这是一种疯狂的骰子 得到1的概率非常高
  • 0:52 - 0:55
    这是一种疯狂的骰子 得到1的概率非常高
  • 0:55 - 0:57
    我画一下 1的概率很高 不可能得到2
  • 0:57 - 1:00
    我画一下 1的概率很高 不可能得到2
  • 1:00 - 1:03
    得到3或4的概率是正常的 不可能得到5
  • 1:03 - 1:04
    得到3或4的概率是正常的 不可能得到5
  • 1:04 - 1:07
    得到6的概率很高
  • 1:07 - 1:10
    这就是我的概率分布函数
  • 1:10 - 1:12
    这是对称的 所以均值应该在正中间
  • 1:12 - 1:14
    这是对称的 所以均值应该在正中间
  • 1:14 - 1:17
    这是对称的 所以均值应该在正中间
  • 1:17 - 1:20
    而标准差同这些值离均值的远近有关
  • 1:20 - 1:22
    而标准差同这些值离均值的远近有关
  • 1:22 - 1:26
    这就是我的离散概率分布函数
  • 1:26 - 1:29
    我这里不仅要取该随机变量的样本
  • 1:29 - 1:32
    我这里不仅要取该随机变量的样本
  • 1:32 - 1:35
    我这里不仅要取该随机变量的样本
  • 1:35 - 1:38
    还要求其平均值 然后看其平均值的频率
  • 1:38 - 1:41
    还要求其平均值 然后看其平均值的频率
  • 1:41 - 1:43
    还要求其平均值 然后看其平均值的频率
  • 1:43 - 1:45
    假设样本容量是4
  • 1:45 - 1:48
    假设样本容量是4
  • 1:48 - 1:57
    假设样本容量是4
  • 1:57 - 2:00
    也就是从中取4个样本值
  • 2:00 - 2:04
    第一次取4个样本值 样本容量为4
  • 2:04 - 2:07
    假设得到1 1 3 6
  • 2:07 - 2:10
    假设得到1 1 3 6
  • 2:10 - 2:14
    这是第一个样本容量为4的样本
  • 2:14 - 2:16
    有点绕 由4个样本值构成的样本
  • 2:16 - 2:19
    有点绕 由4个样本值构成的样本
  • 2:19 - 2:23
    之后几个视频中我们将更多地
  • 2:23 - 2:25
    讨论样本均值的抽样分布这些概念
  • 2:25 - 2:28
    讨论样本均值的抽样分布这些概念
  • 2:28 - 2:29
    一般而言 样本表示来自分布的一系列样本值
  • 2:29 - 2:32
    一般而言 样本表示来自分布的一系列样本值
  • 2:32 - 2:36
    而样本容量是指从分布中抽取多少个样本值
  • 2:36 - 2:37
    而样本容量是指从分布中抽取多少个样本值
  • 2:37 - 2:40
    总之 不要被这里的术语弄迷糊了
  • 2:40 - 2:42
    总之 不要被这里的术语弄迷糊了
  • 2:42 - 2:45
    这里是4个样本值 样本容量为4
  • 2:45 - 2:47
    然后求均值
  • 2:47 - 2:50
    第一个样本中4个样本值的均值是多少
  • 2:50 - 2:55
    第一个样本中4个样本值的均值是多少
  • 2:55 - 2:59
    1+1=2 2+3=5 5+6=11
  • 2:59 - 3:06
    11/4=2.75
  • 3:06 - 3:11
    这是第一个样本的均值
  • 3:11 - 3:14
    再看第二个样本 容量还是4
  • 3:14 - 3:20
    假设是3 4 3 1 这次碰巧没有6
  • 3:20 - 3:23
    假设是3 4 3 1 这次碰巧没有6
  • 3:23 - 3:25
    注意2和5是不能有的
  • 3:25 - 3:27
    注意2和5是不能有的
  • 3:27 - 3:28
    因为该分布中2和5的概率是0
  • 3:28 - 3:30
    因为该分布中2和5的概率是0
  • 3:30 - 3:37
    对于第二个样本 还是计算样本均值
  • 3:37 - 3:41
    3+4=7 7+3=10 10+1=11 11/4还是2.75
  • 3:41 - 3:50
    3+4=7 7+3=10 10+1=11 11/4还是2.75
  • 3:50 - 3:51
    再看一个 我要讲清楚这里在做什么
  • 3:51 - 3:53
    再看一个 我要讲清楚这里在做什么
  • 3:53 - 3:55
    其实我们这里要做很多很多 至少这里再详细讲一个
  • 3:55 - 3:57
    其实我们这里要做很多很多 至少这里再详细讲一个
  • 3:57 - 4:01
    假设有第三个样本 容量还是4
  • 4:01 - 4:03
    假设有第三个样本 容量还是4
  • 4:03 - 4:06
    4个样本值来自我们的疯狂分布
  • 4:06 - 4:08
    4个样本值来自我们的疯狂分布
  • 4:08 - 4:13
    假设是1 1 6 6
  • 4:13 - 4:18
    计算样本均值 1+1=2
  • 4:18 - 4:29
    2+6=8 8+6=14 14/4=3.5
  • 4:29 - 4:33
    我们要进行很多次抽样
  • 4:33 - 4:37
    然后对每次的四个样本值进行平均
  • 4:37 - 4:40
    然后都画到一个频率分布中
  • 4:40 - 4:43
    过一会你们就会感到惊讶的
  • 4:43 - 4:46
    所有都画到一个频率分布中
  • 4:46 - 4:52
    第一个样本 均值是2.75
  • 4:52 - 4:54
    这里是所有样本均值的频率 第一个是2.75 这里1次
  • 4:54 - 4:58
    这里是所有样本均值的频率 第一个是2.75 这里1次
  • 4:58 - 5:01
    画一个长方形 也就是这个样本均值
  • 5:01 - 5:04
    之后又有一个2.75
  • 5:04 - 5:08
    这里 于是得到2次
  • 5:08 - 5:11
    画上去 然后是3.5
  • 5:11 - 5:14
    我这里要所有可能值 可能是3
  • 5:14 - 5:16
    也可能是3.25或3.5
  • 5:16 - 5:19
    这里得到3.5 画到这里
  • 5:19 - 5:22
    之后我还要一直抽取样本
  • 5:22 - 5:25
    也许我需要1万个样本
  • 5:25 - 5:26
    一直照此进行下去 直到s
  • 5:26 - 5:31
    一直照此进行下去 直到s
  • 5:31 - 5:33
    由于太多 每个样本均值我用点来表示
  • 5:33 - 5:37
    由于太多 每个样本均值我用点来表示
  • 5:37 - 5:41
    大概是这样 仍然是这些可能取到的值
  • 5:41 - 5:43
    大概是这样 仍然是这些可能取到的值
  • 5:43 - 5:45
    2.75在这里
  • 5:45 - 5:48
    所以第一个点在这里
  • 5:48 - 5:51
    而第二个点在这里
  • 5:51 - 5:56
    然后3.5在这里
  • 5:56 - 5:58
    这里一共有1万个点
  • 5:58 - 6:01
    我会把它们都绘在图上
  • 6:01 - 6:04
    一直绘制频率
  • 6:04 - 6:07
    不断把它们绘制上去
  • 6:07 - 6:12
    这些样本容量都是4 非常之多
  • 6:12 - 6:14
    都画上去后结果将近似于正态分布
  • 6:14 - 6:18
    都画上去后结果将近似于正态分布
  • 6:18 - 6:22
    每个点表示一个样本均值
  • 6:22 - 6:24
    比如加到这一列上的都是均值为2.75的样本
  • 6:24 - 6:27
    比如加到这一列上的都是均值为2.75的样本
  • 6:27 - 6:30
    都画上去后结果将近似于正态分布
  • 6:30 - 6:32
    都画上去后结果将近似于正态分布
  • 6:32 - 6:36
    这就是中心极限定理的妙处所在
  • 6:36 - 6:39
    中心极限…
  • 6:39 - 6:42
    橙色这些是对于n=4的情况
  • 6:42 - 6:45
    橙色这些是对于n=4的情况
  • 6:45 - 6:49
    样本容量也可以是20
  • 6:49 - 6:52
    还是原来那个疯狂分布 只是样本容量由4变为20
  • 6:52 - 6:56
    还是原来那个疯狂分布 只是样本容量由4变为20
  • 6:56 - 7:00
    然后计算出20个样本值的均值 然后绘图
  • 7:00 - 7:02
    然后计算出20个样本值的均值 然后绘图
  • 7:02 - 7:06
    这时 分布大概会像这样
  • 7:06 - 7:08
    以后还会讨论得更多
  • 7:08 - 7:12
    绘制出1万个样本均值点后结果会是这样
  • 7:12 - 7:15
    绘制出1万个样本均值点后结果会是这样
  • 7:15 - 7:18
    这更近似于正态分布
  • 7:18 - 7:21
    虽然同之前具有相同的均值
  • 7:21 - 7:25
    虽然同之前具有相同的均值
  • 7:25 - 7:28
    但标准差比原来更小了
  • 7:28 - 7:30
    但标准差比原来更小了
  • 7:30 - 7:34
    我应该从下面画的 因为是逐渐堆上去的
  • 7:34 - 7:36
    一个个往上堆
  • 7:36 - 7:40
    这更趋近于正态分布
  • 7:40 - 7:44
    这是中心极限定律妙处所在 随着样本容量增大
  • 7:44 - 7:53
    这是中心极限定律妙处所在 随着样本容量增大
  • 7:53 - 7:55
    甚至趋于∞…
  • 7:55 - 7:57
    说清楚一点 不一定要很大才近似于正态分布
  • 7:57 - 7:58
    说清楚一点 不一定要很大才近似于正态分布
  • 7:58 - 8:01
    哪怕是10或20的样本容量都能得到正态分布的很好近似
  • 8:01 - 8:04
    哪怕是10或20的样本容量都能得到正态分布的很好近似
  • 8:04 - 8:07
    这种近似和日常生活中的很多情况都一样好
  • 8:07 - 8:11
    奇妙的地方是 我们可以从任意疯狂分布
  • 8:11 - 8:13
    任意和正态分布无关的分布
  • 8:13 - 8:16
    取任意数量的样本值n 比如这里n=4
  • 8:16 - 8:19
    n也可以是10或100
  • 8:19 - 8:23
    然后取样本均值画到图上 看频率
  • 8:23 - 8:25
    然后取样本均值画到图上 看频率
  • 8:25 - 8:28
    不断取样本容量为n的样本的均值 绘图
  • 8:28 - 8:30
    不断取样本容量为n的样本的均值 绘图
  • 8:30 - 8:32
    进行无限次后
  • 8:32 - 8:35
    特别是在无限样本容量时
  • 8:35 - 8:39
    最后会得到完美的正态分布 很疯狂
  • 8:39 - 8:42
    这里不一定要是样本均值
  • 8:42 - 8:44
    还可以是样本和 中心极限定理仍然成立
  • 8:44 - 8:46
    还可以是样本和 中心极限定理仍然成立
  • 8:46 - 8:48
    还可以是样本和 中心极限定理仍然成立
  • 8:48 - 8:51
    这非常有用
  • 8:51 - 8:54
    因为生活中很多的随机过程
  • 8:54 - 8:57
    蛋白质之间的作用 人们的疯狂行为
  • 8:57 - 9:00
    蛋白质之间的作用 人们的疯狂行为
  • 9:00 - 9:02
    这些的概率分布都不知道
  • 9:02 - 9:04
    这些的概率分布都不知道
  • 9:04 - 9:07
    但根据中心极限定理
  • 9:07 - 9:09
    我们能将这些综合起来考虑 得到相同分布
  • 9:09 - 9:12
    我们能将这些综合起来考虑 得到相同分布
  • 9:12 - 9:15
    我们可以看这些的均值频率 得到正态分布
  • 9:15 - 9:18
    我们可以看这些的均值频率 得到正态分布
  • 9:18 - 9:22
    这也正是正态分布在统计中如此常用的原因
  • 9:22 - 9:26
    这也正是正态分布在统计中如此常用的原因
  • 9:26 - 9:31
    它是很多过程的和或均值的很好近似
  • 9:31 - 9:34
    正态分布
  • 9:34 - 9:36
    下一节我将证明这个
  • 9:36 - 9:37
    下一节我将证明这个
  • 9:37 - 9:40
    即随着样本容量n的增加
  • 9:40 - 9:44
    样本均值的频率图将很接近于正态分布
  • 9:44 - 9:48
    样本均值的频率图将很接近于正态分布
Title:
Central Limit Theorem
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
09:49

Chinese, Simplified subtitles

Incomplete

Revisions