< Return to Video

Introduction to the Normal Distribution

  • 0:01 - 0:15
    本字幕由网易公开课提供,更多课程请到http//open.163.com
  • 0:01 - 0:06
    正态分布应该是统计中最重要的概念了
  • 0:06 - 0:10
    推论统计几乎完全就是以正态分布为基础的
  • 0:10 - 0:16
    根据数据点进行推论 很大程度都是基于正态分布
  • 0:16 - 0:23
    因此这个视频及这个电子表格的目的是
  • 0:17 - 0:25
    网易公开课官方微博 http://t.163.com/163open
  • 0:23 - 0:27
    让大家尽可能地理解正态分布
  • 0:27 - 0:31
    以后凡是有人向你提到正态分布
  • 0:30 - 0:45
    oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org
  • 0:31 - 0:32
    你会知道它是什么 公式是什么 如何使用等等
  • 0:32 - 0:35
    你会知道它是什么 公式是什么 如何使用等等
  • 0:35 - 0:38
    电子表格都可以在www.khanacademy.org/downlads/下载
  • 0:38 - 0:43
    电子表格都可以在www.khanacademy.org/downlads/下载
  • 0:43 - 0:45
    电子表格都可以在www.khanacademy.org/downlads/下载
  • 0:45 - 0:51
    其文件名是normalintro.xls
  • 0:51 - 0:53
    其文件名是normalintro.xls
  • 0:53 - 0:55
    你还可以到维基百科上搜索正态分布
  • 0:55 - 0:59
    你还可以到维基百科上搜索正态分布
  • 0:59 - 1:04
    也会得到这些东西 我要用画笔工具
  • 1:04 - 1:07
    这是从维基上复制粘贴的
  • 1:07 - 1:10
    我知道这些希腊字母很让人丧气
  • 1:10 - 1:13
    不过其实很简单 σ就是分布的标准差
  • 1:13 - 1:15
    不过其实很简单 σ就是分布的标准差
  • 1:15 - 1:20
    我会根据这个图表讲解这些到底是什么
  • 1:20 - 1:22
    p(x)是分布的概率密度函数 而σ是其标准差
  • 1:22 - 1:27
    p(x)是分布的概率密度函数 而σ是其标准差
  • 1:27 - 1:30
    我建议你重新看一下概率密度函数那一节
  • 1:30 - 1:32
    我建议你重新看一下概率密度函数那一节
  • 1:32 - 1:36
    那是从离散情况到连续情况的过渡
  • 1:36 - 1:39
    二项分布这样的离散情况
  • 1:39 - 1:41
    得到任何值的概率直接看条形图表就能知道
  • 1:41 - 1:44
    得到任何值的概率直接看条形图表就能知道
  • 1:44 - 1:48
    而在连续概率密度函数的情况下
  • 1:48 - 1:52
    不能直接知道得到5的概率
  • 1:52 - 1:59
    只能求一定范围内的概率 比如4.5到5.5的概率
  • 1:59 - 2:02
    只能求一定范围内的概率 比如4.5到5.5的概率
  • 2:02 - 2:06
    然后仅读图表也不能知道概率
  • 2:06 - 2:13
    要知道概率需要计算曲线下方的面积
  • 2:13 - 2:17
    这里p(x)是正态分布概率密度函数 它也可以是任何分布
  • 2:17 - 2:19
    这里p(x)是正态分布概率密度函数 它也可以是任何分布
  • 2:19 - 2:24
    这里p(x)是正态分布概率密度函数 它也可以是任何分布
  • 2:24 - 2:29
    求概率 比如4.5到5.5之间的概率
  • 2:29 - 2:33
    比如明天下4.5到5.5英寸雨的概率
  • 2:33 - 2:36
    比如明天下4.5到5.5英寸雨的概率
  • 2:36 - 2:42
    此概率等于从4.5到5.5的概率密度函数的积分
  • 2:42 - 2:50
    此概率等于从4.5到5.5的概率密度函数的积分
  • 2:50 - 2:51
    这是曲线下的面积 不明白的人可以参阅微积分视频
  • 2:51 - 2:55
    这是曲线下的面积 不明白的人可以参阅微积分视频
  • 2:55 - 3:00
    这表示的就是这里到这里 曲线下的面积
  • 3:00 - 3:03
    对于正态分布
  • 3:03 - 3:08
    解析解不容易算 所以一般是算数值解
  • 3:08 - 3:10
    数值解其实也就是
  • 3:10 - 3:13
    通过其它方式来近似得到函数积分的值
  • 3:13 - 3:15
    通过其它方式来近似得到函数积分的值
  • 3:15 - 3:20
    一种近似求积分的方法是
  • 3:20 - 3:24
    用梯型面积作为曲线下面积的近似值
  • 3:24 - 3:27
    求梯形面积也就是平均高度乘以底
  • 3:27 - 3:30
    求梯形面积也就是平均高度乘以底
  • 3:30 - 3:33
    或者说… 我换个颜色
  • 3:33 - 3:36
    都是绿色看不清了
  • 3:36 - 3:42
    也就是用这个高乘以底
  • 3:42 - 3:46
    这是一个矩形 其面积是曲线下面积的很好近似
  • 3:46 - 3:49
    这是一个矩形 其面积是曲线下面积的很好近似
  • 3:49 - 3:52
    它部分会多一点 部分会少一点 但总体是很好的近似
  • 3:52 - 3:54
    它部分会多一点 部分会少一点 但总体是很好的近似
  • 3:54 - 3:56
    之前的视频中
  • 3:56 - 3:59
    我就用这种近似讲解了
  • 3:59 - 4:03
    试验次数很多时 正态分布同二项分布的近似
  • 4:03 - 4:08
    试验次数很多时 正态分布同二项分布的近似
  • 4:08 - 4:10
    正态分布很有意思 不知道我讲过没 这是它的图像
  • 4:10 - 4:14
    正态分布很有意思 不知道我讲过没 这是它的图像
  • 4:17 - 4:20
    人们可能会谈到中心极限定理
  • 4:20 - 4:23
    中心极限定理是我们宇宙中很重要很奇妙的一个现象
  • 4:23 - 4:27
    中心极限定理是我们宇宙中很重要很奇妙的一个现象
  • 4:27 - 4:30
    这里我不会证明它 不过
  • 4:30 - 4:34
    之前的视频中我讲抛硬币时也讲过
  • 4:34 - 4:38
    如果抛的足够多 每一次试验相互独立
  • 4:38 - 4:40
    其随机变量等于1如果为正 0如果为反
  • 4:40 - 4:42
    其随机变量等于1如果为正 0如果为反
  • 4:42 - 4:45
    那么所有这些随机变量的和
  • 4:45 - 4:50
    在抛掷次数趋于无穷时 趋于正态分布
  • 4:50 - 4:53
    有趣的是 每一次抛硬币的试验并非正态分布
  • 4:53 - 4:55
    有趣的是 每一次抛硬币的试验并非正态分布
  • 4:55 - 4:59
    但结果却得到正态分布
  • 4:59 - 5:03
    所以 讨论分子相互作用时
  • 5:03 - 5:09
    每次化合物x同化合物y相互作用时
  • 5:09 - 5:12
    结果并不需要是正态分布
  • 5:12 - 5:15
    但很多相互作用和在一起
  • 5:15 - 5:20
    最后就得到了正态分布的结果
  • 5:20 - 5:22
    因此正态分布非常重要
  • 5:22 - 5:27
    它在大自然中无处不在
  • 5:27 - 5:31
    如果你取一些很复杂的数据点之和
  • 5:31 - 5:36
    独立随机试验几乎有无穷次
  • 5:36 - 5:40
    此时正态分布就是很好的假设
  • 5:40 - 5:42
    我会另外录制视频讲解正态分布用在什么时候比较好
  • 5:42 - 5:44
    我会另外录制视频讲解正态分布用在什么时候比较好
  • 5:44 - 5:48
    这里 为了更好地消化它 我重写一次
  • 5:48 - 5:50
    这是维基的写法
  • 5:50 - 6:00
    也可以写成σ乘以根号2π分之一 乘以e的这么多次方
  • 6:00 - 6:05
    次方数也就是-(x-均值)2/(2σ2)
  • 6:05 - 6:12
    次方数也就是-(x-均值)2/(2σ2)
  • 6:12 - 6:16
    σ是标准差 也就是方差的平方根
  • 6:16 - 6:18
    这里有很多希腊字母 不过别着急
  • 6:18 - 6:20
    这里有很多希腊字母 不过别着急
  • 6:20 - 6:24
    p(x)表示正态分布概率密度函数的高
  • 6:24 - 6:39
    可以认为这是人们身高的分布
  • 6:39 - 6:43
    假设这是5'9 不是0
  • 6:43 - 6:51
    假设你想知道大概比平均值高5英寸的概率
  • 6:51 - 6:55
    假设你想知道大概比平均值高5英寸的概率
  • 6:55 - 6:58
    假设你想知道大概比平均值高5英寸的概率
  • 6:58 - 7:03
    此时可以用5替换x
  • 7:03 - 7:07
    假设已知标准差 以及标准差平方的方差
  • 7:07 - 7:09
    假设已知标准差 以及标准差平方的方差
  • 7:09 - 7:11
    知道均值 代入x就能得到函数的高
  • 7:11 - 7:14
    知道均值 代入x就能得到函数的高
  • 7:14 - 7:15
    然后给一个范围 就能算出身高比平均高5英寸左右的概率
  • 7:15 - 7:20
    然后给一个范围 就能算出身高比平均高5英寸左右的概率
  • 7:20 - 7:23
    比如范围可以是比平均值高4.9英寸到5.1英寸之间
  • 7:23 - 7:25
    比如范围可以是比平均值高4.9英寸到5.1英寸之间
  • 7:25 - 7:27
    需要一个范围是因为 不可能有1个原子不差的5'9
  • 7:27 - 7:32
    需要一个范围是因为 不可能有1个原子不差的5'9
  • 7:32 - 7:36
    英寸的定义本身都不可能这么准确
  • 7:36 - 7:39
    这是概率密度函数的用法
  • 7:39 - 7:42
    正态分布在自然界中应用广泛
  • 7:42 - 7:46
    推论统计中 你们需要尽最大可能熟悉这个公式
  • 7:46 - 7:51
    推论统计中 你们需要尽最大可能熟悉这个公式
  • 7:51 - 7:54
    我稍微倒弄一下这个公式 好让你们有更好的理解
  • 7:54 - 7:57
    我稍微倒弄一下这个公式 好让你们有更好的理解
  • 7:57 - 8:02
    我帮助你们记忆下公式
  • 8:02 - 8:05
    这个标准差σ可以放到根号内
  • 8:05 - 8:07
    这个标准差σ可以放到根号内
  • 8:07 - 8:13
    也就是1/根号下(2πσ2)
  • 8:13 - 8:15
    没有人这么写过 不过这很容易理解
  • 8:15 - 8:18
    没有人这么写过 不过这很容易理解
  • 8:18 - 8:20
    σ2就是方差 计算标准差之前总要先计算方差
  • 8:20 - 8:25
    σ2就是方差 计算标准差之前总要先计算方差
  • 8:25 - 8:29
    而上面这里e的次方数可以写成
  • 8:29 - 8:35
    -1/2?[(x-μ)/σ]2 因为分子分母都有个平方
  • 8:35 - 8:43
    -1/2?[(x-μ)/σ]2 因为分子分母都有个平方
  • 8:43 - 8:50
    这更能说明情况 平方内这是什么
  • 8:50 - 8:57
    x-μ是我们要求的值同均值之间的距离 也就是这段距离
  • 8:57 - 9:03
    x-μ是我们要求的值同均值之间的距离 也就是这段距离
  • 9:03 - 9:07
    而标准差是这段距离
  • 9:07 - 9:12
    因此(x-μ)/σ表示离均值有多少个标准差远
  • 9:12 - 9:15
    它被称为标准z分数 我会另外录视频讲的
  • 9:15 - 9:21
    然后平方 然后乘以-1/2 我再整理下
  • 9:21 - 9:25
    一般而言 e的-1/2a次方=e的a次方的-1/2次方
  • 9:25 - 9:30
    一般而言 e的-1/2a次方=e的a次方的-1/2次方
  • 9:30 - 9:32
    指数相乘相当于一个指数次方然后另一个指数次方
  • 9:32 - 9:35
    指数相乘相当于一个指数次方然后另一个指数次方
  • 9:35 - 9:39
    同理 这里也可以进行这个操作 它等于
  • 9:39 - 9:47
    1/根号(2πσ2) 其中σ2是方差
  • 9:47 - 9:49
    我这里倒弄这个公式
  • 9:49 - 9:52
    是为了让你们看到各种形式 加强理解
  • 9:52 - 9:57
    如果你对为何如此有了更深的见地 可以发邮件告诉我
  • 9:57 - 9:59
    非常酷的是 公式里突然就出现了π和e
  • 9:59 - 10:01
    非常酷的是 公式里突然就出现了π和e
  • 10:04 - 10:07
    很多现象都有π和e
  • 10:07 - 10:12
    比如e的iπ次方=-1
  • 10:12 - 10:15
    这说明了宇宙的某种自然规律
  • 10:15 - 10:24
    回到正题 这个可以写成e的[(x-μ)/σ]2次方的-1/2次方
  • 10:24 - 10:28
    回到正题 这个可以写成e的[(x-μ)/σ]2次方的-1/2次方
  • 10:28 - 10:30
    某式的-1/2次方也就是此式的平方根分之一
  • 10:30 - 10:33
    某式的-1/2次方也就是此式的平方根分之一
  • 10:33 - 10:40
    因此原式可以重写为 1除以根号下
  • 10:40 - 10:54
    2π?方差?e的z分数2次方
  • 10:54 - 10:58
    其中z是这个 表示离均值有多少标准差远 z分数的平方
  • 10:58 - 11:02
    其中z是这个 表示离均值有多少标准差远 z分数的平方
  • 11:02 - 11:05
    式子变得很清楚了
  • 11:05 - 11:09
    2π?方差?e的某次方
  • 11:09 - 11:12
    次方数就是离均值的标准差数目的平方
  • 11:12 - 11:17
    然后开方 然后取倒数 就得到正态分布
  • 11:17 - 11:18
    以上我算倒弄完了 结果很简洁 也很有趣
  • 11:18 - 11:21
    以上我算倒弄完了 结果很简洁 也很有趣
  • 11:21 - 11:23
    以后不管看到哪种形式 你都应该认出它是正态分布
  • 11:23 - 11:26
    以后不管看到哪种形式 你都应该认出它是正态分布
  • 11:26 - 11:29
    以后不管看到哪种形式 你都应该认出它是正态分布
  • 11:29 - 11:34
    倒弄完公式 我再来倒弄下正态分布曲线
  • 11:34 - 11:36
    电子表格里我绘制了正态分布曲线 蓝绿色的设定值是可以改的
  • 11:36 - 11:40
    电子表格里我绘制了正态分布曲线 蓝绿色的设定值是可以改的
  • 11:40 - 11:45
    这里的图像 均值是0 标准差是4
  • 11:45 - 11:47
    这里方差是标准差的平方 放到这里只是作为提示
  • 11:47 - 11:50
    这里方差是标准差的平方 放到这里只是作为提示
  • 11:50 - 11:52
    改变均值会如何
  • 11:52 - 11:57
    我把它从0改到5看看
  • 11:57 - 12:00
    注意到 图像向右移动了5个单位
  • 12:00 - 12:03
    图像中央从轴线中央向右移了
  • 12:03 - 12:07
    如果改成-5呢
  • 12:07 - 12:11
    整个钟形曲线从中央往左移了5个单位
  • 12:11 - 12:13
    改变标准差呢
  • 12:13 - 12:20
    方差是同均值距离平方的平均值 而标准差是其平方根
  • 12:20 - 12:22
    方差是同均值距离平方的平均值 而标准差是其平方根
  • 12:22 - 12:26
    所以 标准差可以说是同均值的某种平均距离
  • 12:26 - 12:29
    所以 标准差越小 越多点将靠近均值
  • 12:29 - 12:31
    所以 标准差越小 越多点将靠近均值
  • 12:31 - 12:34
    同时图像也会变得越来越窄
  • 12:34 - 12:38
    比如标准差改成2 看到了吧
  • 12:38 - 12:42
    此时图像会更靠近均值
  • 12:42 - 12:46
    如果把标准差改为10 就会得到
  • 12:46 - 12:50
    一个非常扁的钟形曲线 两侧无尽延伸
  • 12:50 - 12:54
    这是关键 二项分布是有限的
  • 12:54 - 12:56
    而正态分布在整个实数轴上都有定义
  • 12:56 - 13:01
    而正态分布在整个实数轴上都有定义
  • 13:01 - 13:07
    此时 在均值为-5 标准差为10的情况下
  • 13:07 - 13:15
    得到1000的概率是非常低的 但还是可能
  • 13:15 - 13:18
    比如我身体内所有原子的排列
  • 13:18 - 13:21
    正好让我从座位上跌倒
  • 13:21 - 13:23
    非常不可能 也许宇宙的进程中都不会发生 但还是有微弱可能
  • 13:23 - 13:26
    非常不可能 也许宇宙的进程中都不会发生 但还是有微弱可能
  • 13:26 - 13:29
    这就可以由正态分布来描述
  • 13:29 - 13:32
    正态分布告诉我们 这个的概率非常非常微弱
  • 13:35 - 13:36
    最开始的时候我讲了 对于正态分布不能只看一点的概率
  • 13:36 - 13:41
    最开始的时候我讲了 对于正态分布不能只看一点的概率
  • 13:41 - 13:44
    换回画笔工具
  • 13:44 - 13:50
    需要看的是两点间曲线下方的面积
  • 13:50 - 13:52
    假设这是我们的分布
  • 13:52 - 13:55
    如果我想求0的概率
  • 13:55 - 13:59
    这是不可能的
  • 13:59 - 14:04
    因为正好为0的概率 在曲线下方没有面积
  • 14:04 - 14:07
    因为正好为0的概率 在曲线下方没有面积
  • 14:07 - 14:11
    直线没有面积 必须有一个范围
  • 14:11 - 14:17
    比如在0±0.005的范围内求概率 可以输入到这里
  • 14:17 - 14:28
    比如在0±0.005的范围内求概率 可以输入到这里
  • 14:28 - 14:33
    结果四舍五入后 几乎是0
  • 14:33 - 14:38
    再算一下-1到1范围内的情况
  • 14:38 - 14:43
    结果是7% 等会我告诉你们这是怎么来的
  • 14:43 - 14:46
    换画图工具 我刚做了什么
  • 14:46 - 14:49
    -1到1之间 我讲一下
  • 14:49 - 14:56
    Excel做了些什么 从-1 大概在这里 到1
  • 14:56 - 15:01
    这里 我们计算了曲线下的面积
  • 15:01 - 15:05
    或者说 从-1到1的概率密度函数的积分
  • 15:05 - 15:11
    或者说 从-1到1的概率密度函数的积分
  • 15:11 - 15:19
    这里标准差是10 而均值是-5
  • 15:19 - 15:23
    我写进去 这里计算的函数
  • 15:23 - 15:28
    这是一个正态分布
  • 15:28 - 15:34
    标准差是10 根号下2π 然后是e
  • 15:34 - 15:40
    次方数是-1/2乘以 x减均值…
  • 15:40 - 15:46
    均值是-5 所以也就是x+5 除以
  • 15:46 - 15:55
    标准差平方也就是方差 即100 平方 dx
  • 15:55 - 15:59
    这就是7% 或者说0.07的由来 它表示这里的面积
  • 15:59 - 16:02
    这就是7% 或者说0.07的由来 它表示这里的面积
  • 16:02 - 16:04
    很不幸的是 这个积分并不容易进行解析计算
  • 16:04 - 16:08
    很不幸的是 这个积分并不容易进行解析计算
  • 16:08 - 16:11
    所以一般我们用数值方法
  • 16:11 - 16:14
    这里我引入一个新的函数定义 叫作累积分布函数(CDF)
  • 16:14 - 16:18
    这里我引入一个新的函数定义 叫作累积分布函数(CDF)
  • 16:18 - 16:22
    这是求面积的有用工具
  • 16:22 - 16:25
    累积分布函数是x的函数
  • 16:25 - 16:32
    累积分布函数是x的函数
  • 16:32 - 16:35
    它是概率密度曲线的积分
  • 16:35 - 16:39
    假设x在这里
  • 16:39 - 16:42
    它表示曲线下一直到x的面积
  • 16:42 - 16:44
    或者说 结果值落在小于x范围内的概率
  • 16:44 - 16:47
    或者说 结果值落在小于x范围内的概率
  • 16:47 - 16:55
    这是概率密度函数从-∞到x的积分
  • 17:00 - 17:08
    Excel有正态分布函数normdist
  • 17:08 - 17:14
    参数是x值 然后是均值 标准差
  • 17:14 - 17:17
    后面注明是否要累积分布
  • 17:17 - 17:21
    求累积分布填TRUE 求概率密度高度填FALSE
  • 17:21 - 17:27
    如果你要画这个概率密度曲线 显然应该填入FALSE
  • 17:27 - 17:29
    如果想绘制这个累积分布 也就是下面这个
  • 17:29 - 17:32
    如果想绘制这个累积分布 也就是下面这个
  • 17:32 - 17:38
    往下面来一些 换成画笔工具
  • 17:38 - 17:44
    累积分布函数在这里
  • 17:44 - 17:47
    此时就应该对Excel填入TRUE
  • 17:47 - 17:51
    这就是原正态分布的累积分布函数
  • 17:51 - 17:53
    这就是原正态分布的累积分布函数
  • 17:53 - 17:55
    比如说
  • 17:55 - 17:59
    问值小于20的概率是多少
  • 17:59 - 18:04
    问值小于20的概率是多少
  • 18:04 - 18:06
    这也就是累积分布CDF(20)的值
  • 18:06 - 18:11
    这也就是累积分布CDF(20)的值
  • 18:11 - 18:16
    看这里 小于20的概率非常高 接近100%
  • 18:16 - 18:17
    看这里 小于20的概率非常高 接近100%
  • 18:17 - 18:21
    这说得通 因为概率密度曲线下小于20的面积很大
  • 18:21 - 18:25
    再比如求小于-5的概率
  • 18:25 - 18:29
    -5是均值 所以结果一半会高于它 一半会低于它
  • 18:29 - 18:33
    对应的累积分布值CDF(-5)则正好是50%
  • 18:33 - 18:38
    表示小于-5的概率正好是50%
  • 18:38 - 18:43
    如果要求-1到1之间的概率
  • 18:43 - 18:47
    如果要求-1到1之间的概率
  • 18:47 - 18:57
    我可以先求小于-1的概率值CDF(-1)
  • 18:57 - 19:00
    也就是这个面积
  • 19:00 - 19:02
    然后求出小于1的这部分的面积CDF(1)
  • 19:02 - 19:05
    然后求出小于1的这部分的面积CDF(1)
  • 19:05 - 19:10
    然后求出小于1的这部分的面积CDF(1)
  • 19:10 - 19:18
    然后用紫红面积CDF(1)-黄色面积CDF(-1) 得到-1到1的概率
  • 19:18 - 19:25
    电子表格中也正是这样做的 往下挪动一下
  • 19:25 - 19:30
    录制视频似乎有点拖速度
  • 19:30 - 19:39
    这里计算了累积分布函数在1处的值CDF(1)
  • 19:39 - 19:45
    以及累积分布函数在-1处的值CDF(-1)
  • 19:45 - 19:48
    两者之差CDF(1)-CDF(-1)就是-1到1之间的概率
  • 19:48 - 19:52
    两者之差CDF(1)-CDF(-1)就是-1到1之间的概率
  • 19:52 - 19:55
    两者之差CDF(1)-CDF(-1)就是-1到1之间的概率
  • 19:55 - 20:02
    你也可以考虑面积
  • 20:02 - 20:07
    我强烈建议你们好好倒弄一下这个Excel表格中的公式
  • 20:07 - 20:11
    这个面积 -1到1
  • 20:18 - 20:22
    中线在这里 这是均值
  • 20:22 - 20:24
    而这两条线表示离均值一个标准差远
  • 20:24 - 20:30
    而这两条线表示离均值一个标准差远
  • 20:30 - 20:32
    有些人想知道均值左右各一个标准差之间的概率 这很简单
  • 20:32 - 20:34
    有些人想知道均值左右各一个标准差之间的概率 这很简单
  • 20:34 - 20:36
    用这个来计算就行了
  • 20:36 - 20:39
    用这个来计算就行了
  • 20:39 - 20:44
    均值是-5
  • 20:44 - 20:47
    均值往左一个标准差就是-15
  • 20:47 - 20:52
    均值往右一个标准差则是10+(-5) 即5
  • 20:52 - 20:56
    也就是-15到5之间 得到68.3%
  • 20:56 - 21:00
    对于正态分布 均值左右一个标准差内的概率总是68.3%
  • 21:00 - 21:04
    对于正态分布 均值左右一个标准差内的概率总是68.3%
  • 21:04 - 21:06
    对于正态分布 均值左右一个标准差内的概率总是68.3%
  • 21:06 - 21:11
    这个数字表示概率密度曲线下方的这个面积
  • 21:11 - 21:16
    这个数字表示概率密度曲线下方的这个面积
  • 21:16 - 21:22
    计算方法是通过累积分布函数
  • 21:22 - 21:27
    往下一些 每次移动都要先取消画笔
  • 21:27 - 21:33
    首先计算+5处的值 这里
  • 21:33 - 21:37
    这是均值右侧一个标准差处 这里
  • 21:37 - 21:41
    大概是80%多 也许接近90%
  • 21:41 - 21:46
    然后计算均值左侧一个标准差处-15的情况
  • 21:46 - 21:54
    这大概是15%-18%的样子
  • 21:54 - 21:57
    总之 这两个值相减后 就能得到-15到5之间的概率
  • 21:57 - 22:01
    总之 这两个值相减后 就能得到-15到5之间的概率
  • 22:01 - 22:06
    因为这个值CDF(5)表示小于5的概率…
  • 22:06 - 22:09
    因为这个值CDF(5)表示小于5的概率…
  • 22:14 - 22:16
    换来换去真麻烦
  • 22:21 - 22:27
    CDF(5)也就是概率密度下这一部分的面积
  • 22:27 - 22:29
    CDF(5)也就是概率密度下这一部分的面积
  • 22:29 - 22:32
    表示小于5的概率
  • 22:32 - 22:35
    然后计算左侧的CDF(-15) 也就这边这一段
  • 22:35 - 22:38
    然后计算左侧的CDF(-15) 也就这边这一段
  • 22:38 - 22:41
    然后用这一大段减去这一小段 就能得到-15到5之间的概率
  • 22:41 - 22:46
    然后用这一大段减去这一小段 就能得到-15到5之间的概率
  • 22:46 - 22:49
    为了让你们有更好的理解
  • 22:49 - 22:53
    我准备再倒弄一下这个表格
  • 22:53 - 22:58
    看看均值从-5改成5会是什么情况
  • 22:58 - 23:03
    此时曲线中心向右侧移动到5
  • 23:03 - 23:06
    此时曲线中心向右侧移动到5
  • 23:11 - 23:13
    我还可以调小标准差 曲线会收紧 比如取6
  • 23:13 - 23:17
    我还可以调小标准差 曲线会收紧 比如取6
  • 23:17 - 23:24
    曲线比原来更紧 改成2则会更紧
  • 23:24 - 23:27
    建议你们多倒弄一下表格和公式 上一节的表格也是
  • 23:27 - 23:29
    建议你们多倒弄一下表格和公式 上一节的表格也是
  • 23:29 - 23:31
    以得到正态分布分布及其同二项分布关系的更深理解
  • 23:31 - 23:35
    以得到正态分布分布及其同二项分布关系的更深理解
  • 23:35 - 23:37
    这个图中
  • 23:37 - 23:43
    其实是描出-20到20的所有点 每点之间增量为1
  • 23:43 - 23:45
    其实是描出-20到20的所有点 每点之间增量为1
  • 23:45 - 23:47
    这其实不是一个连续曲线 而是描点后进行连线得到的
  • 23:47 - 23:51
    这其实不是一个连续曲线 而是描点后进行连线得到的
  • 23:51 - 23:55
    然后我计算了每个点同均值之间的距离
  • 23:55 - 24:01
    比如0-5 这是距离
  • 24:01 - 24:08
    这里的-25也就是说 -20比均值少25
  • 24:08 - 24:15
    然后除以标准差得到标准z分数
  • 24:15 - 24:19
    这表示-20离均值有多少个标准差远
  • 24:19 - 24:24
    这里比均值小12.5个标准差
  • 24:24 - 24:26
    然后代入公式求出概率密度函数的高
  • 24:26 - 24:29
    然后代入公式求出概率密度函数的高
  • 24:29 - 24:33
    -20的高很低
  • 24:33 - 24:36
    -2的高稍好一些 大概在这什么地方
  • 24:36 - 24:42
    -2的高稍好一些 大概在这什么地方
  • 24:42 - 24:44
    也就是这里的值
  • 24:44 - 24:48
    然后通过累积分布函数计算出小于此值的概率
  • 24:48 - 24:52
    然后通过累积分布函数计算出小于此值的概率
  • 24:52 - 24:56
    也就是不到这一点下曲线的面积 很小
  • 24:56 - 24:59
    也就是不到这一点下曲线的面积 很小
  • 24:59 - 25:03
    但不是0 看起来是0 因为经过了四舍五入
  • 25:03 - 25:07
    其实应该是0.0001什么的 只是非常小
  • 25:07 - 25:10
    甚至取-1000也是有概率的
  • 25:10 - 25:12
    另外有一点需要注意
  • 25:12 - 25:18
    即概率密度曲线下所有值的积分等于1
  • 25:18 - 25:22
    落在所有可能性内的概率是1
  • 25:22 - 25:24
    这里用很小的数和很大的数 可以直观看一下
  • 25:24 - 25:27
    这里用很小的数和很大的数 可以直观看一下
  • 25:27 - 25:29
    好了 几乎是100%
  • 25:29 - 25:33
    其实只有-∞到+∞才是真正的100%
  • 25:33 - 25:39
    这里是四舍五入得到100% 也许是99.99999%什么的
  • 25:39 - 25:43
    计算这个 也就是取这两个值分别的累积分布函数值 然后相减
  • 25:43 - 25:46
    计算这个 也就是取这两个值分别的累积分布函数值 然后相减
  • 25:46 - 25:49
    计算这个 也就是取这两个值分别的累积分布函数值 然后相减
  • 25:49 - 25:52
    这就得到接近100%
  • 25:52 - 25:59
    但愿这一节能让你们对正态分布有更好的理解
  • 25:59 - 26:01
    我强烈建议你们自己倒弄一下电子表格
  • 26:01 - 26:03
    我强烈建议你们自己倒弄一下电子表格
  • 26:03 - 26:06
    以后 我们还会将这类表格用到其它模型中
  • 26:06 - 26:09
    以后 我们还会将这类表格用到其它模型中
  • 26:09 - 26:12
    比如金融模型中 收入可能是某期望值周围的正态分布
  • 26:12 - 26:15
    比如金融模型中 收入可能是某期望值周围的正态分布
  • 26:15 - 26:18
    比如金融模型中 收入可能是某期望值周围的正态分布
  • 26:18 - 26:20
    这样的例子不胜枚举
  • 26:20 - 26:23
    好了 下次课见
Title:
Introduction to the Normal Distribution
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
26:24

Chinese, Simplified subtitles

Revisions