-
本字幕由网易公开课提供,更多课程请到http//open.163.com
-
正态分布应该是统计中最重要的概念了
-
推论统计几乎完全就是以正态分布为基础的
-
根据数据点进行推论 很大程度都是基于正态分布
-
因此这个视频及这个电子表格的目的是
-
网易公开课官方微博 http://t.163.com/163open
-
让大家尽可能地理解正态分布
-
以后凡是有人向你提到正态分布
-
oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org
-
你会知道它是什么 公式是什么 如何使用等等
-
你会知道它是什么 公式是什么 如何使用等等
-
电子表格都可以在www.khanacademy.org/downlads/下载
-
电子表格都可以在www.khanacademy.org/downlads/下载
-
电子表格都可以在www.khanacademy.org/downlads/下载
-
其文件名是normalintro.xls
-
其文件名是normalintro.xls
-
你还可以到维基百科上搜索正态分布
-
你还可以到维基百科上搜索正态分布
-
也会得到这些东西 我要用画笔工具
-
这是从维基上复制粘贴的
-
我知道这些希腊字母很让人丧气
-
不过其实很简单 σ就是分布的标准差
-
不过其实很简单 σ就是分布的标准差
-
我会根据这个图表讲解这些到底是什么
-
p(x)是分布的概率密度函数 而σ是其标准差
-
p(x)是分布的概率密度函数 而σ是其标准差
-
我建议你重新看一下概率密度函数那一节
-
我建议你重新看一下概率密度函数那一节
-
那是从离散情况到连续情况的过渡
-
二项分布这样的离散情况
-
得到任何值的概率直接看条形图表就能知道
-
得到任何值的概率直接看条形图表就能知道
-
而在连续概率密度函数的情况下
-
不能直接知道得到5的概率
-
只能求一定范围内的概率 比如4.5到5.5的概率
-
只能求一定范围内的概率 比如4.5到5.5的概率
-
然后仅读图表也不能知道概率
-
要知道概率需要计算曲线下方的面积
-
这里p(x)是正态分布概率密度函数 它也可以是任何分布
-
这里p(x)是正态分布概率密度函数 它也可以是任何分布
-
这里p(x)是正态分布概率密度函数 它也可以是任何分布
-
求概率 比如4.5到5.5之间的概率
-
比如明天下4.5到5.5英寸雨的概率
-
比如明天下4.5到5.5英寸雨的概率
-
此概率等于从4.5到5.5的概率密度函数的积分
-
此概率等于从4.5到5.5的概率密度函数的积分
-
这是曲线下的面积 不明白的人可以参阅微积分视频
-
这是曲线下的面积 不明白的人可以参阅微积分视频
-
这表示的就是这里到这里 曲线下的面积
-
对于正态分布
-
解析解不容易算 所以一般是算数值解
-
数值解其实也就是
-
通过其它方式来近似得到函数积分的值
-
通过其它方式来近似得到函数积分的值
-
一种近似求积分的方法是
-
用梯型面积作为曲线下面积的近似值
-
求梯形面积也就是平均高度乘以底
-
求梯形面积也就是平均高度乘以底
-
或者说… 我换个颜色
-
都是绿色看不清了
-
也就是用这个高乘以底
-
这是一个矩形 其面积是曲线下面积的很好近似
-
这是一个矩形 其面积是曲线下面积的很好近似
-
它部分会多一点 部分会少一点 但总体是很好的近似
-
它部分会多一点 部分会少一点 但总体是很好的近似
-
之前的视频中
-
我就用这种近似讲解了
-
试验次数很多时 正态分布同二项分布的近似
-
试验次数很多时 正态分布同二项分布的近似
-
正态分布很有意思 不知道我讲过没 这是它的图像
-
正态分布很有意思 不知道我讲过没 这是它的图像
-
人们可能会谈到中心极限定理
-
中心极限定理是我们宇宙中很重要很奇妙的一个现象
-
中心极限定理是我们宇宙中很重要很奇妙的一个现象
-
这里我不会证明它 不过
-
之前的视频中我讲抛硬币时也讲过
-
如果抛的足够多 每一次试验相互独立
-
其随机变量等于1如果为正 0如果为反
-
其随机变量等于1如果为正 0如果为反
-
那么所有这些随机变量的和
-
在抛掷次数趋于无穷时 趋于正态分布
-
有趣的是 每一次抛硬币的试验并非正态分布
-
有趣的是 每一次抛硬币的试验并非正态分布
-
但结果却得到正态分布
-
所以 讨论分子相互作用时
-
每次化合物x同化合物y相互作用时
-
结果并不需要是正态分布
-
但很多相互作用和在一起
-
最后就得到了正态分布的结果
-
因此正态分布非常重要
-
它在大自然中无处不在
-
如果你取一些很复杂的数据点之和
-
独立随机试验几乎有无穷次
-
此时正态分布就是很好的假设
-
我会另外录制视频讲解正态分布用在什么时候比较好
-
我会另外录制视频讲解正态分布用在什么时候比较好
-
这里 为了更好地消化它 我重写一次
-
这是维基的写法
-
也可以写成σ乘以根号2π分之一 乘以e的这么多次方
-
次方数也就是-(x-均值)2/(2σ2)
-
次方数也就是-(x-均值)2/(2σ2)
-
σ是标准差 也就是方差的平方根
-
这里有很多希腊字母 不过别着急
-
这里有很多希腊字母 不过别着急
-
p(x)表示正态分布概率密度函数的高
-
可以认为这是人们身高的分布
-
假设这是5'9 不是0
-
假设你想知道大概比平均值高5英寸的概率
-
假设你想知道大概比平均值高5英寸的概率
-
假设你想知道大概比平均值高5英寸的概率
-
此时可以用5替换x
-
假设已知标准差 以及标准差平方的方差
-
假设已知标准差 以及标准差平方的方差
-
知道均值 代入x就能得到函数的高
-
知道均值 代入x就能得到函数的高
-
然后给一个范围 就能算出身高比平均高5英寸左右的概率
-
然后给一个范围 就能算出身高比平均高5英寸左右的概率
-
比如范围可以是比平均值高4.9英寸到5.1英寸之间
-
比如范围可以是比平均值高4.9英寸到5.1英寸之间
-
需要一个范围是因为 不可能有1个原子不差的5'9
-
需要一个范围是因为 不可能有1个原子不差的5'9
-
英寸的定义本身都不可能这么准确
-
这是概率密度函数的用法
-
正态分布在自然界中应用广泛
-
推论统计中 你们需要尽最大可能熟悉这个公式
-
推论统计中 你们需要尽最大可能熟悉这个公式
-
我稍微倒弄一下这个公式 好让你们有更好的理解
-
我稍微倒弄一下这个公式 好让你们有更好的理解
-
我帮助你们记忆下公式
-
这个标准差σ可以放到根号内
-
这个标准差σ可以放到根号内
-
也就是1/根号下(2πσ2)
-
没有人这么写过 不过这很容易理解
-
没有人这么写过 不过这很容易理解
-
σ2就是方差 计算标准差之前总要先计算方差
-
σ2就是方差 计算标准差之前总要先计算方差
-
而上面这里e的次方数可以写成
-
-1/2?[(x-μ)/σ]2 因为分子分母都有个平方
-
-1/2?[(x-μ)/σ]2 因为分子分母都有个平方
-
这更能说明情况 平方内这是什么
-
x-μ是我们要求的值同均值之间的距离 也就是这段距离
-
x-μ是我们要求的值同均值之间的距离 也就是这段距离
-
而标准差是这段距离
-
因此(x-μ)/σ表示离均值有多少个标准差远
-
它被称为标准z分数 我会另外录视频讲的
-
然后平方 然后乘以-1/2 我再整理下
-
一般而言 e的-1/2a次方=e的a次方的-1/2次方
-
一般而言 e的-1/2a次方=e的a次方的-1/2次方
-
指数相乘相当于一个指数次方然后另一个指数次方
-
指数相乘相当于一个指数次方然后另一个指数次方
-
同理 这里也可以进行这个操作 它等于
-
1/根号(2πσ2) 其中σ2是方差
-
我这里倒弄这个公式
-
是为了让你们看到各种形式 加强理解
-
如果你对为何如此有了更深的见地 可以发邮件告诉我
-
非常酷的是 公式里突然就出现了π和e
-
非常酷的是 公式里突然就出现了π和e
-
很多现象都有π和e
-
比如e的iπ次方=-1
-
这说明了宇宙的某种自然规律
-
回到正题 这个可以写成e的[(x-μ)/σ]2次方的-1/2次方
-
回到正题 这个可以写成e的[(x-μ)/σ]2次方的-1/2次方
-
某式的-1/2次方也就是此式的平方根分之一
-
某式的-1/2次方也就是此式的平方根分之一
-
因此原式可以重写为 1除以根号下
-
2π?方差?e的z分数2次方
-
其中z是这个 表示离均值有多少标准差远 z分数的平方
-
其中z是这个 表示离均值有多少标准差远 z分数的平方
-
式子变得很清楚了
-
2π?方差?e的某次方
-
次方数就是离均值的标准差数目的平方
-
然后开方 然后取倒数 就得到正态分布
-
以上我算倒弄完了 结果很简洁 也很有趣
-
以上我算倒弄完了 结果很简洁 也很有趣
-
以后不管看到哪种形式 你都应该认出它是正态分布
-
以后不管看到哪种形式 你都应该认出它是正态分布
-
以后不管看到哪种形式 你都应该认出它是正态分布
-
倒弄完公式 我再来倒弄下正态分布曲线
-
电子表格里我绘制了正态分布曲线 蓝绿色的设定值是可以改的
-
电子表格里我绘制了正态分布曲线 蓝绿色的设定值是可以改的
-
这里的图像 均值是0 标准差是4
-
这里方差是标准差的平方 放到这里只是作为提示
-
这里方差是标准差的平方 放到这里只是作为提示
-
改变均值会如何
-
我把它从0改到5看看
-
注意到 图像向右移动了5个单位
-
图像中央从轴线中央向右移了
-
如果改成-5呢
-
整个钟形曲线从中央往左移了5个单位
-
改变标准差呢
-
方差是同均值距离平方的平均值 而标准差是其平方根
-
方差是同均值距离平方的平均值 而标准差是其平方根
-
所以 标准差可以说是同均值的某种平均距离
-
所以 标准差越小 越多点将靠近均值
-
所以 标准差越小 越多点将靠近均值
-
同时图像也会变得越来越窄
-
比如标准差改成2 看到了吧
-
此时图像会更靠近均值
-
如果把标准差改为10 就会得到
-
一个非常扁的钟形曲线 两侧无尽延伸
-
这是关键 二项分布是有限的
-
而正态分布在整个实数轴上都有定义
-
而正态分布在整个实数轴上都有定义
-
此时 在均值为-5 标准差为10的情况下
-
得到1000的概率是非常低的 但还是可能
-
比如我身体内所有原子的排列
-
正好让我从座位上跌倒
-
非常不可能 也许宇宙的进程中都不会发生 但还是有微弱可能
-
非常不可能 也许宇宙的进程中都不会发生 但还是有微弱可能
-
这就可以由正态分布来描述
-
正态分布告诉我们 这个的概率非常非常微弱
-
最开始的时候我讲了 对于正态分布不能只看一点的概率
-
最开始的时候我讲了 对于正态分布不能只看一点的概率
-
换回画笔工具
-
需要看的是两点间曲线下方的面积
-
假设这是我们的分布
-
如果我想求0的概率
-
这是不可能的
-
因为正好为0的概率 在曲线下方没有面积
-
因为正好为0的概率 在曲线下方没有面积
-
直线没有面积 必须有一个范围
-
比如在0±0.005的范围内求概率 可以输入到这里
-
比如在0±0.005的范围内求概率 可以输入到这里
-
结果四舍五入后 几乎是0
-
再算一下-1到1范围内的情况
-
结果是7% 等会我告诉你们这是怎么来的
-
换画图工具 我刚做了什么
-
-1到1之间 我讲一下
-
Excel做了些什么 从-1 大概在这里 到1
-
这里 我们计算了曲线下的面积
-
或者说 从-1到1的概率密度函数的积分
-
或者说 从-1到1的概率密度函数的积分
-
这里标准差是10 而均值是-5
-
我写进去 这里计算的函数
-
这是一个正态分布
-
标准差是10 根号下2π 然后是e
-
次方数是-1/2乘以 x减均值…
-
均值是-5 所以也就是x+5 除以
-
标准差平方也就是方差 即100 平方 dx
-
这就是7% 或者说0.07的由来 它表示这里的面积
-
这就是7% 或者说0.07的由来 它表示这里的面积
-
很不幸的是 这个积分并不容易进行解析计算
-
很不幸的是 这个积分并不容易进行解析计算
-
所以一般我们用数值方法
-
这里我引入一个新的函数定义 叫作累积分布函数(CDF)
-
这里我引入一个新的函数定义 叫作累积分布函数(CDF)
-
这是求面积的有用工具
-
累积分布函数是x的函数
-
累积分布函数是x的函数
-
它是概率密度曲线的积分
-
假设x在这里
-
它表示曲线下一直到x的面积
-
或者说 结果值落在小于x范围内的概率
-
或者说 结果值落在小于x范围内的概率
-
这是概率密度函数从-∞到x的积分
-
Excel有正态分布函数normdist
-
参数是x值 然后是均值 标准差
-
后面注明是否要累积分布
-
求累积分布填TRUE 求概率密度高度填FALSE
-
如果你要画这个概率密度曲线 显然应该填入FALSE
-
如果想绘制这个累积分布 也就是下面这个
-
如果想绘制这个累积分布 也就是下面这个
-
往下面来一些 换成画笔工具
-
累积分布函数在这里
-
此时就应该对Excel填入TRUE
-
这就是原正态分布的累积分布函数
-
这就是原正态分布的累积分布函数
-
比如说
-
问值小于20的概率是多少
-
问值小于20的概率是多少
-
这也就是累积分布CDF(20)的值
-
这也就是累积分布CDF(20)的值
-
看这里 小于20的概率非常高 接近100%
-
看这里 小于20的概率非常高 接近100%
-
这说得通 因为概率密度曲线下小于20的面积很大
-
再比如求小于-5的概率
-
-5是均值 所以结果一半会高于它 一半会低于它
-
对应的累积分布值CDF(-5)则正好是50%
-
表示小于-5的概率正好是50%
-
如果要求-1到1之间的概率
-
如果要求-1到1之间的概率
-
我可以先求小于-1的概率值CDF(-1)
-
也就是这个面积
-
然后求出小于1的这部分的面积CDF(1)
-
然后求出小于1的这部分的面积CDF(1)
-
然后求出小于1的这部分的面积CDF(1)
-
然后用紫红面积CDF(1)-黄色面积CDF(-1) 得到-1到1的概率
-
电子表格中也正是这样做的 往下挪动一下
-
录制视频似乎有点拖速度
-
这里计算了累积分布函数在1处的值CDF(1)
-
以及累积分布函数在-1处的值CDF(-1)
-
两者之差CDF(1)-CDF(-1)就是-1到1之间的概率
-
两者之差CDF(1)-CDF(-1)就是-1到1之间的概率
-
两者之差CDF(1)-CDF(-1)就是-1到1之间的概率
-
你也可以考虑面积
-
我强烈建议你们好好倒弄一下这个Excel表格中的公式
-
这个面积 -1到1
-
中线在这里 这是均值
-
而这两条线表示离均值一个标准差远
-
而这两条线表示离均值一个标准差远
-
有些人想知道均值左右各一个标准差之间的概率 这很简单
-
有些人想知道均值左右各一个标准差之间的概率 这很简单
-
用这个来计算就行了
-
用这个来计算就行了
-
均值是-5
-
均值往左一个标准差就是-15
-
均值往右一个标准差则是10+(-5) 即5
-
也就是-15到5之间 得到68.3%
-
对于正态分布 均值左右一个标准差内的概率总是68.3%
-
对于正态分布 均值左右一个标准差内的概率总是68.3%
-
对于正态分布 均值左右一个标准差内的概率总是68.3%
-
这个数字表示概率密度曲线下方的这个面积
-
这个数字表示概率密度曲线下方的这个面积
-
计算方法是通过累积分布函数
-
往下一些 每次移动都要先取消画笔
-
首先计算+5处的值 这里
-
这是均值右侧一个标准差处 这里
-
大概是80%多 也许接近90%
-
然后计算均值左侧一个标准差处-15的情况
-
这大概是15%-18%的样子
-
总之 这两个值相减后 就能得到-15到5之间的概率
-
总之 这两个值相减后 就能得到-15到5之间的概率
-
因为这个值CDF(5)表示小于5的概率…
-
因为这个值CDF(5)表示小于5的概率…
-
换来换去真麻烦
-
CDF(5)也就是概率密度下这一部分的面积
-
CDF(5)也就是概率密度下这一部分的面积
-
表示小于5的概率
-
然后计算左侧的CDF(-15) 也就这边这一段
-
然后计算左侧的CDF(-15) 也就这边这一段
-
然后用这一大段减去这一小段 就能得到-15到5之间的概率
-
然后用这一大段减去这一小段 就能得到-15到5之间的概率
-
为了让你们有更好的理解
-
我准备再倒弄一下这个表格
-
看看均值从-5改成5会是什么情况
-
此时曲线中心向右侧移动到5
-
此时曲线中心向右侧移动到5
-
我还可以调小标准差 曲线会收紧 比如取6
-
我还可以调小标准差 曲线会收紧 比如取6
-
曲线比原来更紧 改成2则会更紧
-
建议你们多倒弄一下表格和公式 上一节的表格也是
-
建议你们多倒弄一下表格和公式 上一节的表格也是
-
以得到正态分布分布及其同二项分布关系的更深理解
-
以得到正态分布分布及其同二项分布关系的更深理解
-
这个图中
-
其实是描出-20到20的所有点 每点之间增量为1
-
其实是描出-20到20的所有点 每点之间增量为1
-
这其实不是一个连续曲线 而是描点后进行连线得到的
-
这其实不是一个连续曲线 而是描点后进行连线得到的
-
然后我计算了每个点同均值之间的距离
-
比如0-5 这是距离
-
这里的-25也就是说 -20比均值少25
-
然后除以标准差得到标准z分数
-
这表示-20离均值有多少个标准差远
-
这里比均值小12.5个标准差
-
然后代入公式求出概率密度函数的高
-
然后代入公式求出概率密度函数的高
-
-20的高很低
-
-2的高稍好一些 大概在这什么地方
-
-2的高稍好一些 大概在这什么地方
-
也就是这里的值
-
然后通过累积分布函数计算出小于此值的概率
-
然后通过累积分布函数计算出小于此值的概率
-
也就是不到这一点下曲线的面积 很小
-
也就是不到这一点下曲线的面积 很小
-
但不是0 看起来是0 因为经过了四舍五入
-
其实应该是0.0001什么的 只是非常小
-
甚至取-1000也是有概率的
-
另外有一点需要注意
-
即概率密度曲线下所有值的积分等于1
-
落在所有可能性内的概率是1
-
这里用很小的数和很大的数 可以直观看一下
-
这里用很小的数和很大的数 可以直观看一下
-
好了 几乎是100%
-
其实只有-∞到+∞才是真正的100%
-
这里是四舍五入得到100% 也许是99.99999%什么的
-
计算这个 也就是取这两个值分别的累积分布函数值 然后相减
-
计算这个 也就是取这两个值分别的累积分布函数值 然后相减
-
计算这个 也就是取这两个值分别的累积分布函数值 然后相减
-
这就得到接近100%
-
但愿这一节能让你们对正态分布有更好的理解
-
我强烈建议你们自己倒弄一下电子表格
-
我强烈建议你们自己倒弄一下电子表格
-
以后 我们还会将这类表格用到其它模型中
-
以后 我们还会将这类表格用到其它模型中
-
比如金融模型中 收入可能是某期望值周围的正态分布
-
比如金融模型中 收入可能是某期望值周围的正态分布
-
比如金融模型中 收入可能是某期望值周围的正态分布
-
这样的例子不胜枚举
-
好了 下次课见