假设你是一个交通工程师 想知道任意时刻通过街上某一点的车辆数 想知道任意时刻通过街上某一点的车辆数 想确定某一小时内100辆车或5辆车通过的概率 想确定某一小时内100辆车或5辆车通过的概率 最好的方式是先定义一个相关的随机变量 最好的方式是先定义一个相关的随机变量 假设它表示一个小时内通过车辆数 假设它表示一个小时内通过车辆数 然后求出该随机变量的概率分布 然后求出该随机变量的概率分布 这就能很容易求出 一小时内100辆车 或者其它数量的车经过的概率了 在具体讲泊松分布之前 有两个假设要讲一下 在具体讲泊松分布之前 有两个假设要讲一下 在具体讲泊松分布之前 有两个假设要讲一下 也就是 街上此点任意时刻的情况没有差异 街上此点任意时刻的情况没有差异 这显然不是真实情况 高峰时间肯定比一般时间车多 这显然不是真实情况 高峰时间肯定比一般时间车多 这显然不是真实情况 高峰时间肯定比一般时间车多 也许不用一小时 用一天更现实一点 也许不用一小时 用一天更现实一点 算了 不这么说 这里假设任意时刻 甚至每分每秒 在车流量方面都是没有差异的 甚至每分每秒 在车流量方面都是没有差异的 甚至每分每秒 在车流量方面都是没有差异的 这是一种简化假设 虽然不真实 但不妨就认为是这样 另一个假设是 一段时间的车流量对另一段时间没有影响 一段时间的车流量对另一段时间没有影响 就算一段时间的车流量少 不会影响到下一段时间的车流量 也就是说具有独立性 这样 我们就能用所学知识 对这种分布进行建模了 对于任何分布 我们可以首先估计均值 对于任何分布 我们可以首先估计均值 我们可以坐在路边 观察几个小时的车流量 然后平均起来 这也许就是总体均值的很好估计值了 这也许就是总体均值的很好估计值了 这是一个随机变量 所以也就是期望值 假设期望值的最好估计值是λ 假设期望值的最好估计值是λ 它可能是9辆车/小时 或者9.3辆车/小时 你可以在守候数百个小时 然后计数 取均值 你可以在守候数百个小时 然后计数 取均值 得到均值是9.3辆车/小时 这也许是很好的估计值 得到均值是9.3辆车/小时 这也许是很好的估计值 而我们已经知道二项分布 二项分布的期望值我们已经知道 它等于试验的次数n… 这是随机变量的基本组成 之前的视频中 我们用抛硬币的例子 之前的视频中 我们用抛硬币的例子 n也就是抛硬币的次数 乘以每一次成功的概率p 这是二项式分布 也许交通情况也可以类似建模 这是二项式分布 也许交通情况也可以类似建模 这是一小时内经过的车辆数 也许我们可以说 λ辆车/小时等于… 假设试验是每分钟内是否有车通过 就像投硬币 假设试验是每分钟内是否有车通过 就像投硬币 那么一小时有60分钟 总共60次试验 然后每一次成功的概率 由于这是二项分布 所以是λ/60辆车/分钟 前面这是n 后面是概率p 前面这是n 后面是概率p 前面这是n 后面是概率p 这也许并非很糟糕的近似 由于是二项分布 随机变量得到某个k值的概率 比如一小时内经过3辆车的概率 这也就是n… 也就是60 n选k 比如刚讲的3辆车经过 乘以成功概率 即每分钟内有车经过的概率 也就是λ/60 即每分钟内有车经过的概率 也就是λ/60 该概率的k次方 乘以不成功 或者说无车经过的概率 的n-k次方 k次成功对应60-k次失败 或者说无车经过 k次成功对应60-k次失败 或者说无车经过 分成60个区间 然后看成二项分布是不错的近似 分成60个区间 然后看成二项分布是不错的近似 结果可能很合理 不过有个核心问题 结果可能很合理 不过有个核心问题 也就是 如果一分钟内不止一辆车通过怎么办 也就是 如果一分钟内不止一辆车通过怎么办 也就是 如果一分钟内不止一辆车通过怎么办 之前我们把有一辆车通过叫成功 之前我们把有一辆车通过叫成功 但没有考虑到一分钟内同时5车通过这样的情况 但没有考虑到一分钟内同时5车通过这样的情况 解决办法是 分更多的区间 解决办法是 分更多的区间 如果分钟不行 我可以分成秒 这样区间就不是60个 而是3600个 这样区间就不是60个 而是3600个 k次成功的概率 成功也就是某一秒有车通过 这等于3600选k乘以某一秒有车通过的几率… 这等于3600选k乘以某一秒有车通过的几率… 也就是一小时内车通过的期望数量λ 除以一小时内的秒数 然后有k次成功 然后还有失败 失败概率是这么多 总共是3600-k次失败 这是更好的近似 这是更好的近似 但也有可能一秒钟开过2辆车 你可能会说 继续进行区间分割不就行了 你可能会说 继续进行区间分割不就行了 让这个数字越来越大 这种直观感觉很对 让这个数字越来越大 这种直观感觉很对 一直下去就能得到泊松分布 一般而言 书本只会给出泊松分布的公式让你套 一般而言 书本只会给出泊松分布的公式让你套 一般而言 书本只会给出泊松分布的公式让你套 而我这里告诉你们 它其实就是来自二项分布 而我这里告诉你们 它其实就是来自二项分布 而二项分布就是某种抛硬币 这是一切的源头 而二项分布就是某种抛硬币 这是一切的源头 在我证明… 先换个颜色 在我证明… 先换个颜色 在我证明区间个数趋近于无穷大时 在我证明区间个数趋近于无穷大时 这就是泊松分布之前 首先来复习一下手头的数学工具 首先这个你们可能比较熟悉 也就是 首先这个你们可能比较熟悉 也就是 x趋于无穷大时 (1+a/x)的x次方极限是e的a次方 x趋于无穷大时 (1+a/x)的x次方极限是e的a次方 为了证明这一点 我做一点简单换元 为了证明这一点 我做一点简单换元 令1/n=a/x 于是x=na x?1=na 因此x趋于无穷大时 n趋于什么 因此x趋于无穷大时 n趋于什么 n=x/a 所以n也趋于无穷 因此换元后 这等价于 求极限 n趋于∞ 因此换元后 这等价于 求极限 n趋于∞ 1+… a/x替换为1/n 而x则替换为na 于是这等价于 n趋于∞时 (1+1/n)的n次方的a次方的极限 a中不含n 所以也就是这个极限的a次方 a中不含n 所以也就是这个极限的a次方 也就是n趋于∞时(1+1/n)?的极限的a次方 也就是n趋于∞时(1+1/n)?的极限的a次方 (1+1/n)?的极限就是e的定义 讲复利时我讲过 (1+1/n)?的极限就是e的定义 讲复利时我讲过 你可以用计算器试试很大的n值 看是否得到e 你可以用计算器试试很大的n值 看是否得到e 里面这个等于e 然后取a次幂 也就是e的a次方 因此这个极限等于e的a次方 因此这个极限等于e的a次方 另外一个我要讲的工具也许要在下一节才能证明 另外一个我要讲的工具也许要在下一节才能证明 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 我们做过很多次 但没有写得这么抽象过 我们做过很多次 但没有写得这么抽象过 这里正好是k项 这里正好是k项 1 2 3一直到第k项 1 2 3一直到第k项 这对泊松分布的推导很重要 这对泊松分布的推导很重要 我举个实际例子 比如7!/(7-2)! 这等于7?6?5?4?3?2?1 除以5的阶乘 即除以5?4?3?2?1 约去后只剩下7?6 首先是7 最后项是7-2+1 即6 此时k=2 正好2项 下一节再来推导泊松分布 再见 下一节再来推导泊松分布 再见 下一节再来推导泊松分布 再见 本字幕由网易公开课提供,更多课程请到http//open.163.com 网易公开课官方微博 http://t.163.com/163open oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org