WEBVTT 00:00:00.080 --> 00:00:03.050 假设你是一个交通工程师 00:00:03.050 --> 00:00:06.080 想知道任意时刻通过街上某一点的车辆数 00:00:06.080 --> 00:00:08.030 想知道任意时刻通过街上某一点的车辆数 00:00:08.030 --> 00:00:10.020 想确定某一小时内100辆车或5辆车通过的概率 00:00:10.020 --> 00:00:14.000 想确定某一小时内100辆车或5辆车通过的概率 00:00:14.000 --> 00:00:15.080 最好的方式是先定义一个相关的随机变量 00:00:15.080 --> 00:00:20.050 最好的方式是先定义一个相关的随机变量 00:00:20.050 --> 00:00:27.030 假设它表示一个小时内通过车辆数 00:00:27.030 --> 00:00:30.040 假设它表示一个小时内通过车辆数 00:00:31.070 --> 00:00:34.050 然后求出该随机变量的概率分布 00:00:34.050 --> 00:00:37.000 然后求出该随机变量的概率分布 00:00:37.000 --> 00:00:39.040 这就能很容易求出 00:00:39.040 --> 00:00:41.070 一小时内100辆车 00:00:41.070 --> 00:00:45.080 或者其它数量的车经过的概率了 00:00:45.080 --> 00:00:48.020 在具体讲泊松分布之前 有两个假设要讲一下 00:00:48.020 --> 00:00:50.050 在具体讲泊松分布之前 有两个假设要讲一下 00:00:50.050 --> 00:00:52.020 在具体讲泊松分布之前 有两个假设要讲一下 00:00:52.020 --> 00:00:54.060 也就是 00:00:54.060 --> 00:00:58.070 街上此点任意时刻的情况没有差异 00:00:58.070 --> 00:00:59.060 街上此点任意时刻的情况没有差异 00:00:59.060 --> 00:01:01.030 这显然不是真实情况 高峰时间肯定比一般时间车多 00:01:01.030 --> 00:01:03.070 这显然不是真实情况 高峰时间肯定比一般时间车多 00:01:03.070 --> 00:01:06.060 这显然不是真实情况 高峰时间肯定比一般时间车多 00:01:06.060 --> 00:01:08.060 也许不用一小时 用一天更现实一点 00:01:08.060 --> 00:01:12.070 也许不用一小时 用一天更现实一点 00:01:12.070 --> 00:01:14.010 算了 不这么说 00:01:14.010 --> 00:01:17.070 这里假设任意时刻 00:01:17.070 --> 00:01:19.060 甚至每分每秒 在车流量方面都是没有差异的 00:01:19.060 --> 00:01:22.090 甚至每分每秒 在车流量方面都是没有差异的 00:01:22.090 --> 00:01:25.080 甚至每分每秒 在车流量方面都是没有差异的 00:01:25.080 --> 00:01:27.480 这是一种简化假设 00:01:27.480 --> 00:01:32.020 虽然不真实 但不妨就认为是这样 00:01:32.020 --> 00:01:34.010 另一个假设是 00:01:34.010 --> 00:01:36.060 一段时间的车流量对另一段时间没有影响 00:01:36.060 --> 00:01:37.080 一段时间的车流量对另一段时间没有影响 00:01:37.080 --> 00:01:40.060 就算一段时间的车流量少 00:01:40.060 --> 00:01:44.080 不会影响到下一段时间的车流量 00:01:44.080 --> 00:01:47.030 也就是说具有独立性 00:01:47.030 --> 00:01:50.060 这样 我们就能用所学知识 00:01:50.060 --> 00:01:53.040 对这种分布进行建模了 00:01:53.040 --> 00:01:55.070 对于任何分布 我们可以首先估计均值 00:01:55.070 --> 00:01:59.000 对于任何分布 我们可以首先估计均值 00:01:59.000 --> 00:02:03.000 我们可以坐在路边 观察几个小时的车流量 00:02:03.000 --> 00:02:05.010 然后平均起来 00:02:05.010 --> 00:02:08.080 这也许就是总体均值的很好估计值了 00:02:08.080 --> 00:02:09.650 这也许就是总体均值的很好估计值了 00:02:09.650 --> 00:02:13.000 这是一个随机变量 所以也就是期望值 00:02:13.000 --> 00:02:16.060 假设期望值的最好估计值是λ 00:02:16.060 --> 00:02:24.080 假设期望值的最好估计值是λ 00:02:24.080 --> 00:02:27.030 它可能是9辆车/小时 00:02:27.030 --> 00:02:30.010 或者9.3辆车/小时 00:02:30.010 --> 00:02:32.060 你可以在守候数百个小时 然后计数 取均值 00:02:32.060 --> 00:02:34.050 你可以在守候数百个小时 然后计数 取均值 00:02:34.050 --> 00:02:37.020 得到均值是9.3辆车/小时 这也许是很好的估计值 00:02:37.020 --> 00:02:40.000 得到均值是9.3辆车/小时 这也许是很好的估计值 00:02:40.000 --> 00:02:45.050 而我们已经知道二项分布 00:02:45.050 --> 00:02:50.060 二项分布的期望值我们已经知道 00:02:50.060 --> 00:02:55.020 它等于试验的次数n… 00:02:55.020 --> 00:02:57.040 这是随机变量的基本组成 00:02:57.040 --> 00:02:59.040 之前的视频中 我们用抛硬币的例子 00:02:59.040 --> 00:03:00.050 之前的视频中 我们用抛硬币的例子 00:03:00.050 --> 00:03:03.000 n也就是抛硬币的次数 00:03:03.000 --> 00:03:07.020 乘以每一次成功的概率p 00:03:07.020 --> 00:03:09.000 这是二项式分布 也许交通情况也可以类似建模 00:03:09.000 --> 00:03:12.070 这是二项式分布 也许交通情况也可以类似建模 00:03:12.070 --> 00:03:15.040 这是一小时内经过的车辆数 00:03:15.040 --> 00:03:24.030 也许我们可以说 λ辆车/小时等于… 00:03:26.080 --> 00:03:29.080 假设试验是每分钟内是否有车通过 就像投硬币 00:03:29.080 --> 00:03:31.070 假设试验是每分钟内是否有车通过 就像投硬币 00:03:31.070 --> 00:03:40.080 那么一小时有60分钟 总共60次试验 00:03:40.080 --> 00:03:43.010 然后每一次成功的概率 00:03:43.010 --> 00:03:46.090 由于这是二项分布 00:03:46.090 --> 00:03:54.040 所以是λ/60辆车/分钟 00:03:54.040 --> 00:03:55.060 前面这是n 后面是概率p 00:03:55.060 --> 00:03:58.060 前面这是n 后面是概率p 00:03:58.060 --> 00:04:00.020 前面这是n 后面是概率p 00:04:00.020 --> 00:04:04.000 这也许并非很糟糕的近似 00:04:04.000 --> 00:04:07.380 由于是二项分布 00:04:07.380 --> 00:04:12.090 随机变量得到某个k值的概率 00:04:12.090 --> 00:04:16.010 比如一小时内经过3辆车的概率 00:04:16.010 --> 00:04:21.080 这也就是n… 也就是60 00:04:21.080 --> 00:04:27.010 n选k 比如刚讲的3辆车经过 乘以成功概率 00:04:27.010 --> 00:04:29.050 即每分钟内有车经过的概率 也就是λ/60 00:04:29.050 --> 00:04:35.090 即每分钟内有车经过的概率 也就是λ/60 00:04:35.090 --> 00:04:41.060 该概率的k次方 乘以不成功 00:04:41.060 --> 00:04:46.050 或者说无车经过的概率 的n-k次方 00:04:46.050 --> 00:04:50.020 k次成功对应60-k次失败 或者说无车经过 00:04:50.020 --> 00:04:52.090 k次成功对应60-k次失败 或者说无车经过 00:04:52.090 --> 00:04:55.020 分成60个区间 然后看成二项分布是不错的近似 00:04:55.020 --> 00:04:58.050 分成60个区间 然后看成二项分布是不错的近似 00:04:58.050 --> 00:05:00.030 结果可能很合理 不过有个核心问题 00:05:00.030 --> 00:05:02.060 结果可能很合理 不过有个核心问题 00:05:02.060 --> 00:05:06.050 也就是 如果一分钟内不止一辆车通过怎么办 00:05:06.050 --> 00:05:09.090 也就是 如果一分钟内不止一辆车通过怎么办 00:05:09.090 --> 00:05:11.060 也就是 如果一分钟内不止一辆车通过怎么办 00:05:11.060 --> 00:05:14.020 之前我们把有一辆车通过叫成功 00:05:14.020 --> 00:05:15.030 之前我们把有一辆车通过叫成功 00:05:15.030 --> 00:05:18.070 但没有考虑到一分钟内同时5车通过这样的情况 00:05:18.070 --> 00:05:21.010 但没有考虑到一分钟内同时5车通过这样的情况 00:05:21.010 --> 00:05:23.030 解决办法是 分更多的区间 00:05:23.030 --> 00:05:26.000 解决办法是 分更多的区间 00:05:26.000 --> 00:05:31.000 如果分钟不行 我可以分成秒 00:05:31.000 --> 00:05:36.020 这样区间就不是60个 而是3600个 00:05:36.020 --> 00:05:39.080 这样区间就不是60个 而是3600个 00:05:39.080 --> 00:05:43.010 k次成功的概率 00:05:43.010 --> 00:05:48.060 成功也就是某一秒有车通过 00:05:48.060 --> 00:05:52.010 这等于3600选k乘以某一秒有车通过的几率… 00:05:52.010 --> 00:05:54.020 这等于3600选k乘以某一秒有车通过的几率… 00:05:54.020 --> 00:05:57.090 也就是一小时内车通过的期望数量λ 00:05:57.090 --> 00:06:02.090 除以一小时内的秒数 然后有k次成功 00:06:02.090 --> 00:06:06.020 然后还有失败 失败概率是这么多 00:06:06.020 --> 00:06:12.000 总共是3600-k次失败 00:06:12.000 --> 00:06:13.090 这是更好的近似 00:06:13.090 --> 00:06:16.070 这是更好的近似 00:06:16.070 --> 00:06:19.090 但也有可能一秒钟开过2辆车 00:06:19.090 --> 00:06:21.090 你可能会说 继续进行区间分割不就行了 00:06:21.090 --> 00:06:23.060 你可能会说 继续进行区间分割不就行了 00:06:23.060 --> 00:06:27.030 让这个数字越来越大 这种直观感觉很对 00:06:27.030 --> 00:06:28.090 让这个数字越来越大 这种直观感觉很对 00:06:28.090 --> 00:06:33.080 一直下去就能得到泊松分布 00:06:33.080 --> 00:06:35.060 一般而言 书本只会给出泊松分布的公式让你套 00:06:35.060 --> 00:06:38.060 一般而言 书本只会给出泊松分布的公式让你套 00:06:38.060 --> 00:06:40.040 一般而言 书本只会给出泊松分布的公式让你套 00:06:40.040 --> 00:06:43.020 而我这里告诉你们 它其实就是来自二项分布 00:06:43.020 --> 00:06:45.070 而我这里告诉你们 它其实就是来自二项分布 00:06:45.070 --> 00:06:48.050 而二项分布就是某种抛硬币 这是一切的源头 00:06:48.050 --> 00:06:50.050 而二项分布就是某种抛硬币 这是一切的源头 00:06:50.050 --> 00:06:53.070 在我证明… 先换个颜色 00:06:53.070 --> 00:06:55.060 在我证明… 先换个颜色 00:06:55.060 --> 00:06:58.040 在我证明区间个数趋近于无穷大时 00:06:58.040 --> 00:07:01.020 在我证明区间个数趋近于无穷大时 00:07:01.020 --> 00:07:04.550 这就是泊松分布之前 00:07:04.550 --> 00:07:09.010 首先来复习一下手头的数学工具 00:07:09.010 --> 00:07:12.070 首先这个你们可能比较熟悉 也就是 00:07:12.070 --> 00:07:15.080 首先这个你们可能比较熟悉 也就是 00:07:15.080 --> 00:07:25.060 x趋于无穷大时 (1+a/x)的x次方极限是e的a次方 00:07:25.060 --> 00:07:31.000 x趋于无穷大时 (1+a/x)的x次方极限是e的a次方 00:07:31.000 --> 00:07:38.000 为了证明这一点 我做一点简单换元 00:07:38.000 --> 00:07:39.020 为了证明这一点 我做一点简单换元 00:07:39.020 --> 00:07:47.080 令1/n=a/x 00:07:47.080 --> 00:07:52.080 于是x=na 00:07:52.080 --> 00:07:55.020 x?1=na 00:07:55.020 --> 00:08:02.000 因此x趋于无穷大时 n趋于什么 00:08:02.000 --> 00:08:04.090 因此x趋于无穷大时 n趋于什么 00:08:04.090 --> 00:08:08.070 n=x/a 所以n也趋于无穷 00:08:08.070 --> 00:08:10.080 因此换元后 这等价于 求极限 n趋于∞ 00:08:10.080 --> 00:08:16.040 因此换元后 这等价于 求极限 n趋于∞ 00:08:16.040 --> 00:08:21.030 1+… a/x替换为1/n 00:08:21.030 --> 00:08:26.070 而x则替换为na 00:08:26.070 --> 00:08:30.050 于是这等价于 n趋于∞时 00:08:30.050 --> 00:08:39.030 (1+1/n)的n次方的a次方的极限 00:08:39.030 --> 00:08:41.070 a中不含n 所以也就是这个极限的a次方 00:08:41.070 --> 00:08:43.040 a中不含n 所以也就是这个极限的a次方 00:08:43.040 --> 00:08:47.060 也就是n趋于∞时(1+1/n)?的极限的a次方 00:08:47.060 --> 00:08:53.070 也就是n趋于∞时(1+1/n)?的极限的a次方 00:08:53.070 --> 00:08:58.000 (1+1/n)?的极限就是e的定义 讲复利时我讲过 00:08:58.000 --> 00:09:00.080 (1+1/n)?的极限就是e的定义 讲复利时我讲过 00:09:00.080 --> 00:09:02.540 你可以用计算器试试很大的n值 看是否得到e 00:09:02.540 --> 00:09:07.020 你可以用计算器试试很大的n值 看是否得到e 00:09:07.020 --> 00:09:12.000 里面这个等于e 然后取a次幂 00:09:12.000 --> 00:09:14.000 也就是e的a次方 00:09:14.000 --> 00:09:16.020 因此这个极限等于e的a次方 00:09:16.020 --> 00:09:17.080 因此这个极限等于e的a次方 00:09:17.080 --> 00:09:19.080 另外一个我要讲的工具也许要在下一节才能证明 00:09:19.080 --> 00:09:22.030 另外一个我要讲的工具也许要在下一节才能证明 00:09:22.030 --> 00:09:32.090 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 00:09:32.090 --> 00:09:42.080 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 00:09:42.080 --> 00:09:50.000 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 00:09:50.000 --> 00:09:51.080 我们做过很多次 但没有写得这么抽象过 00:09:51.080 --> 00:09:53.000 我们做过很多次 但没有写得这么抽象过 00:09:53.000 --> 00:09:55.050 这里正好是k项 00:09:55.050 --> 00:09:57.030 这里正好是k项 00:09:57.030 --> 00:10:01.070 1 2 3一直到第k项 00:10:01.070 --> 00:10:04.030 1 2 3一直到第k项 00:10:04.030 --> 00:10:07.020 这对泊松分布的推导很重要 00:10:07.020 --> 00:10:09.010 这对泊松分布的推导很重要 00:10:09.010 --> 00:10:16.480 我举个实际例子 比如7!/(7-2)! 00:10:16.480 --> 00:10:24.000 这等于7?6?5?4?3?2?1 00:10:24.000 --> 00:10:28.090 除以5的阶乘 00:10:28.090 --> 00:10:33.050 即除以5?4?3?2?1 00:10:33.050 --> 00:10:37.010 约去后只剩下7?6 00:10:37.010 --> 00:10:47.000 首先是7 最后项是7-2+1 即6 00:10:47.050 --> 00:10:51.020 此时k=2 正好2项 00:10:51.020 --> 00:10:53.020 下一节再来推导泊松分布 再见 00:10:53.020 --> 00:10:55.070 下一节再来推导泊松分布 再见 00:10:55.070 --> 00:10:59.090 下一节再来推导泊松分布 再见 00:00:01.000 --> 00:00:15.000 本字幕由网易公开课提供,更多课程请到http//open.163.com 00:00:17.070 --> 00:00:25.070 网易公开课官方微博 http://t.163.com/163open 00:00:30.070 --> 00:00:45.070 oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org