0:00:00.080,0:00:03.050 假设你是一个交通工程师 0:00:03.050,0:00:06.080 想知道任意时刻通过街上某一点的车辆数 0:00:06.080,0:00:08.030 想知道任意时刻通过街上某一点的车辆数 0:00:08.030,0:00:10.020 想确定某一小时内100辆车或5辆车通过的概率 0:00:10.020,0:00:14.000 想确定某一小时内100辆车或5辆车通过的概率 0:00:14.000,0:00:15.080 最好的方式是先定义一个相关的随机变量 0:00:15.080,0:00:20.050 最好的方式是先定义一个相关的随机变量 0:00:20.050,0:00:27.030 假设它表示一个小时内通过车辆数 0:00:27.030,0:00:30.040 假设它表示一个小时内通过车辆数 0:00:31.070,0:00:34.050 然后求出该随机变量的概率分布 0:00:34.050,0:00:37.000 然后求出该随机变量的概率分布 0:00:37.000,0:00:39.040 这就能很容易求出 0:00:39.040,0:00:41.070 一小时内100辆车 0:00:41.070,0:00:45.080 或者其它数量的车经过的概率了 0:00:45.080,0:00:48.020 在具体讲泊松分布之前 有两个假设要讲一下 0:00:48.020,0:00:50.050 在具体讲泊松分布之前 有两个假设要讲一下 0:00:50.050,0:00:52.020 在具体讲泊松分布之前 有两个假设要讲一下 0:00:52.020,0:00:54.060 也就是 0:00:54.060,0:00:58.070 街上此点任意时刻的情况没有差异 0:00:58.070,0:00:59.060 街上此点任意时刻的情况没有差异 0:00:59.060,0:01:01.030 这显然不是真实情况 高峰时间肯定比一般时间车多 0:01:01.030,0:01:03.070 这显然不是真实情况 高峰时间肯定比一般时间车多 0:01:03.070,0:01:06.060 这显然不是真实情况 高峰时间肯定比一般时间车多 0:01:06.060,0:01:08.060 也许不用一小时 用一天更现实一点 0:01:08.060,0:01:12.070 也许不用一小时 用一天更现实一点 0:01:12.070,0:01:14.010 算了 不这么说 0:01:14.010,0:01:17.070 这里假设任意时刻 0:01:17.070,0:01:19.060 甚至每分每秒 在车流量方面都是没有差异的 0:01:19.060,0:01:22.090 甚至每分每秒 在车流量方面都是没有差异的 0:01:22.090,0:01:25.080 甚至每分每秒 在车流量方面都是没有差异的 0:01:25.080,0:01:27.480 这是一种简化假设 0:01:27.480,0:01:32.020 虽然不真实 但不妨就认为是这样 0:01:32.020,0:01:34.010 另一个假设是 0:01:34.010,0:01:36.060 一段时间的车流量对另一段时间没有影响 0:01:36.060,0:01:37.080 一段时间的车流量对另一段时间没有影响 0:01:37.080,0:01:40.060 就算一段时间的车流量少 0:01:40.060,0:01:44.080 不会影响到下一段时间的车流量 0:01:44.080,0:01:47.030 也就是说具有独立性 0:01:47.030,0:01:50.060 这样 我们就能用所学知识 0:01:50.060,0:01:53.040 对这种分布进行建模了 0:01:53.040,0:01:55.070 对于任何分布 我们可以首先估计均值 0:01:55.070,0:01:59.000 对于任何分布 我们可以首先估计均值 0:01:59.000,0:02:03.000 我们可以坐在路边 观察几个小时的车流量 0:02:03.000,0:02:05.010 然后平均起来 0:02:05.010,0:02:08.080 这也许就是总体均值的很好估计值了 0:02:08.080,0:02:09.650 这也许就是总体均值的很好估计值了 0:02:09.650,0:02:13.000 这是一个随机变量 所以也就是期望值 0:02:13.000,0:02:16.060 假设期望值的最好估计值是λ 0:02:16.060,0:02:24.080 假设期望值的最好估计值是λ 0:02:24.080,0:02:27.030 它可能是9辆车/小时 0:02:27.030,0:02:30.010 或者9.3辆车/小时 0:02:30.010,0:02:32.060 你可以在守候数百个小时 然后计数 取均值 0:02:32.060,0:02:34.050 你可以在守候数百个小时 然后计数 取均值 0:02:34.050,0:02:37.020 得到均值是9.3辆车/小时 这也许是很好的估计值 0:02:37.020,0:02:40.000 得到均值是9.3辆车/小时 这也许是很好的估计值 0:02:40.000,0:02:45.050 而我们已经知道二项分布 0:02:45.050,0:02:50.060 二项分布的期望值我们已经知道 0:02:50.060,0:02:55.020 它等于试验的次数n… 0:02:55.020,0:02:57.040 这是随机变量的基本组成 0:02:57.040,0:02:59.040 之前的视频中 我们用抛硬币的例子 0:02:59.040,0:03:00.050 之前的视频中 我们用抛硬币的例子 0:03:00.050,0:03:03.000 n也就是抛硬币的次数 0:03:03.000,0:03:07.020 乘以每一次成功的概率p 0:03:07.020,0:03:09.000 这是二项式分布 也许交通情况也可以类似建模 0:03:09.000,0:03:12.070 这是二项式分布 也许交通情况也可以类似建模 0:03:12.070,0:03:15.040 这是一小时内经过的车辆数 0:03:15.040,0:03:24.030 也许我们可以说 λ辆车/小时等于… 0:03:26.080,0:03:29.080 假设试验是每分钟内是否有车通过 就像投硬币 0:03:29.080,0:03:31.070 假设试验是每分钟内是否有车通过 就像投硬币 0:03:31.070,0:03:40.080 那么一小时有60分钟 总共60次试验 0:03:40.080,0:03:43.010 然后每一次成功的概率 0:03:43.010,0:03:46.090 由于这是二项分布 0:03:46.090,0:03:54.040 所以是λ/60辆车/分钟 0:03:54.040,0:03:55.060 前面这是n 后面是概率p 0:03:55.060,0:03:58.060 前面这是n 后面是概率p 0:03:58.060,0:04:00.020 前面这是n 后面是概率p 0:04:00.020,0:04:04.000 这也许并非很糟糕的近似 0:04:04.000,0:04:07.380 由于是二项分布 0:04:07.380,0:04:12.090 随机变量得到某个k值的概率 0:04:12.090,0:04:16.010 比如一小时内经过3辆车的概率 0:04:16.010,0:04:21.080 这也就是n… 也就是60 0:04:21.080,0:04:27.010 n选k 比如刚讲的3辆车经过 乘以成功概率 0:04:27.010,0:04:29.050 即每分钟内有车经过的概率 也就是λ/60 0:04:29.050,0:04:35.090 即每分钟内有车经过的概率 也就是λ/60 0:04:35.090,0:04:41.060 该概率的k次方 乘以不成功 0:04:41.060,0:04:46.050 或者说无车经过的概率 的n-k次方 0:04:46.050,0:04:50.020 k次成功对应60-k次失败 或者说无车经过 0:04:50.020,0:04:52.090 k次成功对应60-k次失败 或者说无车经过 0:04:52.090,0:04:55.020 分成60个区间 然后看成二项分布是不错的近似 0:04:55.020,0:04:58.050 分成60个区间 然后看成二项分布是不错的近似 0:04:58.050,0:05:00.030 结果可能很合理 不过有个核心问题 0:05:00.030,0:05:02.060 结果可能很合理 不过有个核心问题 0:05:02.060,0:05:06.050 也就是 如果一分钟内不止一辆车通过怎么办 0:05:06.050,0:05:09.090 也就是 如果一分钟内不止一辆车通过怎么办 0:05:09.090,0:05:11.060 也就是 如果一分钟内不止一辆车通过怎么办 0:05:11.060,0:05:14.020 之前我们把有一辆车通过叫成功 0:05:14.020,0:05:15.030 之前我们把有一辆车通过叫成功 0:05:15.030,0:05:18.070 但没有考虑到一分钟内同时5车通过这样的情况 0:05:18.070,0:05:21.010 但没有考虑到一分钟内同时5车通过这样的情况 0:05:21.010,0:05:23.030 解决办法是 分更多的区间 0:05:23.030,0:05:26.000 解决办法是 分更多的区间 0:05:26.000,0:05:31.000 如果分钟不行 我可以分成秒 0:05:31.000,0:05:36.020 这样区间就不是60个 而是3600个 0:05:36.020,0:05:39.080 这样区间就不是60个 而是3600个 0:05:39.080,0:05:43.010 k次成功的概率 0:05:43.010,0:05:48.060 成功也就是某一秒有车通过 0:05:48.060,0:05:52.010 这等于3600选k乘以某一秒有车通过的几率… 0:05:52.010,0:05:54.020 这等于3600选k乘以某一秒有车通过的几率… 0:05:54.020,0:05:57.090 也就是一小时内车通过的期望数量λ 0:05:57.090,0:06:02.090 除以一小时内的秒数 然后有k次成功 0:06:02.090,0:06:06.020 然后还有失败 失败概率是这么多 0:06:06.020,0:06:12.000 总共是3600-k次失败 0:06:12.000,0:06:13.090 这是更好的近似 0:06:13.090,0:06:16.070 这是更好的近似 0:06:16.070,0:06:19.090 但也有可能一秒钟开过2辆车 0:06:19.090,0:06:21.090 你可能会说 继续进行区间分割不就行了 0:06:21.090,0:06:23.060 你可能会说 继续进行区间分割不就行了 0:06:23.060,0:06:27.030 让这个数字越来越大 这种直观感觉很对 0:06:27.030,0:06:28.090 让这个数字越来越大 这种直观感觉很对 0:06:28.090,0:06:33.080 一直下去就能得到泊松分布 0:06:33.080,0:06:35.060 一般而言 书本只会给出泊松分布的公式让你套 0:06:35.060,0:06:38.060 一般而言 书本只会给出泊松分布的公式让你套 0:06:38.060,0:06:40.040 一般而言 书本只会给出泊松分布的公式让你套 0:06:40.040,0:06:43.020 而我这里告诉你们 它其实就是来自二项分布 0:06:43.020,0:06:45.070 而我这里告诉你们 它其实就是来自二项分布 0:06:45.070,0:06:48.050 而二项分布就是某种抛硬币 这是一切的源头 0:06:48.050,0:06:50.050 而二项分布就是某种抛硬币 这是一切的源头 0:06:50.050,0:06:53.070 在我证明… 先换个颜色 0:06:53.070,0:06:55.060 在我证明… 先换个颜色 0:06:55.060,0:06:58.040 在我证明区间个数趋近于无穷大时 0:06:58.040,0:07:01.020 在我证明区间个数趋近于无穷大时 0:07:01.020,0:07:04.550 这就是泊松分布之前 0:07:04.550,0:07:09.010 首先来复习一下手头的数学工具 0:07:09.010,0:07:12.070 首先这个你们可能比较熟悉 也就是 0:07:12.070,0:07:15.080 首先这个你们可能比较熟悉 也就是 0:07:15.080,0:07:25.060 x趋于无穷大时 (1+a/x)的x次方极限是e的a次方 0:07:25.060,0:07:31.000 x趋于无穷大时 (1+a/x)的x次方极限是e的a次方 0:07:31.000,0:07:38.000 为了证明这一点 我做一点简单换元 0:07:38.000,0:07:39.020 为了证明这一点 我做一点简单换元 0:07:39.020,0:07:47.080 令1/n=a/x 0:07:47.080,0:07:52.080 于是x=na 0:07:52.080,0:07:55.020 x?1=na 0:07:55.020,0:08:02.000 因此x趋于无穷大时 n趋于什么 0:08:02.000,0:08:04.090 因此x趋于无穷大时 n趋于什么 0:08:04.090,0:08:08.070 n=x/a 所以n也趋于无穷 0:08:08.070,0:08:10.080 因此换元后 这等价于 求极限 n趋于∞ 0:08:10.080,0:08:16.040 因此换元后 这等价于 求极限 n趋于∞ 0:08:16.040,0:08:21.030 1+… a/x替换为1/n 0:08:21.030,0:08:26.070 而x则替换为na 0:08:26.070,0:08:30.050 于是这等价于 n趋于∞时 0:08:30.050,0:08:39.030 (1+1/n)的n次方的a次方的极限 0:08:39.030,0:08:41.070 a中不含n 所以也就是这个极限的a次方 0:08:41.070,0:08:43.040 a中不含n 所以也就是这个极限的a次方 0:08:43.040,0:08:47.060 也就是n趋于∞时(1+1/n)?的极限的a次方 0:08:47.060,0:08:53.070 也就是n趋于∞时(1+1/n)?的极限的a次方 0:08:53.070,0:08:58.000 (1+1/n)?的极限就是e的定义 讲复利时我讲过 0:08:58.000,0:09:00.080 (1+1/n)?的极限就是e的定义 讲复利时我讲过 0:09:00.080,0:09:02.540 你可以用计算器试试很大的n值 看是否得到e 0:09:02.540,0:09:07.020 你可以用计算器试试很大的n值 看是否得到e 0:09:07.020,0:09:12.000 里面这个等于e 然后取a次幂 0:09:12.000,0:09:14.000 也就是e的a次方 0:09:14.000,0:09:16.020 因此这个极限等于e的a次方 0:09:16.020,0:09:17.080 因此这个极限等于e的a次方 0:09:17.080,0:09:19.080 另外一个我要讲的工具也许要在下一节才能证明 0:09:19.080,0:09:22.030 另外一个我要讲的工具也许要在下一节才能证明 0:09:22.030,0:09:32.090 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 0:09:32.090,0:09:42.080 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 0:09:42.080,0:09:50.000 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 0:09:50.000,0:09:51.080 我们做过很多次 但没有写得这么抽象过 0:09:51.080,0:09:53.000 我们做过很多次 但没有写得这么抽象过 0:09:53.000,0:09:55.050 这里正好是k项 0:09:55.050,0:09:57.030 这里正好是k项 0:09:57.030,0:10:01.070 1 2 3一直到第k项 0:10:01.070,0:10:04.030 1 2 3一直到第k项 0:10:04.030,0:10:07.020 这对泊松分布的推导很重要 0:10:07.020,0:10:09.010 这对泊松分布的推导很重要 0:10:09.010,0:10:16.480 我举个实际例子 比如7!/(7-2)! 0:10:16.480,0:10:24.000 这等于7?6?5?4?3?2?1 0:10:24.000,0:10:28.090 除以5的阶乘 0:10:28.090,0:10:33.050 即除以5?4?3?2?1 0:10:33.050,0:10:37.010 约去后只剩下7?6 0:10:37.010,0:10:47.000 首先是7 最后项是7-2+1 即6 0:10:47.050,0:10:51.020 此时k=2 正好2项 0:10:51.020,0:10:53.020 下一节再来推导泊松分布 再见 0:10:53.020,0:10:55.070 下一节再来推导泊松分布 再见 0:10:55.070,0:10:59.090 下一节再来推导泊松分布 再见 0:00:01.000,0:00:15.000 本字幕由网易公开课提供,更多课程请到http//open.163.com 0:00:17.070,0:00:25.070 网易公开课官方微博 http://t.163.com/163open 0:00:30.070,0:00:45.070 oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org