1 00:00:00,080 --> 00:00:03,050 假设你是一个交通工程师 2 00:00:03,050 --> 00:00:06,080 想知道任意时刻通过街上某一点的车辆数 3 00:00:06,080 --> 00:00:08,030 想知道任意时刻通过街上某一点的车辆数 4 00:00:08,030 --> 00:00:10,020 想确定某一小时内100辆车或5辆车通过的概率 5 00:00:10,020 --> 00:00:14,000 想确定某一小时内100辆车或5辆车通过的概率 6 00:00:14,000 --> 00:00:15,080 最好的方式是先定义一个相关的随机变量 7 00:00:15,080 --> 00:00:20,050 最好的方式是先定义一个相关的随机变量 8 00:00:20,050 --> 00:00:27,030 假设它表示一个小时内通过车辆数 9 00:00:27,030 --> 00:00:30,040 假设它表示一个小时内通过车辆数 10 00:00:31,070 --> 00:00:34,050 然后求出该随机变量的概率分布 11 00:00:34,050 --> 00:00:37,000 然后求出该随机变量的概率分布 12 00:00:37,000 --> 00:00:39,040 这就能很容易求出 13 00:00:39,040 --> 00:00:41,070 一小时内100辆车 14 00:00:41,070 --> 00:00:45,080 或者其它数量的车经过的概率了 15 00:00:45,080 --> 00:00:48,020 在具体讲泊松分布之前 有两个假设要讲一下 16 00:00:48,020 --> 00:00:50,050 在具体讲泊松分布之前 有两个假设要讲一下 17 00:00:50,050 --> 00:00:52,020 在具体讲泊松分布之前 有两个假设要讲一下 18 00:00:52,020 --> 00:00:54,060 也就是 19 00:00:54,060 --> 00:00:58,070 街上此点任意时刻的情况没有差异 20 00:00:58,070 --> 00:00:59,060 街上此点任意时刻的情况没有差异 21 00:00:59,060 --> 00:01:01,030 这显然不是真实情况 高峰时间肯定比一般时间车多 22 00:01:01,030 --> 00:01:03,070 这显然不是真实情况 高峰时间肯定比一般时间车多 23 00:01:03,070 --> 00:01:06,060 这显然不是真实情况 高峰时间肯定比一般时间车多 24 00:01:06,060 --> 00:01:08,060 也许不用一小时 用一天更现实一点 25 00:01:08,060 --> 00:01:12,070 也许不用一小时 用一天更现实一点 26 00:01:12,070 --> 00:01:14,010 算了 不这么说 27 00:01:14,010 --> 00:01:17,070 这里假设任意时刻 28 00:01:17,070 --> 00:01:19,060 甚至每分每秒 在车流量方面都是没有差异的 29 00:01:19,060 --> 00:01:22,090 甚至每分每秒 在车流量方面都是没有差异的 30 00:01:22,090 --> 00:01:25,080 甚至每分每秒 在车流量方面都是没有差异的 31 00:01:25,080 --> 00:01:27,480 这是一种简化假设 32 00:01:27,480 --> 00:01:32,020 虽然不真实 但不妨就认为是这样 33 00:01:32,020 --> 00:01:34,010 另一个假设是 34 00:01:34,010 --> 00:01:36,060 一段时间的车流量对另一段时间没有影响 35 00:01:36,060 --> 00:01:37,080 一段时间的车流量对另一段时间没有影响 36 00:01:37,080 --> 00:01:40,060 就算一段时间的车流量少 37 00:01:40,060 --> 00:01:44,080 不会影响到下一段时间的车流量 38 00:01:44,080 --> 00:01:47,030 也就是说具有独立性 39 00:01:47,030 --> 00:01:50,060 这样 我们就能用所学知识 40 00:01:50,060 --> 00:01:53,040 对这种分布进行建模了 41 00:01:53,040 --> 00:01:55,070 对于任何分布 我们可以首先估计均值 42 00:01:55,070 --> 00:01:59,000 对于任何分布 我们可以首先估计均值 43 00:01:59,000 --> 00:02:03,000 我们可以坐在路边 观察几个小时的车流量 44 00:02:03,000 --> 00:02:05,010 然后平均起来 45 00:02:05,010 --> 00:02:08,080 这也许就是总体均值的很好估计值了 46 00:02:08,080 --> 00:02:09,650 这也许就是总体均值的很好估计值了 47 00:02:09,650 --> 00:02:13,000 这是一个随机变量 所以也就是期望值 48 00:02:13,000 --> 00:02:16,060 假设期望值的最好估计值是λ 49 00:02:16,060 --> 00:02:24,080 假设期望值的最好估计值是λ 50 00:02:24,080 --> 00:02:27,030 它可能是9辆车/小时 51 00:02:27,030 --> 00:02:30,010 或者9.3辆车/小时 52 00:02:30,010 --> 00:02:32,060 你可以在守候数百个小时 然后计数 取均值 53 00:02:32,060 --> 00:02:34,050 你可以在守候数百个小时 然后计数 取均值 54 00:02:34,050 --> 00:02:37,020 得到均值是9.3辆车/小时 这也许是很好的估计值 55 00:02:37,020 --> 00:02:40,000 得到均值是9.3辆车/小时 这也许是很好的估计值 56 00:02:40,000 --> 00:02:45,050 而我们已经知道二项分布 57 00:02:45,050 --> 00:02:50,060 二项分布的期望值我们已经知道 58 00:02:50,060 --> 00:02:55,020 它等于试验的次数n… 59 00:02:55,020 --> 00:02:57,040 这是随机变量的基本组成 60 00:02:57,040 --> 00:02:59,040 之前的视频中 我们用抛硬币的例子 61 00:02:59,040 --> 00:03:00,050 之前的视频中 我们用抛硬币的例子 62 00:03:00,050 --> 00:03:03,000 n也就是抛硬币的次数 63 00:03:03,000 --> 00:03:07,020 乘以每一次成功的概率p 64 00:03:07,020 --> 00:03:09,000 这是二项式分布 也许交通情况也可以类似建模 65 00:03:09,000 --> 00:03:12,070 这是二项式分布 也许交通情况也可以类似建模 66 00:03:12,070 --> 00:03:15,040 这是一小时内经过的车辆数 67 00:03:15,040 --> 00:03:24,030 也许我们可以说 λ辆车/小时等于… 68 00:03:26,080 --> 00:03:29,080 假设试验是每分钟内是否有车通过 就像投硬币 69 00:03:29,080 --> 00:03:31,070 假设试验是每分钟内是否有车通过 就像投硬币 70 00:03:31,070 --> 00:03:40,080 那么一小时有60分钟 总共60次试验 71 00:03:40,080 --> 00:03:43,010 然后每一次成功的概率 72 00:03:43,010 --> 00:03:46,090 由于这是二项分布 73 00:03:46,090 --> 00:03:54,040 所以是λ/60辆车/分钟 74 00:03:54,040 --> 00:03:55,060 前面这是n 后面是概率p 75 00:03:55,060 --> 00:03:58,060 前面这是n 后面是概率p 76 00:03:58,060 --> 00:04:00,020 前面这是n 后面是概率p 77 00:04:00,020 --> 00:04:04,000 这也许并非很糟糕的近似 78 00:04:04,000 --> 00:04:07,380 由于是二项分布 79 00:04:07,380 --> 00:04:12,090 随机变量得到某个k值的概率 80 00:04:12,090 --> 00:04:16,010 比如一小时内经过3辆车的概率 81 00:04:16,010 --> 00:04:21,080 这也就是n… 也就是60 82 00:04:21,080 --> 00:04:27,010 n选k 比如刚讲的3辆车经过 乘以成功概率 83 00:04:27,010 --> 00:04:29,050 即每分钟内有车经过的概率 也就是λ/60 84 00:04:29,050 --> 00:04:35,090 即每分钟内有车经过的概率 也就是λ/60 85 00:04:35,090 --> 00:04:41,060 该概率的k次方 乘以不成功 86 00:04:41,060 --> 00:04:46,050 或者说无车经过的概率 的n-k次方 87 00:04:46,050 --> 00:04:50,020 k次成功对应60-k次失败 或者说无车经过 88 00:04:50,020 --> 00:04:52,090 k次成功对应60-k次失败 或者说无车经过 89 00:04:52,090 --> 00:04:55,020 分成60个区间 然后看成二项分布是不错的近似 90 00:04:55,020 --> 00:04:58,050 分成60个区间 然后看成二项分布是不错的近似 91 00:04:58,050 --> 00:05:00,030 结果可能很合理 不过有个核心问题 92 00:05:00,030 --> 00:05:02,060 结果可能很合理 不过有个核心问题 93 00:05:02,060 --> 00:05:06,050 也就是 如果一分钟内不止一辆车通过怎么办 94 00:05:06,050 --> 00:05:09,090 也就是 如果一分钟内不止一辆车通过怎么办 95 00:05:09,090 --> 00:05:11,060 也就是 如果一分钟内不止一辆车通过怎么办 96 00:05:11,060 --> 00:05:14,020 之前我们把有一辆车通过叫成功 97 00:05:14,020 --> 00:05:15,030 之前我们把有一辆车通过叫成功 98 00:05:15,030 --> 00:05:18,070 但没有考虑到一分钟内同时5车通过这样的情况 99 00:05:18,070 --> 00:05:21,010 但没有考虑到一分钟内同时5车通过这样的情况 100 00:05:21,010 --> 00:05:23,030 解决办法是 分更多的区间 101 00:05:23,030 --> 00:05:26,000 解决办法是 分更多的区间 102 00:05:26,000 --> 00:05:31,000 如果分钟不行 我可以分成秒 103 00:05:31,000 --> 00:05:36,020 这样区间就不是60个 而是3600个 104 00:05:36,020 --> 00:05:39,080 这样区间就不是60个 而是3600个 105 00:05:39,080 --> 00:05:43,010 k次成功的概率 106 00:05:43,010 --> 00:05:48,060 成功也就是某一秒有车通过 107 00:05:48,060 --> 00:05:52,010 这等于3600选k乘以某一秒有车通过的几率… 108 00:05:52,010 --> 00:05:54,020 这等于3600选k乘以某一秒有车通过的几率… 109 00:05:54,020 --> 00:05:57,090 也就是一小时内车通过的期望数量λ 110 00:05:57,090 --> 00:06:02,090 除以一小时内的秒数 然后有k次成功 111 00:06:02,090 --> 00:06:06,020 然后还有失败 失败概率是这么多 112 00:06:06,020 --> 00:06:12,000 总共是3600-k次失败 113 00:06:12,000 --> 00:06:13,090 这是更好的近似 114 00:06:13,090 --> 00:06:16,070 这是更好的近似 115 00:06:16,070 --> 00:06:19,090 但也有可能一秒钟开过2辆车 116 00:06:19,090 --> 00:06:21,090 你可能会说 继续进行区间分割不就行了 117 00:06:21,090 --> 00:06:23,060 你可能会说 继续进行区间分割不就行了 118 00:06:23,060 --> 00:06:27,030 让这个数字越来越大 这种直观感觉很对 119 00:06:27,030 --> 00:06:28,090 让这个数字越来越大 这种直观感觉很对 120 00:06:28,090 --> 00:06:33,080 一直下去就能得到泊松分布 121 00:06:33,080 --> 00:06:35,060 一般而言 书本只会给出泊松分布的公式让你套 122 00:06:35,060 --> 00:06:38,060 一般而言 书本只会给出泊松分布的公式让你套 123 00:06:38,060 --> 00:06:40,040 一般而言 书本只会给出泊松分布的公式让你套 124 00:06:40,040 --> 00:06:43,020 而我这里告诉你们 它其实就是来自二项分布 125 00:06:43,020 --> 00:06:45,070 而我这里告诉你们 它其实就是来自二项分布 126 00:06:45,070 --> 00:06:48,050 而二项分布就是某种抛硬币 这是一切的源头 127 00:06:48,050 --> 00:06:50,050 而二项分布就是某种抛硬币 这是一切的源头 128 00:06:50,050 --> 00:06:53,070 在我证明… 先换个颜色 129 00:06:53,070 --> 00:06:55,060 在我证明… 先换个颜色 130 00:06:55,060 --> 00:06:58,040 在我证明区间个数趋近于无穷大时 131 00:06:58,040 --> 00:07:01,020 在我证明区间个数趋近于无穷大时 132 00:07:01,020 --> 00:07:04,550 这就是泊松分布之前 133 00:07:04,550 --> 00:07:09,010 首先来复习一下手头的数学工具 134 00:07:09,010 --> 00:07:12,070 首先这个你们可能比较熟悉 也就是 135 00:07:12,070 --> 00:07:15,080 首先这个你们可能比较熟悉 也就是 136 00:07:15,080 --> 00:07:25,060 x趋于无穷大时 (1+a/x)的x次方极限是e的a次方 137 00:07:25,060 --> 00:07:31,000 x趋于无穷大时 (1+a/x)的x次方极限是e的a次方 138 00:07:31,000 --> 00:07:38,000 为了证明这一点 我做一点简单换元 139 00:07:38,000 --> 00:07:39,020 为了证明这一点 我做一点简单换元 140 00:07:39,020 --> 00:07:47,080 令1/n=a/x 141 00:07:47,080 --> 00:07:52,080 于是x=na 142 00:07:52,080 --> 00:07:55,020 x?1=na 143 00:07:55,020 --> 00:08:02,000 因此x趋于无穷大时 n趋于什么 144 00:08:02,000 --> 00:08:04,090 因此x趋于无穷大时 n趋于什么 145 00:08:04,090 --> 00:08:08,070 n=x/a 所以n也趋于无穷 146 00:08:08,070 --> 00:08:10,080 因此换元后 这等价于 求极限 n趋于∞ 147 00:08:10,080 --> 00:08:16,040 因此换元后 这等价于 求极限 n趋于∞ 148 00:08:16,040 --> 00:08:21,030 1+… a/x替换为1/n 149 00:08:21,030 --> 00:08:26,070 而x则替换为na 150 00:08:26,070 --> 00:08:30,050 于是这等价于 n趋于∞时 151 00:08:30,050 --> 00:08:39,030 (1+1/n)的n次方的a次方的极限 152 00:08:39,030 --> 00:08:41,070 a中不含n 所以也就是这个极限的a次方 153 00:08:41,070 --> 00:08:43,040 a中不含n 所以也就是这个极限的a次方 154 00:08:43,040 --> 00:08:47,060 也就是n趋于∞时(1+1/n)?的极限的a次方 155 00:08:47,060 --> 00:08:53,070 也就是n趋于∞时(1+1/n)?的极限的a次方 156 00:08:53,070 --> 00:08:58,000 (1+1/n)?的极限就是e的定义 讲复利时我讲过 157 00:08:58,000 --> 00:09:00,080 (1+1/n)?的极限就是e的定义 讲复利时我讲过 158 00:09:00,080 --> 00:09:02,540 你可以用计算器试试很大的n值 看是否得到e 159 00:09:02,540 --> 00:09:07,020 你可以用计算器试试很大的n值 看是否得到e 160 00:09:07,020 --> 00:09:12,000 里面这个等于e 然后取a次幂 161 00:09:12,000 --> 00:09:14,000 也就是e的a次方 162 00:09:14,000 --> 00:09:16,020 因此这个极限等于e的a次方 163 00:09:16,020 --> 00:09:17,080 因此这个极限等于e的a次方 164 00:09:17,080 --> 00:09:19,080 另外一个我要讲的工具也许要在下一节才能证明 165 00:09:19,080 --> 00:09:22,030 另外一个我要讲的工具也许要在下一节才能证明 166 00:09:22,030 --> 00:09:32,090 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 167 00:09:32,090 --> 00:09:42,080 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 168 00:09:42,080 --> 00:09:50,000 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 169 00:09:50,000 --> 00:09:51,080 我们做过很多次 但没有写得这么抽象过 170 00:09:51,080 --> 00:09:53,000 我们做过很多次 但没有写得这么抽象过 171 00:09:53,000 --> 00:09:55,050 这里正好是k项 172 00:09:55,050 --> 00:09:57,030 这里正好是k项 173 00:09:57,030 --> 00:10:01,070 1 2 3一直到第k项 174 00:10:01,070 --> 00:10:04,030 1 2 3一直到第k项 175 00:10:04,030 --> 00:10:07,020 这对泊松分布的推导很重要 176 00:10:07,020 --> 00:10:09,010 这对泊松分布的推导很重要 177 00:10:09,010 --> 00:10:16,480 我举个实际例子 比如7!/(7-2)! 178 00:10:16,480 --> 00:10:24,000 这等于7?6?5?4?3?2?1 179 00:10:24,000 --> 00:10:28,090 除以5的阶乘 180 00:10:28,090 --> 00:10:33,050 即除以5?4?3?2?1 181 00:10:33,050 --> 00:10:37,010 约去后只剩下7?6 182 00:10:37,010 --> 00:10:47,000 首先是7 最后项是7-2+1 即6 183 00:10:47,050 --> 00:10:51,020 此时k=2 正好2项 184 00:10:51,020 --> 00:10:53,020 下一节再来推导泊松分布 再见 185 00:10:53,020 --> 00:10:55,070 下一节再来推导泊松分布 再见 186 00:10:55,070 --> 00:10:59,090 下一节再来推导泊松分布 再见 187 00:00:01,000 --> 00:00:15,000 本字幕由网易公开课提供,更多课程请到http//open.163.com 188 00:00:17,070 --> 00:00:25,070 网易公开课官方微博 http://t.163.com/163open 189 00:00:30,070 --> 00:00:45,070 oCourse字幕组翻译:只做公开课的字幕组 http://ocourse.org