WEBVTT 00:00:00.080 --> 00:00:03.050 假設你是一個交通工程師 00:00:03.050 --> 00:00:06.080 想知道任意時刻通過街上某一點的車輛數 00:00:06.080 --> 00:00:08.030 想知道任意時刻通過街上某一點的車輛數 00:00:08.030 --> 00:00:10.020 想確定某一小時內100輛車或5輛車通過的機率 00:00:10.020 --> 00:00:14.000 想確定某一小時內100輛車或5輛車通過的機率 00:00:14.000 --> 00:00:15.080 最好的方式是先定義一個相關的隨機變數 00:00:15.080 --> 00:00:20.050 最好的方式是先定義一個相關的隨機變數 00:00:20.050 --> 00:00:27.030 假設它表示一個小時內通過車輛數 00:00:27.030 --> 00:00:30.040 假設它表示一個小時內通過車輛數 00:00:31.070 --> 00:00:34.050 然後求出該隨機變數的機率分布 00:00:34.050 --> 00:00:37.000 然後求出該隨機變數的機率分布 00:00:37.000 --> 00:00:39.040 這就能很容易求出 00:00:39.040 --> 00:00:41.070 一小時內100輛車 00:00:41.070 --> 00:00:45.080 或者其它數量的車經過的機率了 00:00:45.080 --> 00:00:48.020 在具體講泊松分布之前 有兩個假設要講一下 00:00:48.020 --> 00:00:50.050 在具體講泊松分布之前 有兩個假設要講一下 00:00:50.050 --> 00:00:52.020 在具體講泊松分布之前 有兩個假設要講一下 00:00:52.020 --> 00:00:54.060 也就是 00:00:54.060 --> 00:00:58.070 街上此點任意時刻的情況沒有差異 00:00:58.070 --> 00:00:59.060 街上此點任意時刻的情況沒有差異 00:00:59.060 --> 00:01:01.030 這顯然不是真實情況 高峰時間肯定比一般時間車多 00:01:01.030 --> 00:01:03.070 這顯然不是真實情況 高峰時間肯定比一般時間車多 00:01:03.070 --> 00:01:06.060 這顯然不是真實情況 高峰時間肯定比一般時間車多 00:01:06.060 --> 00:01:08.060 也許不用一小時 用一天更現實一點 00:01:08.060 --> 00:01:12.070 也許不用一小時 用一天更現實一點 00:01:12.070 --> 00:01:14.010 算了 不這麽說 00:01:14.010 --> 00:01:17.070 這裡假設任意時刻 00:01:17.070 --> 00:01:19.060 甚至每分每秒 在車流量方面都是沒有差異的 00:01:19.060 --> 00:01:22.090 甚至每分每秒 在車流量方面都是沒有差異的 00:01:22.090 --> 00:01:25.080 甚至每分每秒 在車流量方面都是沒有差異的 00:01:25.080 --> 00:01:27.480 這是一種簡化假設 00:01:27.480 --> 00:01:32.020 雖然不真實 但不妨就認爲是這樣 00:01:32.020 --> 00:01:34.010 另一個假設是 00:01:34.010 --> 00:01:36.060 一段時間的車流量對另一段時間沒有影響 00:01:36.060 --> 00:01:37.080 一段時間的車流量對另一段時間沒有影響 00:01:37.080 --> 00:01:40.060 就算一段時間的車流量少 00:01:40.060 --> 00:01:44.080 不會影響到下一段時間的車流量 00:01:44.080 --> 00:01:47.030 也就是說具有獨立性 00:01:47.030 --> 00:01:50.060 這樣 我們就能用所學知識 00:01:50.060 --> 00:01:53.040 對這種分布進行建模了 00:01:53.040 --> 00:01:55.070 對於任何分布 我們可以首先估計均值 00:01:55.070 --> 00:01:59.000 對於任何分布 我們可以首先估計均值 00:01:59.000 --> 00:02:03.000 我們可以坐在路邊 觀察幾個小時的車流量 00:02:03.000 --> 00:02:05.010 然後平均起來 00:02:05.010 --> 00:02:08.080 這也許就是總體均值的很好估計值了 00:02:08.080 --> 00:02:09.650 這也許就是總體均值的很好估計值了 00:02:09.650 --> 00:02:13.000 這是一個隨機變數 所以也就是預定值 00:02:13.000 --> 00:02:16.060 假設預定值的最好估計值是λ 00:02:16.060 --> 00:02:24.080 假設預定值的最好估計值是λ 00:02:24.080 --> 00:02:27.030 它可能是9輛車/小時 00:02:27.030 --> 00:02:30.010 或者9.3輛車/小時 00:02:30.010 --> 00:02:32.060 你可以在守候數百個小時 然後計數 取均值 00:02:32.060 --> 00:02:34.050 你可以在守候數百個小時 然後計數 取均值 00:02:34.050 --> 00:02:37.020 得到均值是9.3輛車/小時 這也許是很好的估計值 00:02:37.020 --> 00:02:40.000 得到均值是9.3輛車/小時 這也許是很好的估計值 00:02:40.000 --> 00:02:45.050 而我們已經知道二項分布 00:02:45.050 --> 00:02:50.060 二項分布的預定值我們已經知道 00:02:50.060 --> 00:02:55.020 它等於試驗的次數n… 00:02:55.020 --> 00:02:57.040 這是隨機變數的基本組成 00:02:57.040 --> 00:02:59.040 之前的影片中 我們用抛硬幣的例子 00:02:59.040 --> 00:03:00.050 之前的影片中 我們用抛硬幣的例子 00:03:00.050 --> 00:03:03.000 n也就是抛硬幣的次數 00:03:03.000 --> 00:03:07.020 乘以每一次成功的機率p 00:03:07.020 --> 00:03:09.000 這是二項式分布 也許交通情況也可以類似建模 00:03:09.000 --> 00:03:12.070 這是二項式分布 也許交通情況也可以類似建模 00:03:12.070 --> 00:03:15.040 這是一小時內經過的車輛數 00:03:15.040 --> 00:03:24.030 也許我們可以說 λ輛車/小時等於… 00:03:26.080 --> 00:03:29.080 假設試驗是每分鍾內是否有車通過 就像投硬幣 00:03:29.080 --> 00:03:31.070 假設試驗是每分鍾內是否有車通過 就像投硬幣 00:03:31.070 --> 00:03:40.080 那麽一小時有60分鍾 總共60次試驗 00:03:40.080 --> 00:03:43.010 然後每一次成功的機率 00:03:43.010 --> 00:03:46.090 由於這是二項分布 00:03:46.090 --> 00:03:54.040 所以是λ/60輛車/分鍾 00:03:54.040 --> 00:03:55.060 前面這是n 後面是機率p 00:03:55.060 --> 00:03:58.060 前面這是n 後面是機率p 00:03:58.060 --> 00:04:00.020 前面這是n 後面是機率p 00:04:00.020 --> 00:04:04.000 這也許並非很糟糕的近似 00:04:04.000 --> 00:04:07.380 由於是二項分布 00:04:07.380 --> 00:04:12.090 隨機變數得到某個k值的機率 00:04:12.090 --> 00:04:16.010 比如一小時內經過3輛車的機率 00:04:16.010 --> 00:04:21.080 這也就是n… 也就是60 00:04:21.080 --> 00:04:27.010 n選k 比如剛講的3輛車經過 乘以成功機率 00:04:27.010 --> 00:04:29.050 即每分鍾內有車經過的機率 也就是λ/60 00:04:29.050 --> 00:04:35.090 即每分鍾內有車經過的機率 也就是λ/60 00:04:35.090 --> 00:04:41.060 該機率的k次方 乘以不成功 00:04:41.060 --> 00:04:46.050 或者說無車經過的機率 的n-k次方 00:04:46.050 --> 00:04:50.020 k次成功對應60-k次失敗 或者說無車經過 00:04:50.020 --> 00:04:52.090 k次成功對應60-k次失敗 或者說無車經過 00:04:52.090 --> 00:04:55.020 分成60個區間 然後看成二項分布是不錯的近似 00:04:55.020 --> 00:04:58.050 分成60個區間 然後看成二項分布是不錯的近似 00:04:58.050 --> 00:05:00.030 結果可能很合理 不過有個核心問題 00:05:00.030 --> 00:05:02.060 結果可能很合理 不過有個核心問題 00:05:02.060 --> 00:05:06.050 也就是 如果一分鍾內不止一輛車通過怎麽辦 00:05:06.050 --> 00:05:09.090 也就是 如果一分鍾內不止一輛車通過怎麽辦 00:05:09.090 --> 00:05:11.060 也就是 如果一分鍾內不止一輛車通過怎麽辦 00:05:11.060 --> 00:05:14.020 之前我們把有一輛車通過叫成功 00:05:14.020 --> 00:05:15.030 之前我們把有一輛車通過叫成功 00:05:15.030 --> 00:05:18.070 但沒有考慮到一分鍾內同時5車通過這樣的情況 00:05:18.070 --> 00:05:21.010 但沒有考慮到一分鍾內同時5車通過這樣的情況 00:05:21.010 --> 00:05:23.030 解決辦法是 分更多的區間 00:05:23.030 --> 00:05:26.000 解決辦法是 分更多的區間 00:05:26.000 --> 00:05:31.000 如果分鍾不行 我可以分成秒 00:05:31.000 --> 00:05:36.020 這樣區間就不是60個 而是3600個 00:05:36.020 --> 00:05:39.080 這樣區間就不是60個 而是3600個 00:05:39.080 --> 00:05:43.010 k次成功的機率 00:05:43.010 --> 00:05:48.060 成功也就是某一秒有車通過 00:05:48.060 --> 00:05:52.010 這等於3600選k乘以某一秒有車通過的幾率… 00:05:52.010 --> 00:05:54.020 這等於3600選k乘以某一秒有車通過的幾率… 00:05:54.020 --> 00:05:57.090 也就是一小時內車通過的期望數量λ 00:05:57.090 --> 00:06:02.090 除以一小時內的秒數 然後有k次成功 00:06:02.090 --> 00:06:06.020 然後還有失敗 失敗機率是這麽多 00:06:06.020 --> 00:06:12.000 總共是3600-k次失敗 00:06:12.000 --> 00:06:13.090 這是更好的近似 00:06:13.090 --> 00:06:16.070 這是更好的近似 00:06:16.070 --> 00:06:19.090 但也有可能一秒鍾開過2輛車 00:06:19.090 --> 00:06:21.090 你可能會說 繼續進行區間分割不就行了 00:06:21.090 --> 00:06:23.060 你可能會說 繼續進行區間分割不就行了 00:06:23.060 --> 00:06:27.030 讓這個數字越來越大 這種直觀感覺很對 00:06:27.030 --> 00:06:28.090 讓這個數字越來越大 這種直觀感覺很對 00:06:28.090 --> 00:06:33.080 一直下去就能得到泊松分布 00:06:33.080 --> 00:06:35.060 一般而言 書本只會給出泊松分布的公式讓你套 00:06:35.060 --> 00:06:38.060 一般而言 書本只會給出泊松分布的公式讓你套 00:06:38.060 --> 00:06:40.040 一般而言 書本只會給出泊松分布的公式讓你套 00:06:40.040 --> 00:06:43.020 而我這裡告訴你們 它其實就是來自二項分布 00:06:43.020 --> 00:06:45.070 而我這裡告訴你們 它其實就是來自二項分布 00:06:45.070 --> 00:06:48.050 而二項分布就是某種抛硬幣 這是一切的源頭 00:06:48.050 --> 00:06:50.050 而二項分布就是某種抛硬幣 這是一切的源頭 00:06:50.050 --> 00:06:53.070 在我證明… 先換個顏色 00:06:53.070 --> 00:06:55.060 在我證明… 先換個顏色 00:06:55.060 --> 00:06:58.040 在我證明區間個數趨近於無窮大時 00:06:58.040 --> 00:07:01.020 在我證明區間個數趨近於無窮大時 00:07:01.020 --> 00:07:04.550 這就是泊松分布之前 00:07:04.550 --> 00:07:09.010 首先來複習一下手頭的數學工具 00:07:09.010 --> 00:07:12.070 首先這個你們可能比較熟悉 也就是 00:07:12.070 --> 00:07:15.080 首先這個你們可能比較熟悉 也就是 00:07:15.080 --> 00:07:25.060 x趨於無窮大時 (1+a/x)的x次方極限是e的a次方 00:07:25.060 --> 00:07:31.000 x趨於無窮大時 (1+a/x)的x次方極限是e的a次方 00:07:31.000 --> 00:07:38.000 爲了證明這一點 我做一點簡單換元 00:07:38.000 --> 00:07:39.020 爲了證明這一點 我做一點簡單換元 00:07:39.020 --> 00:07:47.080 令1/n=a/x 00:07:47.080 --> 00:07:52.080 於是x=na 00:07:52.080 --> 00:07:55.020 x?1=na 00:07:55.020 --> 00:08:02.000 因此x趨於無窮大時 n趨於什麽 00:08:02.000 --> 00:08:04.090 因此x趨於無窮大時 n趨於什麽 00:08:04.090 --> 00:08:08.070 n=x/a 所以n也趨於無窮 00:08:08.070 --> 00:08:10.080 因此換元後 這等價於 求極限 n趨於∞ 00:08:10.080 --> 00:08:16.040 因此換元後 這等價於 求極限 n趨於∞ 00:08:16.040 --> 00:08:21.030 1+… a/x替換爲1/n 00:08:21.030 --> 00:08:26.070 而x則替換爲na 00:08:26.070 --> 00:08:30.050 於是這等價於 n趨於∞時 00:08:30.050 --> 00:08:39.030 (1+1/n)的n次方的a次方的極限 00:08:39.030 --> 00:08:41.070 a中不含n 所以也就是這個極限的a次方 00:08:41.070 --> 00:08:43.040 a中不含n 所以也就是這個極限的a次方 00:08:43.040 --> 00:08:47.060 也就是n趨於∞時(1+1/n)?的極限的a次方 00:08:47.060 --> 00:08:53.070 也就是n趨於∞時(1+1/n)?的極限的a次方 00:08:53.070 --> 00:08:58.000 (1+1/n)?的極限就是e的定義 講複利時我講過 00:08:58.000 --> 00:09:00.080 (1+1/n)?的極限就是e的定義 講複利時我講過 00:09:00.080 --> 00:09:02.540 你可以用計算器試試很大的n值 看是否得到e 00:09:02.540 --> 00:09:07.020 你可以用計算器試試很大的n值 看是否得到e 00:09:07.020 --> 00:09:12.000 裏面這個等於e 然後取a次冪 00:09:12.000 --> 00:09:14.000 也就是e的a次方 00:09:14.000 --> 00:09:16.020 因此這個極限等於e的a次方 00:09:16.020 --> 00:09:17.080 因此這個極限等於e的a次方 00:09:17.080 --> 00:09:19.080 另外一個我要講的工具也許要在下一節才能證明 00:09:19.080 --> 00:09:22.030 另外一個我要講的工具也許要在下一節才能證明 00:09:22.030 --> 00:09:32.090 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 00:09:32.090 --> 00:09:42.080 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 00:09:42.080 --> 00:09:50.000 也就是x!/(x-k)!=x(x-1)(x-2)一直乘到(x-k+1) 00:09:50.000 --> 00:09:51.080 我們做過很多次 但沒有寫得這麽抽象過 00:09:51.080 --> 00:09:53.000 我們做過很多次 但沒有寫得這麽抽象過 00:09:53.000 --> 00:09:55.050 這裡正好是k項 00:09:55.050 --> 00:09:57.030 這裡正好是k項 00:09:57.030 --> 00:10:01.070 1 2 3一直到第k項 00:10:01.070 --> 00:10:04.030 1 2 3一直到第k項 00:10:04.030 --> 00:10:07.020 這對泊松分布的推導很重要 00:10:07.020 --> 00:10:09.010 這對泊松分布的推導很重要 00:10:09.010 --> 00:10:16.480 我舉個實際例子 比如7!/(7-2)! 00:10:16.480 --> 00:10:24.000 這等於7?6?5?4?3?2?1 00:10:24.000 --> 00:10:28.090 除以5的階乘 00:10:28.090 --> 00:10:33.050 即除以5?4?3?2?1 00:10:33.050 --> 00:10:37.010 約去後只剩下7?6 00:10:37.010 --> 00:10:47.000 首先是7 最後項是7-2+1 即6 00:10:47.050 --> 00:10:51.020 此時k=2 正好2項 00:10:51.020 --> 00:10:53.020 下一節再來推導泊松分布 再見 00:10:53.020 --> 00:10:55.070 下一節再來推導泊松分布 再見 00:10:55.070 --> 00:10:59.090 下一節再來推導泊松分布 再見 00:00:01.000 --> 00:00:15.000 本字幕由網易公開課提供,更多課程請到http//open.163.com 00:00:17.070 --> 00:00:25.070 網易公開課官方微博 http://t.163.com/163open 00:00:30.070 --> 00:00:45.070 oCourse字幕組翻譯:只做公開課的字幕組 http://ocourse.org