WEBVTT 00:00:01.100 --> 00:00:03.320 這段影片在這裡是動土儀式影片 00:00:03.320 --> 00:00:05.340 多方面的原因。 00:00:05.340 --> 00:00:09.910 一、 我要向您介紹的示例中,方差 00:00:09.910 --> 00:00:11.750 這有趣它在其自己的權利。 00:00:11.750 --> 00:00:14.520 我試圖在 HD 中記錄這段影片。 00:00:14.520 --> 00:00:16.370 我希望你能看到它更大、 更清晰 00:00:16.370 --> 00:00:17.030 比以往任何時候。 00:00:17.030 --> 00:00:19.150 但我們將會看到如何,一切進展順利。 00:00:19.150 --> 00:00:22.060 這就是有點實驗,所以和我一起承擔。 00:00:22.060 --> 00:00:25.180 所以,只是之前我們進入的一個樣本,方差,但我 00:00:25.180 --> 00:00:28.090 認爲這是有教育意義,審查方差 00:00:28.090 --> 00:00:28.870 人口。 00:00:28.870 --> 00:00:32.180 我們可以比較一下他們的公式。 00:00:32.180 --> 00:00:34.790 人口 — — 的方差是這希臘 00:00:34.790 --> 00:00:36.100 西格瑪的信。 00:00:36.100 --> 00:00:37.420 小寫西格瑪的平方。 00:00:37.420 --> 00:00:38.500 這意味著,方差。 00:00:38.500 --> 00:00:41.010 我知道這很奇怪,已經一個變量 00:00:41.010 --> 00:00:41.710 有一個正方形。 00:00:41.710 --> 00:00:42.840 你不平方變量。 00:00:42.840 --> 00:00:44.240 這是該變量。 00:00:44.240 --> 00:00:45.780 西格瑪的平方的均方差。 00:00:45.780 --> 00:00:46.840 其實,讓我寫下來。 00:00:46.840 --> 00:00:48.005 這等於方差。 00:00:51.550 --> 00:00:55.430 這就是等於 — — 你把每個數據點--和 00:00:55.430 --> 00:00:58.800 我們打電話給他們 x 子我。 00:00:58.800 --> 00:01:01.700 你把每個數據點的找出它從有多遠 00:01:01.700 --> 00:01:08.750 人口,你平方米,意思是,然後,你取 00:01:08.750 --> 00:01:11.160 所有的那些的平均水平。 00:01:11.160 --> 00:01:12.900 以便您采取平均,你它們求和起來。 00:01:12.900 --> 00:01:14.200 你從我去等於 1。 00:01:14.200 --> 00:01:17.700 所以從第一點,一直到第 n 個點。 00:01:17.700 --> 00:01:19.940 然後,以平均,你它們求和起來,並與 00:01:19.940 --> 00:01:21.970 然後你除以 n。 00:01:21.970 --> 00:01:25.970 所以造成差異的原因是這些平方距離的平均值 00:01:25.970 --> 00:01:27.390 每個點的平均值。 00:01:27.390 --> 00:01:29.700 並讓我給你的直覺,它本質上是 00:01:29.700 --> 00:01:32.920 說,平均而言,每個人大概很遠的地方是 00:01:32.920 --> 00:01:34.420 中間的點。 00:01:34.420 --> 00:01:36.250 這是想到方差的最佳方法。 00:01:36.250 --> 00:01:37.640 現在如果我們處理 — — 這是 00:01:37.640 --> 00:01:39.140 人口、 正確嗎? 00:01:39.140 --> 00:01:42.050 我們說: 如果我們想要弄清楚的方差 00:01:42.050 --> 00:01:44.580 在該國的男人的高地,它將很難 00:01:44.580 --> 00:01:46.480 找出人口的方差。 00:01:46.480 --> 00:01:48.910 你必須去,本質上,測量 00:01:48.910 --> 00:01:49.790 每個人的高度。 00:01:49.790 --> 00:01:51.360 2 億 5000 萬人。 00:01:51.360 --> 00:01:55.080 如果不是只是一些人口或 00:01:55.080 --> 00:01:56.860 完全不可能有一些或數據 00:01:56.860 --> 00:01:57.640 隨機變數。 00:01:57.640 --> 00:01:59.100 我們去到更晚些時候。 00:01:59.100 --> 00:02:02.660 因此很多的時候你真的想要估計這種差異 00:02:02.660 --> 00:02:04.690 通過采取一個樣本的方差。 00:02:04.690 --> 00:02:07.420 相同的方式,你不能均值的人口, 00:02:07.420 --> 00:02:09.570 但也許你想估計它通過獲取 00:02:09.570 --> 00:02:11.064 樣本的意思。 00:02:11.064 --> 00:02:13.890 我們了解到,在這第一次的影片中。 00:02:13.890 --> 00:02:17.520 如果這是 — — 如果這就是整個人口。 00:02:17.520 --> 00:02:20.280 這就是數以百萬計的數據點,或甚至數據點中 00:02:20.280 --> 00:02:21.870 你永遠無法得到,因爲它是的未來 00:02:21.870 --> 00:02:23.290 一個隨機變數。 00:02:23.290 --> 00:02:24.243 這就是人口。 00:02:26.920 --> 00:02:32.390 您可能只想看一個樣本估計的事情。 00:02:32.390 --> 00:02:35.020 這其實是大多數的推斷 00:02:35.020 --> 00:02:36.360 所有有關統計數字。 00:02:36.360 --> 00:02:38.720 找出有關樣本的敘述統計信息 00:02:38.720 --> 00:02:40.890 並使人口有關的推論。 00:02:40.890 --> 00:02:44.610 讓我試試 100 人,如果它似乎對這種藥 00:02:44.610 --> 00:02:46.880 統計學意義的結果,這種藥會 00:02:46.880 --> 00:02:48.850 可能的工作作爲一個整體人口。 00:02:48.850 --> 00:02:49.800 所以,這是它是什麽有關。 00:02:49.800 --> 00:02:51.920 它是很重要的是要了解這一概念 00:02:51.920 --> 00:02:53.580 而不是人口的樣本。 00:02:53.580 --> 00:02:57.510 並能夠找到一個樣本的統計數字, 00:02:57.510 --> 00:03:00.160 大多數情況下,可以描述人口或幫助我們 00:03:00.160 --> 00:03:03.720 估計,他們稱之爲,人口的參數。 00:03:03.720 --> 00:03:07.330 那麽是什麽意思的一個 — — 讓我重寫這些定義。 00:03:07.330 --> 00:03:08.830 人口的意思是什麽? 00:03:08.830 --> 00:03:09.940 我會做的紫色。 00:03:09.940 --> 00:03:11.630 人口的紫色。 00:03:11.630 --> 00:03:13.680 人口的平均值。 00:03:13.680 --> 00:03:19.700 你只是把每個數據點中的人口,x 我。 00:03:19.700 --> 00:03:21.850 你他們總結。 00:03:21.850 --> 00:03:23.830 你開始的第一次的數據點與你去所有 00:03:23.830 --> 00:03:25.620 點到第 n 個數據的方式。 00:03:25.620 --> 00:03:26.740 你除以 n。 00:03:26.740 --> 00:03:27.800 你都對它們進行求和,除以 n。 00:03:27.800 --> 00:03:28.920 這就是中庸。 00:03:28.920 --> 00:03:30.500 那麽你將它插入此公式。 00:03:30.500 --> 00:03:33.060 你可以看到每個點從那中央有多遠 00:03:33.060 --> 00:03:34.270 這意味著從的點。 00:03:34.270 --> 00:03:36.260 你方差。 00:03:36.260 --> 00:03:39.670 現在怎麽樣如果我們做爲一個樣本? 00:03:39.670 --> 00:03:43.350 好吧,如果我們想要估計的人口的平均值 00:03:43.350 --> 00:03:46.600 以某種方式計算意味著一個樣本,最好的事情我可以 00:03:46.600 --> 00:03:49.170 --認爲,這些真的是種工程的公式。 00:03:49.170 --> 00:03:51.140 這些都是人類說: 好吧最好的什麽 00:03:51.140 --> 00:03:51.710 選取的樣本的方法? 00:03:51.710 --> 00:03:54.550 我們能做的好全是樣本的真的拿我們的平均。 00:03:54.550 --> 00:03:56.820 而這正是樣本平均值。 00:03:56.820 --> 00:03:58.920 我們學到了第一個影片中,該符號 — — 00:03:58.920 --> 00:04:00.450 公式是這幾乎完全相同。 00:04:00.450 --> 00:04:01.540 只是表示法的不同。 00:04:01.540 --> 00:04:04.990 而不是編寫畝,你寫過它的一條線的 x。 00:04:04.990 --> 00:04:08.620 樣本平均值是平等的 — — 再一次,你把每個 00:04:08.620 --> 00:04:12.100 現在在該示例中,不在整個人口中的數據點。 00:04:12.100 --> 00:04:16.370 你總結他們從第一項,然後到 00:04:16.370 --> 00:04:17.380 第 n 個,對吧? 00:04:17.380 --> 00:04:20.640 他們說在此示例中有 n 數據點。 00:04:20.640 --> 00:04:23.390 然後您將其劃分的數據點你有數。 00:04:23.390 --> 00:04:24.320 不夠公平。 00:04:24.320 --> 00:04:25.660 這真是同一公式。 00:04:25.660 --> 00:04:27.500 我拿了人口、 平均的方式我說,好吧,如果我 00:04:27.500 --> 00:04:29.590 只是有一個樣本,讓我只是把意思相同的方式。 00:04:29.590 --> 00:04:32.560 這可能是平均的好估計 00:04:32.560 --> 00:04:33.930 人口。 00:04:33.930 --> 00:04:36.340 現在它變得有趣起來,當我們談論方差。 00:04:36.340 --> 00:04:39.250 所以你自然的反應是確定,我有此示例。 00:04:39.250 --> 00:04:43.260 如果我想爲什麽估計人口的方差 00:04:43.260 --> 00:04:45.230 不要只是申請此同一公式基本上 00:04:45.230 --> 00:04:46.150 樣品嗎? 00:04:46.150 --> 00:04:49.330 這樣可能會說 — — 而這是實際樣本變異數。 00:04:49.330 --> 00:04:54.570 他們使用公式 s 平方。 00:04:54.570 --> 00:04:58.220 所以西格瑪是善良的 s 希臘字母等效於。 00:04:58.220 --> 00:04:59.980 所以現在當我們正在處理樣品,我們 00:04:59.980 --> 00:05:01.000 只是寫那裏的 s。 00:05:01.000 --> 00:05:02.320 所以這是樣本變異數。 00:05:02.320 --> 00:05:03.070 讓我寫下來。 00:05:03.070 --> 00:05:03.950 樣本變異數。 00:05:11.860 --> 00:05:15.870 這是 — — 所以我們只是可能會說,嗯,也許采取的好方法 00:05:15.870 --> 00:05:17.340 樣本變異數是做相同的方式。 00:05:17.340 --> 00:05:23.670 讓我們花的每個示例中間點的距離。 00:05:23.670 --> 00:05:26.600 找出我們的樣本平均值從有多遠。 00:05:26.600 --> 00:05:29.230 在這裡我們使用人口平均,但現在我們只使用 00:05:29.230 --> 00:05:31.450 因爲這就是全部的意思是該示例可以告知我們。 00:05:31.450 --> 00:05:33.160 我們不知道什麽是人口平均 00:05:33.160 --> 00:05:35.510 不看整個人口。 00:05:35.510 --> 00:05:36.400 采取的廣場。 00:05:36.400 --> 00:05:38.160 這使得變得積極,它有其他屬性, 00:05:38.160 --> 00:05:40.160 這以後我們就去。 00:05:40.160 --> 00:05:42.730 然後把所有這些平方距離的平均值。 00:05:42.730 --> 00:05:44.970 所以你把它從 — — 你它們求和起來。 00:05:44.970 --> 00:05:47.430 還有 n 他們到一些向上,正確嗎? 00:05:47.430 --> 00:05:48.400 小寫字母 n。 00:05:48.400 --> 00:05:51.820 你除以小寫字母 n。 00:05:51.820 --> 00:05:53.230 你說,這是一個很好的估計。 00:05:53.230 --> 00:05:55.580 也不管這種差異是什麽,那可能是一個很好的估計 00:05:55.580 --> 00:05:56.720 爲整個人口。 00:05:56.720 --> 00:06:00.620 其實這是有些人常常指甚麽時候他們 00:06:00.620 --> 00:06:01.980 談樣本變異數。 00:06:01.980 --> 00:06:05.260 而有時它會實際上被稱爲這。 00:06:05.260 --> 00:06:07.520 他們沒有把小小寫字母 n。 00:06:07.520 --> 00:06:09.840 他們爲什麽這樣做的原因是因爲我們除以 n 和。 00:06:09.840 --> 00:06:11.840 而你說,Sal 這裡的問題是什麽? 00:06:11.840 --> 00:06:14.000 與問題 — — 和我會給你的直覺,因爲這 00:06:14.000 --> 00:06:16.180 其實是用來讓我記住的東西。 00:06:16.180 --> 00:06:19.340 我仍坦率地竭力與 00:06:19.340 --> 00:06:21.530 在它後面的直覺。 00:06:21.530 --> 00:06:24.510 嗯,我有種嚴格的直覺,但更多的 00:06:24.510 --> 00:06:26.950 證明它對自己,這肯定是案件。 00:06:26.950 --> 00:06:28.280 但是想想這樣。 00:06:28.280 --> 00:06:29.905 如果有一串數字,而我就畫 00:06:29.905 --> 00:06:32.740 在這裡號線。 00:06:32.740 --> 00:06:35.740 如果我畫號線在這裡,所以讓我們說你知道- 00:06:35.740 --> 00:06:39.430 並讓我們說在我人口的一串數字。 00:06:39.430 --> 00:06:41.660 現在,讓我們說 — — 我只要隨機把一大堆 00:06:41.660 --> 00:06:44.280 在我的人口中的數字。 00:06:44.280 --> 00:06:45.928 與右邊的這些是比大 00:06:45.928 --> 00:06:46.355 那些向左。 00:06:48.900 --> 00:06:52.990 如果我是采取的其中一個樣本,也許我就帶 — — 00:06:52.990 --> 00:06:54.820 該示例中,它是隨機的。 00:06:54.820 --> 00:06:56.210 實際上,你想要一個隨機樣本。 00:06:56.210 --> 00:06:57.320 你不想以任何方式被扭曲。 00:06:57.320 --> 00:07:02.900 所以也許我采取這一、 這一、 這種, 00:07:02.900 --> 00:07:05.420 和這個,對吧? 00:07:05.420 --> 00:07:07.480 要是采取的這一數字的平均值,然後, 00:07:07.480 --> 00:07:08.460 號碼,該號碼,該號碼。 00:07:08.460 --> 00:07:09.320 它將是地方在中間。 00:07:09.320 --> 00:07:11.010 它可能是某個地方那邊。 00:07:11.010 --> 00:07:13.240 然後如果我想要找出樣本變異數使用 00:07:13.240 --> 00:07:16.780 這一公式,我會說這個距離平方加這確定 00:07:16.780 --> 00:07:21.060 距離平方加此距離平方加上, 00:07:21.060 --> 00:07:23.520 距離的平方和平均他們全力以赴。 00:07:23.520 --> 00:07:24.700 並就此號碼。 00:07:24.700 --> 00:07:27.820 這也許會是一個不錯的近似 00:07:27.820 --> 00:07:30.260 這整個人口的方差。 00:07:30.260 --> 00:07:32.070 人口的平均大概去 00:07:32.070 --> 00:07:33.030 --我不知道。 00:07:33.030 --> 00:07:35.020 它可能是這麽漂亮。 00:07:35.020 --> 00:07:37.150 如果我們采取的所有數據點,平均爲他們, 00:07:37.150 --> 00:07:39.060 也許他們就像這裡的地方。 00:07:39.060 --> 00:07:40.660 然後如果你弄明白超差,它也許會是 00:07:40.660 --> 00:07:43.590 很接近的所有這些行,右平均嗎? 00:07:43.590 --> 00:07:46.810 所有的樣本變異數的距離,對吧? 00:07:46.810 --> 00:07:47.250 不夠公平。 00:07:47.250 --> 00:07:47.900 所以你說,嘿 Sal。 00:07:47.900 --> 00:07:49.710 這現在看起來還不錯。 00:07:49.710 --> 00:07:51.940 但有一個小小的漁獲量。 00:07:51.940 --> 00:07:54.560 如果 — — 是始終是相反的機率 00:07:54.560 --> 00:07:56.990 挑選這些種相當均勻的數字,在我 00:07:56.990 --> 00:08:00.800 示例中,如果我碰巧撿此編號,此編號, 00:08:00.800 --> 00:08:03.920 與這一數字爲我 — — 讓我們說這一數字 00:08:03.920 --> 00:08:05.400 作爲我的樣本嗎? 00:08:05.400 --> 00:08:08.370 你的樣本平均值是無論你的樣本是什麽, 00:08:08.370 --> 00:08:10.210 總是會在它,是吧嗎? 00:08:10.210 --> 00:08:12.960 所以在這種情況下,您的樣本平均值可能就在這裡。 00:08:12.960 --> 00:08:15.010 所有這些號碼,所以你可能會說好的這個數字不是 00:08:15.010 --> 00:08:17.810 這一數字,這個數字並不太遠,距離太遠,然後 00:08:17.810 --> 00:08:19.100 這個數字不太遠。 00:08:19.100 --> 00:08:21.790 所以你樣本變異數,當你做這種方式,可能會 00:08:21.790 --> 00:08:23.610 有點低轉。 00:08:23.610 --> 00:08:26.920 所有這些數字,因爲他們是漂亮 — — 它們, 00:08:26.920 --> 00:08:28.920 幾乎被定義,將會非常接近 00:08:28.920 --> 00:08:30.350 對方的意思。 00:08:30.350 --> 00:08:34.600 但在這種情況下,您的示例種不均衡, 00:08:34.600 --> 00:08:37.980 人口的實際意思是這裡的地方。 00:08:37.980 --> 00:08:40.800 這樣的示例中,如果你實際上有實際差異 00:08:40.800 --> 00:08:43.670 已知的意思 — — 我知道這是所有有點令人困惑。 00:08:43.670 --> 00:08:44.980 如果你真的知道中庸,你會 00:08:44.980 --> 00:08:46.830 有說哦哇。 00:08:46.830 --> 00:08:48.386 你會發現這些距離,將 00:08:48.386 --> 00:08:51.320 已經多得多。 00:08:51.320 --> 00:08:53.640 整點我想說的是,當你帶 00:08:53.640 --> 00:08:58.280 樣品,有一些你樣本平均值是漂亮的機會 00:08:58.280 --> 00:09:00.380 關閉到人口平均,正確嗎? 00:09:00.380 --> 00:09:02.610 也許你的樣本平均值是在這裡和你的人口 00:09:02.610 --> 00:09:03.360 意思是在這裡。 00:09:03.360 --> 00:09:05.770 然後此公式將可能計算出挺好的 00:09:05.770 --> 00:09:07.770 至少給了您的示例數據點和弄 00:09:07.770 --> 00:09:09.280 造成差異的原因是什麽。 00:09:09.280 --> 00:09:14.240 但有一個合理的機會,你們的樣品的意思是 — — 你 00:09:14.240 --> 00:09:16.730 示例總是將會在您的數據樣本,右內嗎? 00:09:16.730 --> 00:09:18.740 它永遠你們的數據樣本中心。 00:09:18.740 --> 00:09:21.470 但它是完全有可能是在總體平均值 00:09:21.470 --> 00:09:22.590 您的數據樣本的外面。 00:09:22.590 --> 00:09:24.750 可能只是你只是碰巧撿那些 00:09:24.750 --> 00:09:28.110 不要包含實際人口平均。 00:09:28.110 --> 00:09:31.670 然後此樣本變異數計算這種方式將和 00:09:31.670 --> 00:09:34.990 實際上低估了實際人口 00:09:34.990 --> 00:09:36.240 方差,正確嗎? 00:09:36.240 --> 00:09:38.230 因爲他們總是會再接近自己的意思 00:09:38.230 --> 00:09:39.960 比起對總體平均值。 00:09:39.960 --> 00:09:43.460 如果你理解,坦白地說,甚至像 10 % 00:09:43.460 --> 00:09:45.770 這一點,你是一個非常先進的統計學生。 00:09:45.770 --> 00:09:49.120 但我說這只是給你,一切希望,一些 00:09:49.120 --> 00:09:53.500 直覺來實現這往往會低估。 00:09:53.500 --> 00:09:57.240 此公式往往會低估實際 00:09:57.240 --> 00:09:59.110 總體方差。 00:09:59.110 --> 00:10:01.420 有一個公式,和這實際上證明更多 00:10:01.420 --> 00:10:04.740 嚴格比我會做,這被認爲是 00:10:04.740 --> 00:10:08.000 好,或者他們會調用它的偏見,估計 00:10:08.000 --> 00:10:09.030 總體方差。 00:10:09.030 --> 00:10:11.390 或不帶偏見的樣本變異數。 00:10:11.390 --> 00:10:14.160 而有時它只是由表示再次平方的 s。 00:10:14.160 --> 00:10:18.930 有時它由減 1 平方此 s n 表示。 00:10:18.930 --> 00:10:20.720 我會告訴你爲什麽。 00:10:20.720 --> 00:10:22.340 它是幾乎同樣的事。 00:10:22.340 --> 00:10:24.730 你采取的每個數據點,搞得他們 00:10:24.730 --> 00:10:28.170 是從樣本平均值。 00:10:28.170 --> 00:10:28.900 你平方他們。 00:10:28.900 --> 00:10:31.830 然後你采取的那些平均平方,除外 00:10:31.830 --> 00:10:33.430 對於一個細微的差別。 00:10:33.430 --> 00:10:35.720 I = 1 到 I = n。 00:10:35.720 --> 00:10:39.370 而不是除以 n,則除以略 00:10:39.370 --> 00:10:41.920 較小的數目。 00:10:41.920 --> 00:10:44.350 你除以 n 減 1。 00:10:44.350 --> 00:10:46.880 因此,當您劃分我減 1 而不是除以 n 00:10:46.880 --> 00:10:49.590 n,你要在這裡稍大一些。 00:10:49.590 --> 00:10:51.060 原來這其實是 00:10:51.060 --> 00:10:52.260 很多更準確的估計。 00:10:52.260 --> 00:10:54.810 一天我要去至少寫到一個計算機程序 00:10:54.810 --> 00:10:57.430 實驗證明它對我自己,這是 00:10:57.430 --> 00:11:01.750 更好的總體方差估計值。 00:11:01.750 --> 00:11:03.430 你會計算它同樣的方式。 00:11:03.430 --> 00:11:05.270 你只是除以 n 減 1。 00:11:05.270 --> 00:11:07.450 其他的方式來思考它 — — 事實上,沒有。 00:11:07.450 --> 00:11:08.340 我失去了的時間。 00:11:08.340 --> 00:11:09.500 我現在就會離開你。 00:11:09.500 --> 00:11:10.710 然後在接下來的影片中,我們會做幾個 00:11:10.710 --> 00:11:12.590 這樣你就不必太不知所措的計算 00:11:12.590 --> 00:11:13.270 這些想法。 00:11:13.270 --> 00:11:14.810 因爲我們的身體越來越有點抽象。 00:11:14.810 --> 00:11:16.660 下一個影片在見到你。