1 00:00:01,100 --> 00:00:03,320 這段影片在這裡是動土儀式影片 2 00:00:03,320 --> 00:00:05,340 多方面的原因。 3 00:00:05,340 --> 00:00:09,910 一、 我要向您介紹的示例中,方差 4 00:00:09,910 --> 00:00:11,750 這有趣它在其自己的權利。 5 00:00:11,750 --> 00:00:14,520 我試圖在 HD 中記錄這段影片。 6 00:00:14,520 --> 00:00:16,370 我希望你能看到它更大、 更清晰 7 00:00:16,370 --> 00:00:17,030 比以往任何時候。 8 00:00:17,030 --> 00:00:19,150 但我們將會看到如何,一切進展順利。 9 00:00:19,150 --> 00:00:22,060 這就是有點實驗,所以和我一起承擔。 10 00:00:22,060 --> 00:00:25,180 所以,只是之前我們進入的一個樣本,方差,但我 11 00:00:25,180 --> 00:00:28,090 認爲這是有教育意義,審查方差 12 00:00:28,090 --> 00:00:28,870 人口。 13 00:00:28,870 --> 00:00:32,180 我們可以比較一下他們的公式。 14 00:00:32,180 --> 00:00:34,790 人口 — — 的方差是這希臘 15 00:00:34,790 --> 00:00:36,100 西格瑪的信。 16 00:00:36,100 --> 00:00:37,420 小寫西格瑪的平方。 17 00:00:37,420 --> 00:00:38,500 這意味著,方差。 18 00:00:38,500 --> 00:00:41,010 我知道這很奇怪,已經一個變量 19 00:00:41,010 --> 00:00:41,710 有一個正方形。 20 00:00:41,710 --> 00:00:42,840 你不平方變量。 21 00:00:42,840 --> 00:00:44,240 這是該變量。 22 00:00:44,240 --> 00:00:45,780 西格瑪的平方的均方差。 23 00:00:45,780 --> 00:00:46,840 其實,讓我寫下來。 24 00:00:46,840 --> 00:00:48,005 這等於方差。 25 00:00:51,550 --> 00:00:55,430 這就是等於 — — 你把每個數據點--和 26 00:00:55,430 --> 00:00:58,800 我們打電話給他們 x 子我。 27 00:00:58,800 --> 00:01:01,700 你把每個數據點的找出它從有多遠 28 00:01:01,700 --> 00:01:08,750 人口,你平方米,意思是,然後,你取 29 00:01:08,750 --> 00:01:11,160 所有的那些的平均水平。 30 00:01:11,160 --> 00:01:12,900 以便您采取平均,你它們求和起來。 31 00:01:12,900 --> 00:01:14,200 你從我去等於 1。 32 00:01:14,200 --> 00:01:17,700 所以從第一點,一直到第 n 個點。 33 00:01:17,700 --> 00:01:19,940 然後,以平均,你它們求和起來,並與 34 00:01:19,940 --> 00:01:21,970 然後你除以 n。 35 00:01:21,970 --> 00:01:25,970 所以造成差異的原因是這些平方距離的平均值 36 00:01:25,970 --> 00:01:27,390 每個點的平均值。 37 00:01:27,390 --> 00:01:29,700 並讓我給你的直覺,它本質上是 38 00:01:29,700 --> 00:01:32,920 說,平均而言,每個人大概很遠的地方是 39 00:01:32,920 --> 00:01:34,420 中間的點。 40 00:01:34,420 --> 00:01:36,250 這是想到方差的最佳方法。 41 00:01:36,250 --> 00:01:37,640 現在如果我們處理 — — 這是 42 00:01:37,640 --> 00:01:39,140 人口、 正確嗎? 43 00:01:39,140 --> 00:01:42,050 我們說: 如果我們想要弄清楚的方差 44 00:01:42,050 --> 00:01:44,580 在該國的男人的高地,它將很難 45 00:01:44,580 --> 00:01:46,480 找出人口的方差。 46 00:01:46,480 --> 00:01:48,910 你必須去,本質上,測量 47 00:01:48,910 --> 00:01:49,790 每個人的高度。 48 00:01:49,790 --> 00:01:51,360 2 億 5000 萬人。 49 00:01:51,360 --> 00:01:55,080 如果不是只是一些人口或 50 00:01:55,080 --> 00:01:56,860 完全不可能有一些或數據 51 00:01:56,860 --> 00:01:57,640 隨機變數。 52 00:01:57,640 --> 00:01:59,100 我們去到更晚些時候。 53 00:01:59,100 --> 00:02:02,660 因此很多的時候你真的想要估計這種差異 54 00:02:02,660 --> 00:02:04,690 通過采取一個樣本的方差。 55 00:02:04,690 --> 00:02:07,420 相同的方式,你不能均值的人口, 56 00:02:07,420 --> 00:02:09,570 但也許你想估計它通過獲取 57 00:02:09,570 --> 00:02:11,064 樣本的意思。 58 00:02:11,064 --> 00:02:13,890 我們了解到,在這第一次的影片中。 59 00:02:13,890 --> 00:02:17,520 如果這是 — — 如果這就是整個人口。 60 00:02:17,520 --> 00:02:20,280 這就是數以百萬計的數據點,或甚至數據點中 61 00:02:20,280 --> 00:02:21,870 你永遠無法得到,因爲它是的未來 62 00:02:21,870 --> 00:02:23,290 一個隨機變數。 63 00:02:23,290 --> 00:02:24,243 這就是人口。 64 00:02:26,920 --> 00:02:32,390 您可能只想看一個樣本估計的事情。 65 00:02:32,390 --> 00:02:35,020 這其實是大多數的推斷 66 00:02:35,020 --> 00:02:36,360 所有有關統計數字。 67 00:02:36,360 --> 00:02:38,720 找出有關樣本的敘述統計信息 68 00:02:38,720 --> 00:02:40,890 並使人口有關的推論。 69 00:02:40,890 --> 00:02:44,610 讓我試試 100 人,如果它似乎對這種藥 70 00:02:44,610 --> 00:02:46,880 統計學意義的結果,這種藥會 71 00:02:46,880 --> 00:02:48,850 可能的工作作爲一個整體人口。 72 00:02:48,850 --> 00:02:49,800 所以,這是它是什麽有關。 73 00:02:49,800 --> 00:02:51,920 它是很重要的是要了解這一概念 74 00:02:51,920 --> 00:02:53,580 而不是人口的樣本。 75 00:02:53,580 --> 00:02:57,510 並能夠找到一個樣本的統計數字, 76 00:02:57,510 --> 00:03:00,160 大多數情況下,可以描述人口或幫助我們 77 00:03:00,160 --> 00:03:03,720 估計,他們稱之爲,人口的參數。 78 00:03:03,720 --> 00:03:07,330 那麽是什麽意思的一個 — — 讓我重寫這些定義。 79 00:03:07,330 --> 00:03:08,830 人口的意思是什麽? 80 00:03:08,830 --> 00:03:09,940 我會做的紫色。 81 00:03:09,940 --> 00:03:11,630 人口的紫色。 82 00:03:11,630 --> 00:03:13,680 人口的平均值。 83 00:03:13,680 --> 00:03:19,700 你只是把每個數據點中的人口,x 我。 84 00:03:19,700 --> 00:03:21,850 你他們總結。 85 00:03:21,850 --> 00:03:23,830 你開始的第一次的數據點與你去所有 86 00:03:23,830 --> 00:03:25,620 點到第 n 個數據的方式。 87 00:03:25,620 --> 00:03:26,740 你除以 n。 88 00:03:26,740 --> 00:03:27,800 你都對它們進行求和,除以 n。 89 00:03:27,800 --> 00:03:28,920 這就是中庸。 90 00:03:28,920 --> 00:03:30,500 那麽你將它插入此公式。 91 00:03:30,500 --> 00:03:33,060 你可以看到每個點從那中央有多遠 92 00:03:33,060 --> 00:03:34,270 這意味著從的點。 93 00:03:34,270 --> 00:03:36,260 你方差。 94 00:03:36,260 --> 00:03:39,670 現在怎麽樣如果我們做爲一個樣本? 95 00:03:39,670 --> 00:03:43,350 好吧,如果我們想要估計的人口的平均值 96 00:03:43,350 --> 00:03:46,600 以某種方式計算意味著一個樣本,最好的事情我可以 97 00:03:46,600 --> 00:03:49,170 --認爲,這些真的是種工程的公式。 98 00:03:49,170 --> 00:03:51,140 這些都是人類說: 好吧最好的什麽 99 00:03:51,140 --> 00:03:51,710 選取的樣本的方法? 100 00:03:51,710 --> 00:03:54,550 我們能做的好全是樣本的真的拿我們的平均。 101 00:03:54,550 --> 00:03:56,820 而這正是樣本平均值。 102 00:03:56,820 --> 00:03:58,920 我們學到了第一個影片中,該符號 — — 103 00:03:58,920 --> 00:04:00,450 公式是這幾乎完全相同。 104 00:04:00,450 --> 00:04:01,540 只是表示法的不同。 105 00:04:01,540 --> 00:04:04,990 而不是編寫畝,你寫過它的一條線的 x。 106 00:04:04,990 --> 00:04:08,620 樣本平均值是平等的 — — 再一次,你把每個 107 00:04:08,620 --> 00:04:12,100 現在在該示例中,不在整個人口中的數據點。 108 00:04:12,100 --> 00:04:16,370 你總結他們從第一項,然後到 109 00:04:16,370 --> 00:04:17,380 第 n 個,對吧? 110 00:04:17,380 --> 00:04:20,640 他們說在此示例中有 n 數據點。 111 00:04:20,640 --> 00:04:23,390 然後您將其劃分的數據點你有數。 112 00:04:23,390 --> 00:04:24,320 不夠公平。 113 00:04:24,320 --> 00:04:25,660 這真是同一公式。 114 00:04:25,660 --> 00:04:27,500 我拿了人口、 平均的方式我說,好吧,如果我 115 00:04:27,500 --> 00:04:29,590 只是有一個樣本,讓我只是把意思相同的方式。 116 00:04:29,590 --> 00:04:32,560 這可能是平均的好估計 117 00:04:32,560 --> 00:04:33,930 人口。 118 00:04:33,930 --> 00:04:36,340 現在它變得有趣起來,當我們談論方差。 119 00:04:36,340 --> 00:04:39,250 所以你自然的反應是確定,我有此示例。 120 00:04:39,250 --> 00:04:43,260 如果我想爲什麽估計人口的方差 121 00:04:43,260 --> 00:04:45,230 不要只是申請此同一公式基本上 122 00:04:45,230 --> 00:04:46,150 樣品嗎? 123 00:04:46,150 --> 00:04:49,330 這樣可能會說 — — 而這是實際樣本變異數。 124 00:04:49,330 --> 00:04:54,570 他們使用公式 s 平方。 125 00:04:54,570 --> 00:04:58,220 所以西格瑪是善良的 s 希臘字母等效於。 126 00:04:58,220 --> 00:04:59,980 所以現在當我們正在處理樣品,我們 127 00:04:59,980 --> 00:05:01,000 只是寫那裏的 s。 128 00:05:01,000 --> 00:05:02,320 所以這是樣本變異數。 129 00:05:02,320 --> 00:05:03,070 讓我寫下來。 130 00:05:03,070 --> 00:05:03,950 樣本變異數。 131 00:05:11,860 --> 00:05:15,870 這是 — — 所以我們只是可能會說,嗯,也許采取的好方法 132 00:05:15,870 --> 00:05:17,340 樣本變異數是做相同的方式。 133 00:05:17,340 --> 00:05:23,670 讓我們花的每個示例中間點的距離。 134 00:05:23,670 --> 00:05:26,600 找出我們的樣本平均值從有多遠。 135 00:05:26,600 --> 00:05:29,230 在這裡我們使用人口平均,但現在我們只使用 136 00:05:29,230 --> 00:05:31,450 因爲這就是全部的意思是該示例可以告知我們。 137 00:05:31,450 --> 00:05:33,160 我們不知道什麽是人口平均 138 00:05:33,160 --> 00:05:35,510 不看整個人口。 139 00:05:35,510 --> 00:05:36,400 采取的廣場。 140 00:05:36,400 --> 00:05:38,160 這使得變得積極,它有其他屬性, 141 00:05:38,160 --> 00:05:40,160 這以後我們就去。 142 00:05:40,160 --> 00:05:42,730 然後把所有這些平方距離的平均值。 143 00:05:42,730 --> 00:05:44,970 所以你把它從 — — 你它們求和起來。 144 00:05:44,970 --> 00:05:47,430 還有 n 他們到一些向上,正確嗎? 145 00:05:47,430 --> 00:05:48,400 小寫字母 n。 146 00:05:48,400 --> 00:05:51,820 你除以小寫字母 n。 147 00:05:51,820 --> 00:05:53,230 你說,這是一個很好的估計。 148 00:05:53,230 --> 00:05:55,580 也不管這種差異是什麽,那可能是一個很好的估計 149 00:05:55,580 --> 00:05:56,720 爲整個人口。 150 00:05:56,720 --> 00:06:00,620 其實這是有些人常常指甚麽時候他們 151 00:06:00,620 --> 00:06:01,980 談樣本變異數。 152 00:06:01,980 --> 00:06:05,260 而有時它會實際上被稱爲這。 153 00:06:05,260 --> 00:06:07,520 他們沒有把小小寫字母 n。 154 00:06:07,520 --> 00:06:09,840 他們爲什麽這樣做的原因是因爲我們除以 n 和。 155 00:06:09,840 --> 00:06:11,840 而你說,Sal 這裡的問題是什麽? 156 00:06:11,840 --> 00:06:14,000 與問題 — — 和我會給你的直覺,因爲這 157 00:06:14,000 --> 00:06:16,180 其實是用來讓我記住的東西。 158 00:06:16,180 --> 00:06:19,340 我仍坦率地竭力與 159 00:06:19,340 --> 00:06:21,530 在它後面的直覺。 160 00:06:21,530 --> 00:06:24,510 嗯,我有種嚴格的直覺,但更多的 161 00:06:24,510 --> 00:06:26,950 證明它對自己,這肯定是案件。 162 00:06:26,950 --> 00:06:28,280 但是想想這樣。 163 00:06:28,280 --> 00:06:29,905 如果有一串數字,而我就畫 164 00:06:29,905 --> 00:06:32,740 在這裡號線。 165 00:06:32,740 --> 00:06:35,740 如果我畫號線在這裡,所以讓我們說你知道- 166 00:06:35,740 --> 00:06:39,430 並讓我們說在我人口的一串數字。 167 00:06:39,430 --> 00:06:41,660 現在,讓我們說 — — 我只要隨機把一大堆 168 00:06:41,660 --> 00:06:44,280 在我的人口中的數字。 169 00:06:44,280 --> 00:06:45,928 與右邊的這些是比大 170 00:06:45,928 --> 00:06:46,355 那些向左。 171 00:06:48,900 --> 00:06:52,990 如果我是采取的其中一個樣本,也許我就帶 — — 172 00:06:52,990 --> 00:06:54,820 該示例中,它是隨機的。 173 00:06:54,820 --> 00:06:56,210 實際上,你想要一個隨機樣本。 174 00:06:56,210 --> 00:06:57,320 你不想以任何方式被扭曲。 175 00:06:57,320 --> 00:07:02,900 所以也許我采取這一、 這一、 這種, 176 00:07:02,900 --> 00:07:05,420 和這個,對吧? 177 00:07:05,420 --> 00:07:07,480 要是采取的這一數字的平均值,然後, 178 00:07:07,480 --> 00:07:08,460 號碼,該號碼,該號碼。 179 00:07:08,460 --> 00:07:09,320 它將是地方在中間。 180 00:07:09,320 --> 00:07:11,010 它可能是某個地方那邊。 181 00:07:11,010 --> 00:07:13,240 然後如果我想要找出樣本變異數使用 182 00:07:13,240 --> 00:07:16,780 這一公式,我會說這個距離平方加這確定 183 00:07:16,780 --> 00:07:21,060 距離平方加此距離平方加上, 184 00:07:21,060 --> 00:07:23,520 距離的平方和平均他們全力以赴。 185 00:07:23,520 --> 00:07:24,700 並就此號碼。 186 00:07:24,700 --> 00:07:27,820 這也許會是一個不錯的近似 187 00:07:27,820 --> 00:07:30,260 這整個人口的方差。 188 00:07:30,260 --> 00:07:32,070 人口的平均大概去 189 00:07:32,070 --> 00:07:33,030 --我不知道。 190 00:07:33,030 --> 00:07:35,020 它可能是這麽漂亮。 191 00:07:35,020 --> 00:07:37,150 如果我們采取的所有數據點,平均爲他們, 192 00:07:37,150 --> 00:07:39,060 也許他們就像這裡的地方。 193 00:07:39,060 --> 00:07:40,660 然後如果你弄明白超差,它也許會是 194 00:07:40,660 --> 00:07:43,590 很接近的所有這些行,右平均嗎? 195 00:07:43,590 --> 00:07:46,810 所有的樣本變異數的距離,對吧? 196 00:07:46,810 --> 00:07:47,250 不夠公平。 197 00:07:47,250 --> 00:07:47,900 所以你說,嘿 Sal。 198 00:07:47,900 --> 00:07:49,710 這現在看起來還不錯。 199 00:07:49,710 --> 00:07:51,940 但有一個小小的漁獲量。 200 00:07:51,940 --> 00:07:54,560 如果 — — 是始終是相反的機率 201 00:07:54,560 --> 00:07:56,990 挑選這些種相當均勻的數字,在我 202 00:07:56,990 --> 00:08:00,800 示例中,如果我碰巧撿此編號,此編號, 203 00:08:00,800 --> 00:08:03,920 與這一數字爲我 — — 讓我們說這一數字 204 00:08:03,920 --> 00:08:05,400 作爲我的樣本嗎? 205 00:08:05,400 --> 00:08:08,370 你的樣本平均值是無論你的樣本是什麽, 206 00:08:08,370 --> 00:08:10,210 總是會在它,是吧嗎? 207 00:08:10,210 --> 00:08:12,960 所以在這種情況下,您的樣本平均值可能就在這裡。 208 00:08:12,960 --> 00:08:15,010 所有這些號碼,所以你可能會說好的這個數字不是 209 00:08:15,010 --> 00:08:17,810 這一數字,這個數字並不太遠,距離太遠,然後 210 00:08:17,810 --> 00:08:19,100 這個數字不太遠。 211 00:08:19,100 --> 00:08:21,790 所以你樣本變異數,當你做這種方式,可能會 212 00:08:21,790 --> 00:08:23,610 有點低轉。 213 00:08:23,610 --> 00:08:26,920 所有這些數字,因爲他們是漂亮 — — 它們, 214 00:08:26,920 --> 00:08:28,920 幾乎被定義,將會非常接近 215 00:08:28,920 --> 00:08:30,350 對方的意思。 216 00:08:30,350 --> 00:08:34,600 但在這種情況下,您的示例種不均衡, 217 00:08:34,600 --> 00:08:37,980 人口的實際意思是這裡的地方。 218 00:08:37,980 --> 00:08:40,800 這樣的示例中,如果你實際上有實際差異 219 00:08:40,800 --> 00:08:43,670 已知的意思 — — 我知道這是所有有點令人困惑。 220 00:08:43,670 --> 00:08:44,980 如果你真的知道中庸,你會 221 00:08:44,980 --> 00:08:46,830 有說哦哇。 222 00:08:46,830 --> 00:08:48,386 你會發現這些距離,將 223 00:08:48,386 --> 00:08:51,320 已經多得多。 224 00:08:51,320 --> 00:08:53,640 整點我想說的是,當你帶 225 00:08:53,640 --> 00:08:58,280 樣品,有一些你樣本平均值是漂亮的機會 226 00:08:58,280 --> 00:09:00,380 關閉到人口平均,正確嗎? 227 00:09:00,380 --> 00:09:02,610 也許你的樣本平均值是在這裡和你的人口 228 00:09:02,610 --> 00:09:03,360 意思是在這裡。 229 00:09:03,360 --> 00:09:05,770 然後此公式將可能計算出挺好的 230 00:09:05,770 --> 00:09:07,770 至少給了您的示例數據點和弄 231 00:09:07,770 --> 00:09:09,280 造成差異的原因是什麽。 232 00:09:09,280 --> 00:09:14,240 但有一個合理的機會,你們的樣品的意思是 — — 你 233 00:09:14,240 --> 00:09:16,730 示例總是將會在您的數據樣本,右內嗎? 234 00:09:16,730 --> 00:09:18,740 它永遠你們的數據樣本中心。 235 00:09:18,740 --> 00:09:21,470 但它是完全有可能是在總體平均值 236 00:09:21,470 --> 00:09:22,590 您的數據樣本的外面。 237 00:09:22,590 --> 00:09:24,750 可能只是你只是碰巧撿那些 238 00:09:24,750 --> 00:09:28,110 不要包含實際人口平均。 239 00:09:28,110 --> 00:09:31,670 然後此樣本變異數計算這種方式將和 240 00:09:31,670 --> 00:09:34,990 實際上低估了實際人口 241 00:09:34,990 --> 00:09:36,240 方差,正確嗎? 242 00:09:36,240 --> 00:09:38,230 因爲他們總是會再接近自己的意思 243 00:09:38,230 --> 00:09:39,960 比起對總體平均值。 244 00:09:39,960 --> 00:09:43,460 如果你理解,坦白地說,甚至像 10 % 245 00:09:43,460 --> 00:09:45,770 這一點,你是一個非常先進的統計學生。 246 00:09:45,770 --> 00:09:49,120 但我說這只是給你,一切希望,一些 247 00:09:49,120 --> 00:09:53,500 直覺來實現這往往會低估。 248 00:09:53,500 --> 00:09:57,240 此公式往往會低估實際 249 00:09:57,240 --> 00:09:59,110 總體方差。 250 00:09:59,110 --> 00:10:01,420 有一個公式,和這實際上證明更多 251 00:10:01,420 --> 00:10:04,740 嚴格比我會做,這被認爲是 252 00:10:04,740 --> 00:10:08,000 好,或者他們會調用它的偏見,估計 253 00:10:08,000 --> 00:10:09,030 總體方差。 254 00:10:09,030 --> 00:10:11,390 或不帶偏見的樣本變異數。 255 00:10:11,390 --> 00:10:14,160 而有時它只是由表示再次平方的 s。 256 00:10:14,160 --> 00:10:18,930 有時它由減 1 平方此 s n 表示。 257 00:10:18,930 --> 00:10:20,720 我會告訴你爲什麽。 258 00:10:20,720 --> 00:10:22,340 它是幾乎同樣的事。 259 00:10:22,340 --> 00:10:24,730 你采取的每個數據點,搞得他們 260 00:10:24,730 --> 00:10:28,170 是從樣本平均值。 261 00:10:28,170 --> 00:10:28,900 你平方他們。 262 00:10:28,900 --> 00:10:31,830 然後你采取的那些平均平方,除外 263 00:10:31,830 --> 00:10:33,430 對於一個細微的差別。 264 00:10:33,430 --> 00:10:35,720 I = 1 到 I = n。 265 00:10:35,720 --> 00:10:39,370 而不是除以 n,則除以略 266 00:10:39,370 --> 00:10:41,920 較小的數目。 267 00:10:41,920 --> 00:10:44,350 你除以 n 減 1。 268 00:10:44,350 --> 00:10:46,880 因此,當您劃分我減 1 而不是除以 n 269 00:10:46,880 --> 00:10:49,590 n,你要在這裡稍大一些。 270 00:10:49,590 --> 00:10:51,060 原來這其實是 271 00:10:51,060 --> 00:10:52,260 很多更準確的估計。 272 00:10:52,260 --> 00:10:54,810 一天我要去至少寫到一個計算機程序 273 00:10:54,810 --> 00:10:57,430 實驗證明它對我自己,這是 274 00:10:57,430 --> 00:11:01,750 更好的總體方差估計值。 275 00:11:01,750 --> 00:11:03,430 你會計算它同樣的方式。 276 00:11:03,430 --> 00:11:05,270 你只是除以 n 減 1。 277 00:11:05,270 --> 00:11:07,450 其他的方式來思考它 — — 事實上,沒有。 278 00:11:07,450 --> 00:11:08,340 我失去了的時間。 279 00:11:08,340 --> 00:11:09,500 我現在就會離開你。 280 00:11:09,500 --> 00:11:10,710 然後在接下來的影片中,我們會做幾個 281 00:11:10,710 --> 00:11:12,590 這樣你就不必太不知所措的計算 282 00:11:12,590 --> 00:11:13,270 這些想法。 283 00:11:13,270 --> 00:11:14,810 因爲我們的身體越來越有點抽象。 284 00:11:14,810 --> 00:11:16,660 下一個影片在見到你。