0:00:01.100,0:00:03.320 这段视频在这里是动土仪式视频 0:00:03.320,0:00:05.340 多方面的原因。 0:00:05.340,0:00:09.910 一、 我要向您介绍的示例中,方差 0:00:09.910,0:00:11.750 这有趣它在其自己的权利。 0:00:11.750,0:00:14.520 我试图在 HD 中记录这段视频。 0:00:14.520,0:00:16.370 我希望你能看到它更大、 更清晰 0:00:16.370,0:00:17.030 比以往任何时候。 0:00:17.030,0:00:19.150 但我们将会看到如何,一切进展顺利。 0:00:19.150,0:00:22.060 这就是有点实验,所以和我一起承担。 0:00:22.060,0:00:25.180 所以,只是之前我们进入的一个样本,方差,但我 0:00:25.180,0:00:28.090 认为这是有教育意义,审查方差 0:00:28.090,0:00:28.870 人口。 0:00:28.870,0:00:32.180 我们可以比较一下他们的公式。 0:00:32.180,0:00:34.790 人口 — — 的方差是这希腊 0:00:34.790,0:00:36.100 西格玛的信。 0:00:36.100,0:00:37.420 小写西格玛的平方。 0:00:37.420,0:00:38.500 这意味着,方差。 0:00:38.500,0:00:41.010 我知道这很奇怪,已经一个变量 0:00:41.010,0:00:41.710 有一个正方形。 0:00:41.710,0:00:42.840 你不平方变量。 0:00:42.840,0:00:44.240 这是该变量。 0:00:44.240,0:00:45.780 西格玛的平方的均方差。 0:00:45.780,0:00:46.840 其实,让我写下来。 0:00:46.840,0:00:48.005 这等于方差。 0:00:51.550,0:00:55.430 这就是等于 — — 你把每个数据点--和 0:00:55.430,0:00:58.800 我们打电话给他们 x 子我。 0:00:58.800,0:01:01.700 你把每个数据点的找出它从有多远 0:01:01.700,0:01:08.750 人口,你平方米,意思是,然后,你取 0:01:08.750,0:01:11.160 所有的那些的平均水平。 0:01:11.160,0:01:12.900 以便您采取平均,你它们求和起来。 0:01:12.900,0:01:14.200 你从我去等于 1。 0:01:14.200,0:01:17.700 所以从第一点,一直到第 n 个点。 0:01:17.700,0:01:19.940 然后,以平均,你它们求和起来,并与 0:01:19.940,0:01:21.970 然后你除以 n。 0:01:21.970,0:01:25.970 所以造成差异的原因是这些平方距离的平均值 0:01:25.970,0:01:27.390 每个点的平均值。 0:01:27.390,0:01:29.700 并让我给你的直觉,它本质上是 0:01:29.700,0:01:32.920 说,平均而言,每个人大概很远的地方是 0:01:32.920,0:01:34.420 中间的点。 0:01:34.420,0:01:36.250 这是想到方差的最佳方法。 0:01:36.250,0:01:37.640 现在如果我们处理 — — 这是 0:01:37.640,0:01:39.140 人口、 正确吗? 0:01:39.140,0:01:42.050 我们说: 如果我们想要弄清楚的方差 0:01:42.050,0:01:44.580 在该国的男人的高地,它将很难 0:01:44.580,0:01:46.480 找出人口的方差。 0:01:46.480,0:01:48.910 你必须去,本质上,测量 0:01:48.910,0:01:49.790 每个人的高度。 0:01:49.790,0:01:51.360 2 亿 5000 万人。 0:01:51.360,0:01:55.080 如果不是只是一些人口或 0:01:55.080,0:01:56.860 完全不可能有一些或数据 0:01:56.860,0:01:57.640 随机变量。 0:01:57.640,0:01:59.100 我们去到更晚些时候。 0:01:59.100,0:02:02.660 因此很多的时候你真的想要估计这种差异 0:02:02.660,0:02:04.690 通过采取一个样本的方差。 0:02:04.690,0:02:07.420 相同的方式,你不能均值的人口, 0:02:07.420,0:02:09.570 但也许你想估计它通过获取 0:02:09.570,0:02:11.064 样本的意思。 0:02:11.064,0:02:13.890 我们了解到,在这第一次的视频中。 0:02:13.890,0:02:17.520 如果这是 — — 如果这就是整个人口。 0:02:17.520,0:02:20.280 这就是数以百万计的数据点,或甚至数据点中 0:02:20.280,0:02:21.870 你永远无法得到,因为它是的未来 0:02:21.870,0:02:23.290 一个随机变量。 0:02:23.290,0:02:24.243 这就是人口。 0:02:26.920,0:02:32.390 您可能只想看一个样本估计的事情。 0:02:32.390,0:02:35.020 这其实是大多数的推断 0:02:35.020,0:02:36.360 所有有关统计数字。 0:02:36.360,0:02:38.720 找出有关样本的描述性统计信息 0:02:38.720,0:02:40.890 并使人口有关的推论。 0:02:40.890,0:02:44.610 让我试试 100 人,如果它似乎对这种药 0:02:44.610,0:02:46.880 统计学意义的结果,这种药会 0:02:46.880,0:02:48.850 可能的工作作为一个整体人口。 0:02:48.850,0:02:49.800 所以,这是它是什么有关。 0:02:49.800,0:02:51.920 它是很重要的是要了解这一概念 0:02:51.920,0:02:53.580 而不是人口的样本。 0:02:53.580,0:02:57.510 并能够找到一个样本的统计数字, 0:02:57.510,0:03:00.160 大多数情况下,可以描述人口或帮助我们 0:03:00.160,0:03:03.720 估计,他们称之为,人口的参数。 0:03:03.720,0:03:07.330 那么是什么意思的一个 — — 让我重写这些定义。 0:03:07.330,0:03:08.830 人口的意思是什么? 0:03:08.830,0:03:09.940 我会做的紫色。 0:03:09.940,0:03:11.630 人口的紫色。 0:03:11.630,0:03:13.680 人口的平均值。 0:03:13.680,0:03:19.700 你只是把每个数据点中的人口,x 我。 0:03:19.700,0:03:21.850 你他们总结。 0:03:21.850,0:03:23.830 你开始的第一次的数据点与你去所有 0:03:23.830,0:03:25.620 点到第 n 个数据的方式。 0:03:25.620,0:03:26.740 你除以 n。 0:03:26.740,0:03:27.800 你都对它们进行求和,除以 n。 0:03:27.800,0:03:28.920 这就是中庸。 0:03:28.920,0:03:30.500 那么你将它插入此公式。 0:03:30.500,0:03:33.060 你可以看到每个点从那中央有多远 0:03:33.060,0:03:34.270 这意味着从的点。 0:03:34.270,0:03:36.260 你方差。 0:03:36.260,0:03:39.670 现在怎么样如果我们做为一个样本? 0:03:39.670,0:03:43.350 好吧,如果我们想要估计的人口的平均值 0:03:43.350,0:03:46.600 以某种方式计算意味着一个样本,最好的事情我可以 0:03:46.600,0:03:49.170 --认为,这些真的是种工程的公式。 0:03:49.170,0:03:51.140 这些都是人类说: 好吧最好的什么 0:03:51.140,0:03:51.710 选取的样本的方法? 0:03:51.710,0:03:54.550 我们能做的好全是样本的真的拿我们的平均。 0:03:54.550,0:03:56.820 而这正是样本平均值。 0:03:56.820,0:03:58.920 我们学到了第一个视频中,该符号 — — 0:03:58.920,0:04:00.450 公式是这几乎完全相同。 0:04:00.450,0:04:01.540 只是表示法的不同。 0:04:01.540,0:04:04.990 而不是编写亩,你写过它的一条线的 x。 0:04:04.990,0:04:08.620 样本平均值是平等的 — — 再一次,你把每个 0:04:08.620,0:04:12.100 现在在该示例中,不在整个人口中的数据点。 0:04:12.100,0:04:16.370 你总结他们从第一项,然后到 0:04:16.370,0:04:17.380 第 n 个,对吧? 0:04:17.380,0:04:20.640 他们说在此示例中有 n 数据点。 0:04:20.640,0:04:23.390 然后您将其划分的数据点你有数。 0:04:23.390,0:04:24.320 不够公平。 0:04:24.320,0:04:25.660 这真是同一公式。 0:04:25.660,0:04:27.500 我拿了人口、 平均的方式我说,好吧,如果我 0:04:27.500,0:04:29.590 只是有一个样本,让我只是把意思相同的方式。 0:04:29.590,0:04:32.560 这可能是平均的好估计 0:04:32.560,0:04:33.930 人口。 0:04:33.930,0:04:36.340 现在它变得有趣起来,当我们谈论方差。 0:04:36.340,0:04:39.250 所以你自然的反应是确定,我有此示例。 0:04:39.250,0:04:43.260 如果我想为什么估计人口的方差 0:04:43.260,0:04:45.230 不要只是申请此同一公式基本上 0:04:45.230,0:04:46.150 样品吗? 0:04:46.150,0:04:49.330 这样可能会说 — — 而这是实际样本方差。 0:04:49.330,0:04:54.570 他们使用公式 s 平方。 0:04:54.570,0:04:58.220 所以西格玛是善良的 s 希腊字母等效于。 0:04:58.220,0:04:59.980 所以现在当我们正在处理样品,我们 0:04:59.980,0:05:01.000 只是写那里的 s。 0:05:01.000,0:05:02.320 所以这是样本方差。 0:05:02.320,0:05:03.070 让我写下来。 0:05:03.070,0:05:03.950 样本方差。 0:05:11.860,0:05:15.870 这是 — — 所以我们只是可能会说,嗯,也许采取的好方法 0:05:15.870,0:05:17.340 样本方差是做相同的方式。 0:05:17.340,0:05:23.670 让我们花的每个示例中点的距离。 0:05:23.670,0:05:26.600 找出我们的样本平均值从有多远。 0:05:26.600,0:05:29.230 在这里我们使用人口平均,但现在我们只使用 0:05:29.230,0:05:31.450 因为这就是全部的意思是该示例可以告知我们。 0:05:31.450,0:05:33.160 我们不知道什么是人口平均 0:05:33.160,0:05:35.510 不看整个人口。 0:05:35.510,0:05:36.400 采取的广场。 0:05:36.400,0:05:38.160 这使得变得积极,它有其他属性, 0:05:38.160,0:05:40.160 这以后我们就去。 0:05:40.160,0:05:42.730 然后把所有这些平方距离的平均值。 0:05:42.730,0:05:44.970 所以你把它从 — — 你它们求和起来。 0:05:44.970,0:05:47.430 还有 n 他们到一些向上,正确吗? 0:05:47.430,0:05:48.400 小写字母 n。 0:05:48.400,0:05:51.820 你除以小写字母 n。 0:05:51.820,0:05:53.230 你说,这是一个很好的估计。 0:05:53.230,0:05:55.580 也不管这种差异是什么,那可能是一个很好的估计 0:05:55.580,0:05:56.720 为整个人口。 0:05:56.720,0:06:00.620 其实这是有些人常常指甚么时候他们 0:06:00.620,0:06:01.980 谈样本方差。 0:06:01.980,0:06:05.260 而有时它会实际上被称为这。 0:06:05.260,0:06:07.520 他们没有把小小写字母 n。 0:06:07.520,0:06:09.840 他们为什么这样做的原因是因为我们除以 n 和。 0:06:09.840,0:06:11.840 而你说,Sal 这里的问题是什么? 0:06:11.840,0:06:14.000 与问题 — — 和我会给你的直觉,因为这 0:06:14.000,0:06:16.180 其实是用来让我记住的东西。 0:06:16.180,0:06:19.340 我仍坦率地竭力与 0:06:19.340,0:06:21.530 在它后面的直觉。 0:06:21.530,0:06:24.510 嗯,我有种严格的直觉,但更多的 0:06:24.510,0:06:26.950 证明它对自己,这肯定是案件。 0:06:26.950,0:06:28.280 但是想想这样。 0:06:28.280,0:06:29.905 如果有一串数字,而我就画 0:06:29.905,0:06:32.740 在这里号线。 0:06:32.740,0:06:35.740 如果我画号线在这里,所以让我们说你知道- 0:06:35.740,0:06:39.430 并让我们说在我人口的一串数字。 0:06:39.430,0:06:41.660 现在,让我们说 — — 我只要随机把一大堆 0:06:41.660,0:06:44.280 在我的人口中的数字。 0:06:44.280,0:06:45.928 与右边的这些是比大 0:06:45.928,0:06:46.355 那些向左。 0:06:48.900,0:06:52.990 如果我是采取的其中一个样本,也许我就带 — — 0:06:52.990,0:06:54.820 该示例中,它是随机的。 0:06:54.820,0:06:56.210 实际上,你想要一个随机样本。 0:06:56.210,0:06:57.320 你不想以任何方式被扭曲。 0:06:57.320,0:07:02.900 所以也许我采取这一、 这一、 这种, 0:07:02.900,0:07:05.420 和这个,对吧? 0:07:05.420,0:07:07.480 要是采取的这一数字的平均值,然后, 0:07:07.480,0:07:08.460 号码,该号码,该号码。 0:07:08.460,0:07:09.320 它将是地方在中间。 0:07:09.320,0:07:11.010 它可能是某个地方那边。 0:07:11.010,0:07:13.240 然后如果我想要找出样本方差使用 0:07:13.240,0:07:16.780 这一公式,我会说这个距离平方加这确定 0:07:16.780,0:07:21.060 距离平方加此距离平方加上, 0:07:21.060,0:07:23.520 距离的平方和平均他们全力以赴。 0:07:23.520,0:07:24.700 并就此号码。 0:07:24.700,0:07:27.820 这也许会是一个不错的近似 0:07:27.820,0:07:30.260 这整个人口的方差。 0:07:30.260,0:07:32.070 人口的平均大概去 0:07:32.070,0:07:33.030 --我不知道。 0:07:33.030,0:07:35.020 它可能是这么漂亮。 0:07:35.020,0:07:37.150 如果我们采取的所有数据点,平均为他们, 0:07:37.150,0:07:39.060 也许他们就像这里的地方。 0:07:39.060,0:07:40.660 然后如果你弄明白超差,它也许会是 0:07:40.660,0:07:43.590 很接近的所有这些行,右平均吗? 0:07:43.590,0:07:46.810 所有的样本方差的距离,对吧? 0:07:46.810,0:07:47.250 不够公平。 0:07:47.250,0:07:47.900 所以你说,嘿 Sal。 0:07:47.900,0:07:49.710 这现在看起来还不错。 0:07:49.710,0:07:51.940 但有一个小小的渔获量。 0:07:51.940,0:07:54.560 如果 — — 是始终是相反的概率 0:07:54.560,0:07:56.990 挑选这些种相当均匀的数字,在我 0:07:56.990,0:08:00.800 示例中,如果我碰巧捡此编号,此编号, 0:08:00.800,0:08:03.920 与这一数字为我 — — 让我们说这一数字 0:08:03.920,0:08:05.400 作为我的样本吗? 0:08:05.400,0:08:08.370 你的样本平均值是无论你的样本是什么, 0:08:08.370,0:08:10.210 总是会在它,是吧吗? 0:08:10.210,0:08:12.960 所以在这种情况下,您的样本平均值可能就在这里。 0:08:12.960,0:08:15.010 所有这些号码,所以你可能会说好的这个数字不是 0:08:15.010,0:08:17.810 这一数字,这个数字并不太远,距离太远,然后 0:08:17.810,0:08:19.100 这个数字不太远。 0:08:19.100,0:08:21.790 所以你样本方差,当你做这种方式,可能会 0:08:21.790,0:08:23.610 有点低转。 0:08:23.610,0:08:26.920 所有这些数字,因为他们是漂亮 — — 它们, 0:08:26.920,0:08:28.920 几乎被定义,将会非常接近 0:08:28.920,0:08:30.350 对方的意思。 0:08:30.350,0:08:34.600 但在这种情况下,您的示例种不均衡, 0:08:34.600,0:08:37.980 人口的实际意思是这里的地方。 0:08:37.980,0:08:40.800 这样的示例中,如果你实际上有实际差异 0:08:40.800,0:08:43.670 已知的意思 — — 我知道这是所有有点令人困惑。 0:08:43.670,0:08:44.980 如果你真的知道中庸,你会 0:08:44.980,0:08:46.830 有说哦哇。 0:08:46.830,0:08:48.386 你会发现这些距离,将 0:08:48.386,0:08:51.320 已经多得多。 0:08:51.320,0:08:53.640 整点我想说的是,当你带 0:08:53.640,0:08:58.280 样品,有一些你样本平均值是漂亮的机会 0:08:58.280,0:09:00.380 关闭到人口平均,正确吗? 0:09:00.380,0:09:02.610 也许你的样本平均值是在这里和你的人口 0:09:02.610,0:09:03.360 意思是在这里。 0:09:03.360,0:09:05.770 然后此公式将可能计算出挺好的 0:09:05.770,0:09:07.770 至少给了您的示例数据点和弄 0:09:07.770,0:09:09.280 造成差异的原因是什么。 0:09:09.280,0:09:14.240 但有一个合理的机会,你们的样品的意思是 — — 你 0:09:14.240,0:09:16.730 示例总是将会在您的数据样本,右内吗? 0:09:16.730,0:09:18.740 它永远你们的数据样本中心。 0:09:18.740,0:09:21.470 但它是完全有可能是在总体平均值 0:09:21.470,0:09:22.590 您的数据样本的外面。 0:09:22.590,0:09:24.750 可能只是你只是碰巧捡那些 0:09:24.750,0:09:28.110 不要包含实际人口平均。 0:09:28.110,0:09:31.670 然后此样本方差计算这种方式将和 0:09:31.670,0:09:34.990 实际上低估了实际人口 0:09:34.990,0:09:36.240 方差,正确吗? 0:09:36.240,0:09:38.230 因为他们总是会再接近自己的意思 0:09:38.230,0:09:39.960 比起对总体平均值。 0:09:39.960,0:09:43.460 如果你理解,坦白地说,甚至像 10 % 0:09:43.460,0:09:45.770 这一点,你是一个非常先进的统计学生。 0:09:45.770,0:09:49.120 但我说这只是给你,一切希望,一些 0:09:49.120,0:09:53.500 直觉来实现这往往会低估。 0:09:53.500,0:09:57.240 此公式往往会低估实际 0:09:57.240,0:09:59.110 总体方差。 0:09:59.110,0:10:01.420 有一个公式,和这实际上证明更多 0:10:01.420,0:10:04.740 严格比我会做,这被认为是 0:10:04.740,0:10:08.000 好,或者他们会调用它的偏见,估计 0:10:08.000,0:10:09.030 总体方差。 0:10:09.030,0:10:11.390 或不带偏见的样本方差。 0:10:11.390,0:10:14.160 而有时它只是由表示再次平方的 s。 0:10:14.160,0:10:18.930 有时它由减 1 平方此 s n 表示。 0:10:18.930,0:10:20.720 我会告诉你为什么。 0:10:20.720,0:10:22.340 它是几乎同样的事。 0:10:22.340,0:10:24.730 你采取的每个数据点,搞得他们 0:10:24.730,0:10:28.170 是从样本平均值。 0:10:28.170,0:10:28.900 你平方他们。 0:10:28.900,0:10:31.830 然后你采取的那些平均平方,除外 0:10:31.830,0:10:33.430 对于一个细微的差别。 0:10:33.430,0:10:35.720 I = 1 到 I = n。 0:10:35.720,0:10:39.370 而不是除以 n,则除以略 0:10:39.370,0:10:41.920 较小的数目。 0:10:41.920,0:10:44.350 你除以 n 减 1。 0:10:44.350,0:10:46.880 因此,当您划分我减 1 而不是除以 n 0:10:46.880,0:10:49.590 n,你要在这里稍大一些。 0:10:49.590,0:10:51.060 原来这其实是 0:10:51.060,0:10:52.260 很多更准确的估计。 0:10:52.260,0:10:54.810 一天我要去至少写到一个计算机程序 0:10:54.810,0:10:57.430 实验证明它对我自己,这是 0:10:57.430,0:11:01.750 更好的总体方差估计值。 0:11:01.750,0:11:03.430 你会计算它同样的方式。 0:11:03.430,0:11:05.270 你只是除以 n 减 1。 0:11:05.270,0:11:07.450 其他的方式来思考它 — — 事实上,没有。 0:11:07.450,0:11:08.340 我失去了的时间。 0:11:08.340,0:11:09.500 我现在就会离开你。 0:11:09.500,0:11:10.710 然后在接下来的视频中,我们会做几个 0:11:10.710,0:11:12.590 这样你就不必太不知所措的计算 0:11:12.590,0:11:13.270 这些想法。 0:11:13.270,0:11:14.810 因为我们的身体越来越有点抽象。 0:11:14.810,0:11:16.660 下一个视频在见到你。