0:00:00.660,0:00:06.650 从现在开始我们要在统计的世界里遨游了, 0:00:06.650,0:00:09.750 我们开始学习 0:00:09.750,0:00:11.520 各种数据了。 0:00:11.520,0:00:14.670 统计就是全部关于数据的。 0:00:14.670,0:00:19.000 作为我们遨游统计世界的开端, 0:00:19.000,0:00:20.610 我们会跟 0:00:20.610,0:00:23.210 描述统计打交道。 0:00:23.210,0:00:25.470 假设我们有一堆数据,然后我们 0:00:25.470,0:00:27.990 想要在不提供所有数据的前提下 0:00:27.990,0:00:29.890 描述这些数据, 0:00:29.890,0:00:33.870 我们能否通过一小部分的数字来描述呢? 0:00:33.870,0:00:35.720 这就是我们这期视频的重点。 0:00:35.720,0:00:37.360 当我们学会如何计算 0:00:37.360,0:00:39.260 描述统计的时候, 0:00:39.260,0:00:41.710 我们就可以得到关于这些数据的推论了, 0:00:41.710,0:00:44.200 包括一些结论,包括一些判断。 0:00:44.200,0:00:49.430 然后我们就开始跟推论统计打交道, 0:00:49.430,0:00:51.160 开始做推论。 0:00:51.160,0:00:53.110 首先把其他的先放一边,我们先来思考 0:00:53.110,0:00:56.390 我们如何来描述数据。 0:00:56.390,0:01:00.710 假设我们有一组数字。 0:01:00.710,0:01:02.360 我们可以把这看作是数据。 0:01:02.360,0:01:04.580 也许是我们测量的花园里的 0:01:04.580,0:01:05.740 植物的高度。 0:01:05.740,0:01:07.400 假设我们有六盆植物。 0:01:07.400,0:01:13.870 高度分别是4英寸、3英寸、1英寸、6英寸、 0:01:13.870,0:01:17.990 又一个1英寸,最后一个是7英寸。 0:01:17.990,0:01:20.934 然后假设有人说——在另一个房间, 0:01:20.934,0:01:22.350 没有看到你的那些植物,就说, 0:01:22.350,0:01:24.657 你知不知道,你的植物的高度是多少呢? 0:01:24.657,0:01:26.240 他们只是想得到一个数字。 0:01:26.240,0:01:30.560 他们希望得到一个数字 0:01:30.560,0:01:33.410 能代表所有这些不同高度的植物。 0:01:33.410,0:01:36.580 你会怎么做呢? 0:01:36.580,0:01:38.810 那么,你会说,好吧,我们怎么才能用—— 0:01:38.810,0:01:40.990 也许一个特定的数字。 0:01:40.990,0:01:44.060 也许我需要一个数字来表示一个中间数。 0:01:44.060,0:01:46.250 也许我需要一个最常出现的数字。 0:01:46.250,0:01:48.830 也许我需要一个可以代表 0:01:48.830,0:01:51.270 这些数字的中心。 0:01:51.270,0:01:53.220 如果你想的是这些内容的话, 0:01:53.220,0:01:55.189 你就和那些 0:01:55.189,0:01:57.730 首先发明描述统计的人们 0:01:57.730,0:01:58.230 想的一样了。 0:01:58.230,0:02:00.150 他们会说,那我们应该怎么做呢? 0:02:00.150,0:02:04.960 我们首先想的是平均数的概念。 0:02:04.960,0:02:07.610 在我们的常识里,平均数 0:02:07.610,0:02:09.720 有一个非常特殊的含义,我们待会儿会学到的。 0:02:09.720,0:02:11.570 当人们说到平均时, 0:02:11.570,0:02:13.070 说的就是算数平均数, 0:02:13.070,0:02:14.960 我们待会儿就会学到它。 0:02:14.960,0:02:18.100 但在统计学里,平均代表了更广泛的概念。 0:02:18.100,0:02:22.980 它就是表示一个典型的, 0:02:22.980,0:02:29.810 或者说中间数,或者——这些都是或者。 0:02:29.810,0:02:31.930 这真的就是尝试去求 0:02:31.930,0:02:33.490 一个集中的数字。 0:02:38.550,0:02:40.560 所以我重复一遍,你有一堆数字。 0:02:40.560,0:02:42.970 你想要通过某一个数字来表示这一堆数字 0:02:42.970,0:02:45.840 而我们称之为平均,在某种程度上 0:02:45.840,0:02:49.130 是这些数字的一个典型的数字,或者中间的数字, 0:02:49.130,0:02:50.450 或者中心的数字。 0:02:50.450,0:02:54.110 我们待会儿就能看到,平均有很多种类型。 0:02:54.110,0:02:56.690 第一种你可能非常熟悉了。 0:02:56.690,0:02:58.398 这就是人们经常提到的, 0:02:58.398,0:03:00.840 测验的平均分或者平均身高。 0:03:00.840,0:03:02.970 这就是算术平均数。 0:03:02.970,0:03:05.470 我来写下来。 0:03:05.470,0:03:13.100 我用黄色来写,算术平均数。 0:03:13.100,0:03:16.010 当算数是一个名词时,我们称之为计算。 0:03:16.010,0:03:19.960 当算数是一个形容词就像现在这样,我们称之为算数的, 0:03:19.960,0:03:21.620 算术平均数。 0:03:21.620,0:03:25.300 其实就等于这些数字的和 0:03:25.300,0:03:28.180 除以——这是人类想出来的一个 0:03:28.180,0:03:31.630 很有帮助的定义——这些数字的和除以 0:03:31.630,0:03:34.460 数字的个数。 0:03:34.460,0:03:36.830 据此来看,这些数据的 0:03:36.830,0:03:39.114 算术平均数是多少呢? 0:03:39.114,0:03:40.280 我们来算一下。 0:03:40.280,0:03:46.160 就等于4加3加1加6加1 0:03:46.160,0:03:51.210 加7除以数据点的个数。 0:03:51.210,0:03:53.210 一共有6个数据点。 0:03:53.210,0:03:54.860 所以我们要除以6。 0:03:54.860,0:04:01.840 然后4加3是7,加1是8,加6是14, 0:04:01.840,0:04:04.934 加1是15,加7。 0:04:04.934,0:04:07.927 15加7是22。 0:04:07.927,0:04:09.135 我再来算一遍。 0:04:09.135,0:04:15.180 7、8、14、15、22,这个总数除以6。 0:04:15.180,0:04:17.070 我们可以写成带分数的形式。 0:04:17.070,0:04:21.120 22除以6得到3余4。 0:04:21.120,0:04:25.200 所以是3又4/6,也就等同于3又2/3。 0:04:25.200,0:04:28.670 我们也可以写成3.6 6循环的形式。 0:04:28.670,0:04:32.360 所以这也等于3.6 6循环。 0:04:32.360,0:04:34.380 我们可以用任意一种方式来表示。 0:04:34.380,0:04:36.700 这是一个具有代表性的数字。 0:04:36.700,0:04:39.820 这是在尝试得到一个集中的数字。 0:04:39.820,0:04:41.620 我重复一遍,这些都是人类发明的。 0:04:41.620,0:04:43.590 从来没有人——没有人 0:04:43.590,0:04:46.140 在一个宗教学的文件里找到说, 0:04:46.140,0:04:47.990 这就是算术平均数 0:04:47.990,0:04:49.180 的定义。 0:04:49.180,0:04:52.700 这不是纯计算 0:04:52.700,0:04:55.005 比如说求圆的周长, 0:04:55.005,0:04:56.880 这就是——一种——我们 0:04:56.880,0:04:57.840 了解这个宇宙的方式。 0:04:57.840,0:05:00.600 这不是了解宇宙的方式。 0:05:00.600,0:05:02.250 这是人类发明的一个 0:05:02.250,0:05:04.110 对人类很有帮助的定义。 0:05:04.110,0:05:07.260 现在还有其他的方式来计算平均数 0:05:07.260,0:05:10.130 或者说找一个典型的数字或者说中间值。 0:05:10.130,0:05:14.470 其中一种非常典型的方式就是中位数。 0:05:14.470,0:05:15.667 我来写中位数。 0:05:15.667,0:05:16.750 我没有新的颜色了。 0:05:16.750,0:05:18.660 我用粉色来写中位数。 0:05:18.660,0:05:21.280 这就是中位数。 0:05:21.280,0:05:25.160 中位数就是字面意思去找那个中间的数字。 0:05:25.160,0:05:27.350 所以如果你将集合里所有数字都排好序 0:05:27.350,0:05:31.460 然后找到最中间的那个数字,这就是中位数。 0:05:31.460,0:05:34.050 据此来看,这组数字的中位数 0:05:34.050,0:05:35.806 是什么呢? 0:05:35.806,0:05:36.930 让我们来找一下。 0:05:36.930,0:05:38.170 我们先来排序。 0:05:38.170,0:05:39.810 首先是1。 0:05:39.810,0:05:41.010 还有一个1。 0:05:41.010,0:05:42.860 然后是一个3。 0:05:42.860,0:05:46.630 然后是一个4、一个6、一个7。 0:05:46.630,0:05:48.700 所以我刚才只是重新排序了。 0:05:48.700,0:05:50.890 那中间的数字是多少呢? 0:05:50.890,0:05:52.320 你看这里。 0:05:52.320,0:05:54.960 因为这组数据是偶数的,我们有6个数字, 0:05:54.960,0:05:57.260 所以没有一个中间的数字。 0:05:57.260,0:05:59.650 那你就需要找出这里中间的那两个数字。 0:05:59.650,0:06:02.050 这里有两个中间的数字。 0:06:02.050,0:06:03.160 3和4。 0:06:03.160,0:06:05.940 所以这总情况下,当有连个中间的数字, 0:06:05.940,0:06:09.640 你就需要取这两个数字的中点数。 0:06:09.640,0:06:12.080 本质上就是取这两个数字 0:06:12.080,0:06:14.272 的算术平均数为中位数。 0:06:14.272,0:06:16.230 因此中位数就是 0:06:16.230,0:06:19.190 3和4之间的数,也就是3.5。 0:06:19.190,0:06:24.424 因此这里的中位数就是3.5。 0:06:24.424,0:06:26.590 所以假如你的数据是偶数个的,中位数 0:06:26.590,0:06:28.714 或者说中间的两个数,本质上 0:06:28.714,0:06:31.329 就是中间两个数的算术平均数,或者说中间两个数字之间的中点数。 0:06:31.329,0:06:32.870 如果数据是奇数个的, 0:06:32.870,0:06:34.270 那就更容易算出来了。 0:06:34.270,0:06:35.644 为了让大家看得更明白,让我 0:06:35.644,0:06:36.920 再给出一组数据。 0:06:36.920,0:06:39.030 假设这组数据——我会 0:06:39.030,0:06:41.740 先排好序——假设这组数据 0:06:41.740,0:06:55.689 是0、7、50,然后,10000,最后1000000。 0:06:55.689,0:06:56.980 假设这就是我们的数据。 0:06:56.980,0:06:58.450 偏差挺大的数据。 0:06:58.450,0:07:02.400 在这种情况下,中位数是多少呢? 0:07:02.400,0:07:04.045 这里有5个数字。 0:07:04.045,0:07:05.420 也就是奇数个数字。 0:07:05.420,0:07:07.200 所以很容易找到中间数。 0:07:07.200,0:07:12.040 中间数就是大于其中两个数 0:07:12.040,0:07:13.540 又小于另外两个数。 0:07:13.540,0:07:14.760 那就正好是中间的数字了。 0:07:14.760,0:07:18.840 所以在这道题目里,中位数是50。 0:07:18.840,0:07:20.742 现在,第三种方式来表示集中的数字, 0:07:20.742,0:07:22.200 这也可能是 0:07:22.200,0:07:26.426 生活中用得最少的情况了,就是众数。 0:07:26.426,0:07:27.800 人们通常会将它遗忘。 0:07:27.800,0:07:29.852 听着好像很复杂。 0:07:29.852,0:07:31.310 其实实际上就是 0:07:31.310,0:07:33.080 一个非常直观的概念。 0:07:33.080,0:07:36.180 在某些情况下,它就是最基础的数据。 0:07:36.180,0:07:40.510 众数就是数据组里出现次数最多的那个数字。 0:07:40.510,0:07:41.885 如果有一个出现次数最多的数字。 0:07:41.885,0:07:43.801 如果所有的数字出现的次数都相同, 0:07:43.801,0:07:45.760 如果没有某一个特定数字出现的次数更多, 0:07:45.760,0:07:47.320 那么就没有众数。 0:07:47.320,0:07:50.240 根据众数的定义来看, 0:07:50.240,0:07:54.190 在最初的这组数据里, 0:07:54.190,0:07:58.300 出现次数最多的数字是哪一个呢? 0:07:58.300,0:08:00.100 这里只有一个4。 0:08:00.100,0:08:01.490 只有一个3。 0:08:01.490,0:08:03.370 但有两个1。 0:08:03.370,0:08:04.880 还有一个6和一个7。 0:08:04.880,0:08:08.730 所以这里出现次数最多的数字 0:08:08.730,0:08:11.060 就是1。 0:08:11.060,0:08:14.070 所以众数,最典型的数字,出现次数最多的数字 0:08:14.070,0:08:17.610 就是1。 0:08:17.610,0:08:19.590 所以,你看,这些都是用不同的方式 0:08:19.590,0:08:23.320 来尝试表述一个特定的,或者说中间的,集中的数字。 0:08:23.320,0:08:25.600 但它们的做法完全不同。 0:08:25.600,0:08:27.350 随着我们更深入学习统计学, 0:08:27.350,0:08:29.760 我们会看到它们在不同情况下的优势的。 0:08:29.760,0:08:31.730 这些都是很常见的。 0:08:31.730,0:08:34.574 当数据偏差很大的时候中位数就是很好的代表 0:08:34.574,0:08:35.990 否则就会把算术平均数 0:08:35.990,0:08:38.100 扭曲了。 0:08:38.100,0:08:41.449 众数在某些情况下很有用, 0:08:41.449,0:08:43.240 特别是当某一个数字出现的次数 0:08:43.240,0:08:45.960 及其频繁的时候。 0:08:45.960,0:08:47.570 无论如何,我就先讲到这里。 0:08:47.570,0:08:51.710 然后我们——在接下来的几期视频中,我们会更深入地 0:08:51.710,0:08:53.260 学习统计学。