WEBVTT 00:00:00.660 --> 00:00:06.650 从现在开始我们要在统计的世界里遨游了, 00:00:06.650 --> 00:00:09.750 我们开始学习 00:00:09.750 --> 00:00:11.520 各种数据了。 00:00:11.520 --> 00:00:14.670 统计就是全部关于数据的。 00:00:14.670 --> 00:00:19.000 作为我们遨游统计世界的开端, 00:00:19.000 --> 00:00:20.610 我们会跟 00:00:20.610 --> 00:00:23.210 描述统计打交道。 00:00:23.210 --> 00:00:25.470 假设我们有一堆数据,然后我们 00:00:25.470 --> 00:00:27.990 想要在不提供所有数据的前提下 00:00:27.990 --> 00:00:29.890 描述这些数据, 00:00:29.890 --> 00:00:33.870 我们能否通过一小部分的数字来描述呢? 00:00:33.870 --> 00:00:35.720 这就是我们这期视频的重点。 00:00:35.720 --> 00:00:37.360 当我们学会如何计算 00:00:37.360 --> 00:00:39.260 描述统计的时候, 00:00:39.260 --> 00:00:41.710 我们就可以得到关于这些数据的推论了, 00:00:41.710 --> 00:00:44.200 包括一些结论,包括一些判断。 00:00:44.200 --> 00:00:49.430 然后我们就开始跟推论统计打交道, 00:00:49.430 --> 00:00:51.160 开始做推论。 00:00:51.160 --> 00:00:53.110 首先把其他的先放一边,我们先来思考 00:00:53.110 --> 00:00:56.390 我们如何来描述数据。 00:00:56.390 --> 00:01:00.710 假设我们有一组数字。 00:01:00.710 --> 00:01:02.360 我们可以把这看作是数据。 00:01:02.360 --> 00:01:04.580 也许是我们测量的花园里的 00:01:04.580 --> 00:01:05.740 植物的高度。 00:01:05.740 --> 00:01:07.400 假设我们有六盆植物。 00:01:07.400 --> 00:01:13.870 高度分别是4英寸、3英寸、1英寸、6英寸、 00:01:13.870 --> 00:01:17.990 又一个1英寸,最后一个是7英寸。 00:01:17.990 --> 00:01:20.934 然后假设有人说——在另一个房间, 00:01:20.934 --> 00:01:22.350 没有看到你的那些植物,就说, 00:01:22.350 --> 00:01:24.657 你知不知道,你的植物的高度是多少呢? 00:01:24.657 --> 00:01:26.240 他们只是想得到一个数字。 00:01:26.240 --> 00:01:30.560 他们希望得到一个数字 00:01:30.560 --> 00:01:33.410 能代表所有这些不同高度的植物。 00:01:33.410 --> 00:01:36.580 你会怎么做呢? 00:01:36.580 --> 00:01:38.810 那么,你会说,好吧,我们怎么才能用—— 00:01:38.810 --> 00:01:40.990 也许一个特定的数字。 00:01:40.990 --> 00:01:44.060 也许我需要一个数字来表示一个中间数。 00:01:44.060 --> 00:01:46.250 也许我需要一个最常出现的数字。 00:01:46.250 --> 00:01:48.830 也许我需要一个可以代表 00:01:48.830 --> 00:01:51.270 这些数字的中心。 00:01:51.270 --> 00:01:53.220 如果你想的是这些内容的话, 00:01:53.220 --> 00:01:55.189 你就和那些 00:01:55.189 --> 00:01:57.730 首先发明描述统计的人们 00:01:57.730 --> 00:01:58.230 想的一样了。 00:01:58.230 --> 00:02:00.150 他们会说,那我们应该怎么做呢? 00:02:00.150 --> 00:02:04.960 我们首先想的是平均数的概念。 00:02:04.960 --> 00:02:07.610 在我们的常识里,平均数 00:02:07.610 --> 00:02:09.720 有一个非常特殊的含义,我们待会儿会学到的。 00:02:09.720 --> 00:02:11.570 当人们说到平均时, 00:02:11.570 --> 00:02:13.070 说的就是算数平均数, 00:02:13.070 --> 00:02:14.960 我们待会儿就会学到它。 00:02:14.960 --> 00:02:18.100 但在统计学里,平均代表了更广泛的概念。 00:02:18.100 --> 00:02:22.980 它就是表示一个典型的, 00:02:22.980 --> 00:02:29.810 或者说中间数,或者——这些都是或者。 00:02:29.810 --> 00:02:31.930 这真的就是尝试去求 00:02:31.930 --> 00:02:33.490 一个集中的数字。 00:02:38.550 --> 00:02:40.560 所以我重复一遍,你有一堆数字。 00:02:40.560 --> 00:02:42.970 你想要通过某一个数字来表示这一堆数字 00:02:42.970 --> 00:02:45.840 而我们称之为平均,在某种程度上 00:02:45.840 --> 00:02:49.130 是这些数字的一个典型的数字,或者中间的数字, 00:02:49.130 --> 00:02:50.450 或者中心的数字。 00:02:50.450 --> 00:02:54.110 我们待会儿就能看到,平均有很多种类型。 00:02:54.110 --> 00:02:56.690 第一种你可能非常熟悉了。 00:02:56.690 --> 00:02:58.398 这就是人们经常提到的, 00:02:58.398 --> 00:03:00.840 测验的平均分或者平均身高。 00:03:00.840 --> 00:03:02.970 这就是算术平均数。 00:03:02.970 --> 00:03:05.470 我来写下来。 00:03:05.470 --> 00:03:13.100 我用黄色来写,算术平均数。 00:03:13.100 --> 00:03:16.010 当算数是一个名词时,我们称之为计算。 00:03:16.010 --> 00:03:19.960 当算数是一个形容词就像现在这样,我们称之为算数的, 00:03:19.960 --> 00:03:21.620 算术平均数。 00:03:21.620 --> 00:03:25.300 其实就等于这些数字的和 00:03:25.300 --> 00:03:28.180 除以——这是人类想出来的一个 00:03:28.180 --> 00:03:31.630 很有帮助的定义——这些数字的和除以 00:03:31.630 --> 00:03:34.460 数字的个数。 00:03:34.460 --> 00:03:36.830 据此来看,这些数据的 00:03:36.830 --> 00:03:39.114 算术平均数是多少呢? 00:03:39.114 --> 00:03:40.280 我们来算一下。 00:03:40.280 --> 00:03:46.160 就等于4加3加1加6加1 00:03:46.160 --> 00:03:51.210 加7除以数据点的个数。 00:03:51.210 --> 00:03:53.210 一共有6个数据点。 00:03:53.210 --> 00:03:54.860 所以我们要除以6。 00:03:54.860 --> 00:04:01.840 然后4加3是7,加1是8,加6是14, 00:04:01.840 --> 00:04:04.934 加1是15,加7。 00:04:04.934 --> 00:04:07.927 15加7是22。 00:04:07.927 --> 00:04:09.135 我再来算一遍。 00:04:09.135 --> 00:04:15.180 7、8、14、15、22,这个总数除以6。 00:04:15.180 --> 00:04:17.070 我们可以写成带分数的形式。 00:04:17.070 --> 00:04:21.120 22除以6得到3余4。 00:04:21.120 --> 00:04:25.200 所以是3又4/6,也就等同于3又2/3。 00:04:25.200 --> 00:04:28.670 我们也可以写成3.6 6循环的形式。 00:04:28.670 --> 00:04:32.360 所以这也等于3.6 6循环。 00:04:32.360 --> 00:04:34.380 我们可以用任意一种方式来表示。 00:04:34.380 --> 00:04:36.700 这是一个具有代表性的数字。 00:04:36.700 --> 00:04:39.820 这是在尝试得到一个集中的数字。 00:04:39.820 --> 00:04:41.620 我重复一遍,这些都是人类发明的。 00:04:41.620 --> 00:04:43.590 从来没有人——没有人 00:04:43.590 --> 00:04:46.140 在一个宗教学的文件里找到说, 00:04:46.140 --> 00:04:47.990 这就是算术平均数 00:04:47.990 --> 00:04:49.180 的定义。 00:04:49.180 --> 00:04:52.700 这不是纯计算 00:04:52.700 --> 00:04:55.005 比如说求圆的周长, 00:04:55.005 --> 00:04:56.880 这就是——一种——我们 00:04:56.880 --> 00:04:57.840 了解这个宇宙的方式。 00:04:57.840 --> 00:05:00.600 这不是了解宇宙的方式。 00:05:00.600 --> 00:05:02.250 这是人类发明的一个 00:05:02.250 --> 00:05:04.110 对人类很有帮助的定义。 00:05:04.110 --> 00:05:07.260 现在还有其他的方式来计算平均数 00:05:07.260 --> 00:05:10.130 或者说找一个典型的数字或者说中间值。 00:05:10.130 --> 00:05:14.470 其中一种非常典型的方式就是中位数。 00:05:14.470 --> 00:05:15.667 我来写中位数。 00:05:15.667 --> 00:05:16.750 我没有新的颜色了。 00:05:16.750 --> 00:05:18.660 我用粉色来写中位数。 00:05:18.660 --> 00:05:21.280 这就是中位数。 00:05:21.280 --> 00:05:25.160 中位数就是字面意思去找那个中间的数字。 00:05:25.160 --> 00:05:27.350 所以如果你将集合里所有数字都排好序 00:05:27.350 --> 00:05:31.460 然后找到最中间的那个数字,这就是中位数。 00:05:31.460 --> 00:05:34.050 据此来看,这组数字的中位数 00:05:34.050 --> 00:05:35.806 是什么呢? 00:05:35.806 --> 00:05:36.930 让我们来找一下。 00:05:36.930 --> 00:05:38.170 我们先来排序。 00:05:38.170 --> 00:05:39.810 首先是1。 00:05:39.810 --> 00:05:41.010 还有一个1。 00:05:41.010 --> 00:05:42.860 然后是一个3。 00:05:42.860 --> 00:05:46.630 然后是一个4、一个6、一个7。 00:05:46.630 --> 00:05:48.700 所以我刚才只是重新排序了。 00:05:48.700 --> 00:05:50.890 那中间的数字是多少呢? 00:05:50.890 --> 00:05:52.320 你看这里。 00:05:52.320 --> 00:05:54.960 因为这组数据是偶数的,我们有6个数字, 00:05:54.960 --> 00:05:57.260 所以没有一个中间的数字。 00:05:57.260 --> 00:05:59.650 那你就需要找出这里中间的那两个数字。 00:05:59.650 --> 00:06:02.050 这里有两个中间的数字。 00:06:02.050 --> 00:06:03.160 3和4。 00:06:03.160 --> 00:06:05.940 所以这总情况下,当有连个中间的数字, 00:06:05.940 --> 00:06:09.640 你就需要取这两个数字的中点数。 00:06:09.640 --> 00:06:12.080 本质上就是取这两个数字 00:06:12.080 --> 00:06:14.272 的算术平均数为中位数。 00:06:14.272 --> 00:06:16.230 因此中位数就是 00:06:16.230 --> 00:06:19.190 3和4之间的数,也就是3.5。 00:06:19.190 --> 00:06:24.424 因此这里的中位数就是3.5。 00:06:24.424 --> 00:06:26.590 所以假如你的数据是偶数个的,中位数 00:06:26.590 --> 00:06:28.714 或者说中间的两个数,本质上 00:06:28.714 --> 00:06:31.329 就是中间两个数的算术平均数,或者说中间两个数字之间的中点数。 00:06:31.329 --> 00:06:32.870 如果数据是奇数个的, 00:06:32.870 --> 00:06:34.270 那就更容易算出来了。 00:06:34.270 --> 00:06:35.644 为了让大家看得更明白,让我 00:06:35.644 --> 00:06:36.920 再给出一组数据。 00:06:36.920 --> 00:06:39.030 假设这组数据——我会 00:06:39.030 --> 00:06:41.740 先排好序——假设这组数据 00:06:41.740 --> 00:06:55.689 是0、7、50,然后,10000,最后1000000。 00:06:55.689 --> 00:06:56.980 假设这就是我们的数据。 00:06:56.980 --> 00:06:58.450 偏差挺大的数据。 00:06:58.450 --> 00:07:02.400 在这种情况下,中位数是多少呢? 00:07:02.400 --> 00:07:04.045 这里有5个数字。 00:07:04.045 --> 00:07:05.420 也就是奇数个数字。 00:07:05.420 --> 00:07:07.200 所以很容易找到中间数。 00:07:07.200 --> 00:07:12.040 中间数就是大于其中两个数 00:07:12.040 --> 00:07:13.540 又小于另外两个数。 00:07:13.540 --> 00:07:14.760 那就正好是中间的数字了。 00:07:14.760 --> 00:07:18.840 所以在这道题目里,中位数是50。 00:07:18.840 --> 00:07:20.742 现在,第三种方式来表示集中的数字, 00:07:20.742 --> 00:07:22.200 这也可能是 00:07:22.200 --> 00:07:26.426 生活中用得最少的情况了,就是众数。 00:07:26.426 --> 00:07:27.800 人们通常会将它遗忘。 00:07:27.800 --> 00:07:29.852 听着好像很复杂。 00:07:29.852 --> 00:07:31.310 其实实际上就是 00:07:31.310 --> 00:07:33.080 一个非常直观的概念。 00:07:33.080 --> 00:07:36.180 在某些情况下,它就是最基础的数据。 00:07:36.180 --> 00:07:40.510 众数就是数据组里出现次数最多的那个数字。 00:07:40.510 --> 00:07:41.885 如果有一个出现次数最多的数字。 00:07:41.885 --> 00:07:43.801 如果所有的数字出现的次数都相同, 00:07:43.801 --> 00:07:45.760 如果没有某一个特定数字出现的次数更多, 00:07:45.760 --> 00:07:47.320 那么就没有众数。 00:07:47.320 --> 00:07:50.240 根据众数的定义来看, 00:07:50.240 --> 00:07:54.190 在最初的这组数据里, 00:07:54.190 --> 00:07:58.300 出现次数最多的数字是哪一个呢? 00:07:58.300 --> 00:08:00.100 这里只有一个4。 00:08:00.100 --> 00:08:01.490 只有一个3。 00:08:01.490 --> 00:08:03.370 但有两个1。 00:08:03.370 --> 00:08:04.880 还有一个6和一个7。 00:08:04.880 --> 00:08:08.730 所以这里出现次数最多的数字 00:08:08.730 --> 00:08:11.060 就是1。 00:08:11.060 --> 00:08:14.070 所以众数,最典型的数字,出现次数最多的数字 00:08:14.070 --> 00:08:17.610 就是1。 00:08:17.610 --> 00:08:19.590 所以,你看,这些都是用不同的方式 00:08:19.590 --> 00:08:23.320 来尝试表述一个特定的,或者说中间的,集中的数字。 00:08:23.320 --> 00:08:25.600 但它们的做法完全不同。 00:08:25.600 --> 00:08:27.350 随着我们更深入学习统计学, 00:08:27.350 --> 00:08:29.760 我们会看到它们在不同情况下的优势的。 00:08:29.760 --> 00:08:31.730 这些都是很常见的。 00:08:31.730 --> 00:08:34.574 当数据偏差很大的时候中位数就是很好的代表 00:08:34.574 --> 00:08:35.990 否则就会把算术平均数 00:08:35.990 --> 00:08:38.100 扭曲了。 00:08:38.100 --> 00:08:41.449 众数在某些情况下很有用, 00:08:41.449 --> 00:08:43.240 特别是当某一个数字出现的次数 00:08:43.240 --> 00:08:45.960 及其频繁的时候。 00:08:45.960 --> 00:08:47.570 无论如何,我就先讲到这里。 00:08:47.570 --> 00:08:51.710 然后我们——在接下来的几期视频中,我们会更深入地 00:08:51.710 --> 00:08:53.260 学习统计学。