1 00:00:00,660 --> 00:00:06,650 从现在开始我们要在统计的世界里遨游了, 2 00:00:06,650 --> 00:00:09,750 我们开始学习 3 00:00:09,750 --> 00:00:11,520 各种数据了。 4 00:00:11,520 --> 00:00:14,670 统计就是全部关于数据的。 5 00:00:14,670 --> 00:00:19,000 作为我们遨游统计世界的开端, 6 00:00:19,000 --> 00:00:20,610 我们会跟 7 00:00:20,610 --> 00:00:23,210 描述统计打交道。 8 00:00:23,210 --> 00:00:25,470 假设我们有一堆数据,然后我们 9 00:00:25,470 --> 00:00:27,990 想要在不提供所有数据的前提下 10 00:00:27,990 --> 00:00:29,890 描述这些数据, 11 00:00:29,890 --> 00:00:33,870 我们能否通过一小部分的数字来描述呢? 12 00:00:33,870 --> 00:00:35,720 这就是我们这期视频的重点。 13 00:00:35,720 --> 00:00:37,360 当我们学会如何计算 14 00:00:37,360 --> 00:00:39,260 描述统计的时候, 15 00:00:39,260 --> 00:00:41,710 我们就可以得到关于这些数据的推论了, 16 00:00:41,710 --> 00:00:44,200 包括一些结论,包括一些判断。 17 00:00:44,200 --> 00:00:49,430 然后我们就开始跟推论统计打交道, 18 00:00:49,430 --> 00:00:51,160 开始做推论。 19 00:00:51,160 --> 00:00:53,110 首先把其他的先放一边,我们先来思考 20 00:00:53,110 --> 00:00:56,390 我们如何来描述数据。 21 00:00:56,390 --> 00:01:00,710 假设我们有一组数字。 22 00:01:00,710 --> 00:01:02,360 我们可以把这看作是数据。 23 00:01:02,360 --> 00:01:04,580 也许是我们测量的花园里的 24 00:01:04,580 --> 00:01:05,740 植物的高度。 25 00:01:05,740 --> 00:01:07,400 假设我们有六盆植物。 26 00:01:07,400 --> 00:01:13,870 高度分别是4英寸、3英寸、1英寸、6英寸、 27 00:01:13,870 --> 00:01:17,990 又一个1英寸,最后一个是7英寸。 28 00:01:17,990 --> 00:01:20,934 然后假设有人说——在另一个房间, 29 00:01:20,934 --> 00:01:22,350 没有看到你的那些植物,就说, 30 00:01:22,350 --> 00:01:24,657 你知不知道,你的植物的高度是多少呢? 31 00:01:24,657 --> 00:01:26,240 他们只是想得到一个数字。 32 00:01:26,240 --> 00:01:30,560 他们希望得到一个数字 33 00:01:30,560 --> 00:01:33,410 能代表所有这些不同高度的植物。 34 00:01:33,410 --> 00:01:36,580 你会怎么做呢? 35 00:01:36,580 --> 00:01:38,810 那么,你会说,好吧,我们怎么才能用—— 36 00:01:38,810 --> 00:01:40,990 也许一个特定的数字。 37 00:01:40,990 --> 00:01:44,060 也许我需要一个数字来表示一个中间数。 38 00:01:44,060 --> 00:01:46,250 也许我需要一个最常出现的数字。 39 00:01:46,250 --> 00:01:48,830 也许我需要一个可以代表 40 00:01:48,830 --> 00:01:51,270 这些数字的中心。 41 00:01:51,270 --> 00:01:53,220 如果你想的是这些内容的话, 42 00:01:53,220 --> 00:01:55,189 你就和那些 43 00:01:55,189 --> 00:01:57,730 首先发明描述统计的人们 44 00:01:57,730 --> 00:01:58,230 想的一样了。 45 00:01:58,230 --> 00:02:00,150 他们会说,那我们应该怎么做呢? 46 00:02:00,150 --> 00:02:04,960 我们首先想的是平均数的概念。 47 00:02:04,960 --> 00:02:07,610 在我们的常识里,平均数 48 00:02:07,610 --> 00:02:09,720 有一个非常特殊的含义,我们待会儿会学到的。 49 00:02:09,720 --> 00:02:11,570 当人们说到平均时, 50 00:02:11,570 --> 00:02:13,070 说的就是算数平均数, 51 00:02:13,070 --> 00:02:14,960 我们待会儿就会学到它。 52 00:02:14,960 --> 00:02:18,100 但在统计学里,平均代表了更广泛的概念。 53 00:02:18,100 --> 00:02:22,980 它就是表示一个典型的, 54 00:02:22,980 --> 00:02:29,810 或者说中间数,或者——这些都是或者。 55 00:02:29,810 --> 00:02:31,930 这真的就是尝试去求 56 00:02:31,930 --> 00:02:33,490 一个集中的数字。 57 00:02:38,550 --> 00:02:40,560 所以我重复一遍,你有一堆数字。 58 00:02:40,560 --> 00:02:42,970 你想要通过某一个数字来表示这一堆数字 59 00:02:42,970 --> 00:02:45,840 而我们称之为平均,在某种程度上 60 00:02:45,840 --> 00:02:49,130 是这些数字的一个典型的数字,或者中间的数字, 61 00:02:49,130 --> 00:02:50,450 或者中心的数字。 62 00:02:50,450 --> 00:02:54,110 我们待会儿就能看到,平均有很多种类型。 63 00:02:54,110 --> 00:02:56,690 第一种你可能非常熟悉了。 64 00:02:56,690 --> 00:02:58,398 这就是人们经常提到的, 65 00:02:58,398 --> 00:03:00,840 测验的平均分或者平均身高。 66 00:03:00,840 --> 00:03:02,970 这就是算术平均数。 67 00:03:02,970 --> 00:03:05,470 我来写下来。 68 00:03:05,470 --> 00:03:13,100 我用黄色来写,算术平均数。 69 00:03:13,100 --> 00:03:16,010 当算数是一个名词时,我们称之为计算。 70 00:03:16,010 --> 00:03:19,960 当算数是一个形容词就像现在这样,我们称之为算数的, 71 00:03:19,960 --> 00:03:21,620 算术平均数。 72 00:03:21,620 --> 00:03:25,300 其实就等于这些数字的和 73 00:03:25,300 --> 00:03:28,180 除以——这是人类想出来的一个 74 00:03:28,180 --> 00:03:31,630 很有帮助的定义——这些数字的和除以 75 00:03:31,630 --> 00:03:34,460 数字的个数。 76 00:03:34,460 --> 00:03:36,830 据此来看,这些数据的 77 00:03:36,830 --> 00:03:39,114 算术平均数是多少呢? 78 00:03:39,114 --> 00:03:40,280 我们来算一下。 79 00:03:40,280 --> 00:03:46,160 就等于4加3加1加6加1 80 00:03:46,160 --> 00:03:51,210 加7除以数据点的个数。 81 00:03:51,210 --> 00:03:53,210 一共有6个数据点。 82 00:03:53,210 --> 00:03:54,860 所以我们要除以6。 83 00:03:54,860 --> 00:04:01,840 然后4加3是7,加1是8,加6是14, 84 00:04:01,840 --> 00:04:04,934 加1是15,加7。 85 00:04:04,934 --> 00:04:07,927 15加7是22。 86 00:04:07,927 --> 00:04:09,135 我再来算一遍。 87 00:04:09,135 --> 00:04:15,180 7、8、14、15、22,这个总数除以6。 88 00:04:15,180 --> 00:04:17,070 我们可以写成带分数的形式。 89 00:04:17,070 --> 00:04:21,120 22除以6得到3余4。 90 00:04:21,120 --> 00:04:25,200 所以是3又4/6,也就等同于3又2/3。 91 00:04:25,200 --> 00:04:28,670 我们也可以写成3.6 6循环的形式。 92 00:04:28,670 --> 00:04:32,360 所以这也等于3.6 6循环。 93 00:04:32,360 --> 00:04:34,380 我们可以用任意一种方式来表示。 94 00:04:34,380 --> 00:04:36,700 这是一个具有代表性的数字。 95 00:04:36,700 --> 00:04:39,820 这是在尝试得到一个集中的数字。 96 00:04:39,820 --> 00:04:41,620 我重复一遍,这些都是人类发明的。 97 00:04:41,620 --> 00:04:43,590 从来没有人——没有人 98 00:04:43,590 --> 00:04:46,140 在一个宗教学的文件里找到说, 99 00:04:46,140 --> 00:04:47,990 这就是算术平均数 100 00:04:47,990 --> 00:04:49,180 的定义。 101 00:04:49,180 --> 00:04:52,700 这不是纯计算 102 00:04:52,700 --> 00:04:55,005 比如说求圆的周长, 103 00:04:55,005 --> 00:04:56,880 这就是——一种——我们 104 00:04:56,880 --> 00:04:57,840 了解这个宇宙的方式。 105 00:04:57,840 --> 00:05:00,600 这不是了解宇宙的方式。 106 00:05:00,600 --> 00:05:02,250 这是人类发明的一个 107 00:05:02,250 --> 00:05:04,110 对人类很有帮助的定义。 108 00:05:04,110 --> 00:05:07,260 现在还有其他的方式来计算平均数 109 00:05:07,260 --> 00:05:10,130 或者说找一个典型的数字或者说中间值。 110 00:05:10,130 --> 00:05:14,470 其中一种非常典型的方式就是中位数。 111 00:05:14,470 --> 00:05:15,667 我来写中位数。 112 00:05:15,667 --> 00:05:16,750 我没有新的颜色了。 113 00:05:16,750 --> 00:05:18,660 我用粉色来写中位数。 114 00:05:18,660 --> 00:05:21,280 这就是中位数。 115 00:05:21,280 --> 00:05:25,160 中位数就是字面意思去找那个中间的数字。 116 00:05:25,160 --> 00:05:27,350 所以如果你将集合里所有数字都排好序 117 00:05:27,350 --> 00:05:31,460 然后找到最中间的那个数字,这就是中位数。 118 00:05:31,460 --> 00:05:34,050 据此来看,这组数字的中位数 119 00:05:34,050 --> 00:05:35,806 是什么呢? 120 00:05:35,806 --> 00:05:36,930 让我们来找一下。 121 00:05:36,930 --> 00:05:38,170 我们先来排序。 122 00:05:38,170 --> 00:05:39,810 首先是1。 123 00:05:39,810 --> 00:05:41,010 还有一个1。 124 00:05:41,010 --> 00:05:42,860 然后是一个3。 125 00:05:42,860 --> 00:05:46,630 然后是一个4、一个6、一个7。 126 00:05:46,630 --> 00:05:48,700 所以我刚才只是重新排序了。 127 00:05:48,700 --> 00:05:50,890 那中间的数字是多少呢? 128 00:05:50,890 --> 00:05:52,320 你看这里。 129 00:05:52,320 --> 00:05:54,960 因为这组数据是偶数的,我们有6个数字, 130 00:05:54,960 --> 00:05:57,260 所以没有一个中间的数字。 131 00:05:57,260 --> 00:05:59,650 那你就需要找出这里中间的那两个数字。 132 00:05:59,650 --> 00:06:02,050 这里有两个中间的数字。 133 00:06:02,050 --> 00:06:03,160 3和4。 134 00:06:03,160 --> 00:06:05,940 所以这总情况下,当有连个中间的数字, 135 00:06:05,940 --> 00:06:09,640 你就需要取这两个数字的中点数。 136 00:06:09,640 --> 00:06:12,080 本质上就是取这两个数字 137 00:06:12,080 --> 00:06:14,272 的算术平均数为中位数。 138 00:06:14,272 --> 00:06:16,230 因此中位数就是 139 00:06:16,230 --> 00:06:19,190 3和4之间的数,也就是3.5。 140 00:06:19,190 --> 00:06:24,424 因此这里的中位数就是3.5。 141 00:06:24,424 --> 00:06:26,590 所以假如你的数据是偶数个的,中位数 142 00:06:26,590 --> 00:06:28,714 或者说中间的两个数,本质上 143 00:06:28,714 --> 00:06:31,329 就是中间两个数的算术平均数,或者说中间两个数字之间的中点数。 144 00:06:31,329 --> 00:06:32,870 如果数据是奇数个的, 145 00:06:32,870 --> 00:06:34,270 那就更容易算出来了。 146 00:06:34,270 --> 00:06:35,644 为了让大家看得更明白,让我 147 00:06:35,644 --> 00:06:36,920 再给出一组数据。 148 00:06:36,920 --> 00:06:39,030 假设这组数据——我会 149 00:06:39,030 --> 00:06:41,740 先排好序——假设这组数据 150 00:06:41,740 --> 00:06:55,689 是0、7、50,然后,10000,最后1000000。 151 00:06:55,689 --> 00:06:56,980 假设这就是我们的数据。 152 00:06:56,980 --> 00:06:58,450 偏差挺大的数据。 153 00:06:58,450 --> 00:07:02,400 在这种情况下,中位数是多少呢? 154 00:07:02,400 --> 00:07:04,045 这里有5个数字。 155 00:07:04,045 --> 00:07:05,420 也就是奇数个数字。 156 00:07:05,420 --> 00:07:07,200 所以很容易找到中间数。 157 00:07:07,200 --> 00:07:12,040 中间数就是大于其中两个数 158 00:07:12,040 --> 00:07:13,540 又小于另外两个数。 159 00:07:13,540 --> 00:07:14,760 那就正好是中间的数字了。 160 00:07:14,760 --> 00:07:18,840 所以在这道题目里,中位数是50。 161 00:07:18,840 --> 00:07:20,742 现在,第三种方式来表示集中的数字, 162 00:07:20,742 --> 00:07:22,200 这也可能是 163 00:07:22,200 --> 00:07:26,426 生活中用得最少的情况了,就是众数。 164 00:07:26,426 --> 00:07:27,800 人们通常会将它遗忘。 165 00:07:27,800 --> 00:07:29,852 听着好像很复杂。 166 00:07:29,852 --> 00:07:31,310 其实实际上就是 167 00:07:31,310 --> 00:07:33,080 一个非常直观的概念。 168 00:07:33,080 --> 00:07:36,180 在某些情况下,它就是最基础的数据。 169 00:07:36,180 --> 00:07:40,510 众数就是数据组里出现次数最多的那个数字。 170 00:07:40,510 --> 00:07:41,885 如果有一个出现次数最多的数字。 171 00:07:41,885 --> 00:07:43,801 如果所有的数字出现的次数都相同, 172 00:07:43,801 --> 00:07:45,760 如果没有某一个特定数字出现的次数更多, 173 00:07:45,760 --> 00:07:47,320 那么就没有众数。 174 00:07:47,320 --> 00:07:50,240 根据众数的定义来看, 175 00:07:50,240 --> 00:07:54,190 在最初的这组数据里, 176 00:07:54,190 --> 00:07:58,300 出现次数最多的数字是哪一个呢? 177 00:07:58,300 --> 00:08:00,100 这里只有一个4。 178 00:08:00,100 --> 00:08:01,490 只有一个3。 179 00:08:01,490 --> 00:08:03,370 但有两个1。 180 00:08:03,370 --> 00:08:04,880 还有一个6和一个7。 181 00:08:04,880 --> 00:08:08,730 所以这里出现次数最多的数字 182 00:08:08,730 --> 00:08:11,060 就是1。 183 00:08:11,060 --> 00:08:14,070 所以众数,最典型的数字,出现次数最多的数字 184 00:08:14,070 --> 00:08:17,610 就是1。 185 00:08:17,610 --> 00:08:19,590 所以,你看,这些都是用不同的方式 186 00:08:19,590 --> 00:08:23,320 来尝试表述一个特定的,或者说中间的,集中的数字。 187 00:08:23,320 --> 00:08:25,600 但它们的做法完全不同。 188 00:08:25,600 --> 00:08:27,350 随着我们更深入学习统计学, 189 00:08:27,350 --> 00:08:29,760 我们会看到它们在不同情况下的优势的。 190 00:08:29,760 --> 00:08:31,730 这些都是很常见的。 191 00:08:31,730 --> 00:08:34,574 当数据偏差很大的时候中位数就是很好的代表 192 00:08:34,574 --> 00:08:35,990 否则就会把算术平均数 193 00:08:35,990 --> 00:08:38,100 扭曲了。 194 00:08:38,100 --> 00:08:41,449 众数在某些情况下很有用, 195 00:08:41,449 --> 00:08:43,240 特别是当某一个数字出现的次数 196 00:08:43,240 --> 00:08:45,960 及其频繁的时候。 197 00:08:45,960 --> 00:08:47,570 无论如何,我就先讲到这里。 198 00:08:47,570 --> 00:08:51,710 然后我们——在接下来的几期视频中,我们会更深入地 199 00:08:51,710 --> 00:08:53,260 学习统计学。