< Return to Video

平均值和标准差与中位数和四分位距

  • 0:01 - 0:03
    [旁白]我们有九个学生,他们最近
  • 0:03 - 0:08
    从一个班级规模为9人的小学校毕业。
  • 0:08 - 0:11
    他们想知道他们毕业一年后
  • 0:11 - 0:14
    工资的集中趋势是什么?
  • 0:14 - 0:17
    他们还想了解一下毕业一年后工资的
  • 0:17 - 0:20
    集中趋势周围的分布情况。
  • 0:20 - 0:24
    为此,他们都同意把他们的工资输入电脑。
  • 0:24 - 0:26
    这些是他们的工资情况。
  • 0:26 - 0:27
    它们是以千为单位计算的。
  • 0:27 - 0:31
    这些人每年各赚35,000,50,000,50,000,50000,56,000
  • 0:31 - 0:35
    有两个人赚60,000,有一个人赚75,000,还有一个人赚250,000。
  • 0:35 - 0:37
    这个人很能赚钱。
  • 0:37 - 0:41
    电脑会基于这些数据
  • 0:41 - 0:43
    提供一些的参数。
  • 0:43 - 0:47
    它给出了两个典型的衡量集中趋势的指标。
  • 0:47 - 0:50
    平均数大约是76.2。
  • 0:50 - 0:53
    计算机会把所有这些数加起来,
  • 0:53 - 0:56
    把这九个数字加起来,然后除以9。
  • 0:56 - 1:00
    中位数是56,中位数是很容易计算的。
  • 1:00 - 1:02
    你只需将这些数字排序,然后
  • 1:02 - 1:05
    取这里的中间数字,是56。
  • 1:05 - 1:08
    现在我想让你暂停一下这个视频
  • 1:08 - 1:10
    并思考这个数据集。
  • 1:10 - 1:14
    对于这个工资总体,
  • 1:14 - 1:19
    哪种衡量集中趋势的指标会比较好呢?
  • 1:19 - 1:21
    好的,让我们来思考一下这个问题。
  • 1:21 - 1:24
    我在这里画一条数轴。
  • 1:24 - 1:26
    我把数据全都画在这个数轴上,这样我们就能更好地了解。
  • 1:26 - 1:28
    我们没有办法看到精确的数字,
  • 1:28 - 1:31
    但是我们能看到的是这些数字
  • 1:31 - 1:33
    相对于彼此的位置。
  • 1:33 - 1:35
    我们说这里是零。
  • 1:35 - 1:39
    我们说这是,让我看看,一,二,三,四,五。
  • 1:42 - 1:46
    所以这是250,这是50,100,150,200。
  • 1:52 - 1:53
    让我们来看看。
  • 1:53 - 1:56
    比方说,如果这里是50,那么这个就
  • 1:56 - 1:59
    大概是40,我只是粗略地估计一下。
  • 1:59 - 2:04
    这里大概是60、70、80、90,分布得挺平均的。
  • 2:04 - 2:06
    我可以把这个画得更整齐一点。
  • 2:06 - 2:07
    60、70、80、90。
  • 2:09 - 2:12
    让我把这里也调整一下。
  • 2:12 - 2:14
    这里的这个40应该
  • 2:14 - 2:17
    离这个50稍微近一点。
  • 2:18 - 2:22
    让我把40画在这里。
  • 2:22 - 2:26
    所以那是40,然后这个是30,20,10。
  • 2:27 - 2:29
    好的,数轴看上去不错。
  • 2:29 - 2:30
    让我们把数据都标上去。
  • 2:30 - 2:34
    一个学生赚了35,000,画在那边。
  • 2:36 - 2:38
    有两个人赚50,000,不,是三个人赚50,000。
  • 2:38 - 2:40
    所以,画一个、两个和三个点。
  • 2:42 - 2:44
    画在这里。
  • 2:44 - 2:48
    有一个人赚56,000个,画在这里。
  • 2:50 - 2:53
    一个人赚60,000,不对,实际上是两个人赚60,000。
  • 2:53 - 2:55
    这样画
  • 2:55 - 2:58
    一个人赚7.5万,这里是6万、7万、7.5万。
  • 3:00 - 3:02
    所以画在这里。
  • 3:02 - 3:04
    然后一个人赚25万。
  • 3:04 - 3:08
    就那一个人的工资是在这里。
  • 3:08 - 3:11
    我们计算出平均值为76.2
  • 3:11 - 3:13
    并把它作为我们对集中趋势的衡量。
  • 3:13 - 3:15
    76.2大概在这里。
  • 3:17 - 3:21
    那么,平均数是一个好的衡量集中趋势的指标吗?
  • 3:21 - 3:23
    对我来说,感觉不是那么好。
  • 3:23 - 3:26
    因为这个衡量集中趋势的指标(平均数)现在
  • 3:26 - 3:30
    除了一个数据以外比所有的的数据点都要大。
  • 3:30 - 3:34
    而原因是就是这个例外的数据点,
  • 3:34 - 3:37
    我们的数据因为这个在25万的数据点而产生严重的偏斜。
  • 3:39 - 3:41
    它与整个分布的其他部分离得太远了。
  • 3:41 - 3:45
    它与其他数据离得太远了,这导致平均数产生了偏移。
  • 3:45 - 3:47
    这种情况经常发生。
  • 3:47 - 3:50
    如果你的数据是偏斜的,特别是像
  • 3:50 - 3:53
    这种工资数据里,
  • 3:53 - 3:56
    大多数人都赚5万、6万、7万块,但有人可能赚到两百万。
  • 3:56 - 4:00
    而这就会使平均值或平均数出现偏差,
  • 4:00 - 4:02
    因为你要把它们全部加起来,
  • 4:02 - 4:03
    然后除以数据点的个数。
  • 4:03 - 4:06
    在这种情况下,特别是当你的数据点
  • 4:06 - 4:10
    会使平均数出现偏移时,中位数会显得比较可靠。
  • 4:10 - 4:14
    中位数是56,就在这里,
  • 4:14 - 4:17
    中位数似乎对集中趋势的指示性要强得多。
  • 4:17 - 4:19
    让我们这样想。
  • 4:19 - 4:22
    假设最后这个数据点不是250,000(25万)
  • 4:22 - 4:26
    而是250,000,000,也就是2.5亿
  • 4:26 - 4:29
    这是一笔巨大的收入。
  • 4:29 - 4:33
    它会使平均值产生非常离谱的偏移,
  • 4:33 - 4:36
    但这里它对中位数不会产生任何影响。
  • 4:36 - 4:37
    因为中位数
  • 4:37 - 4:39
    和最后一个数多大没有任何关系。
  • 4:39 - 4:40
    最后这个数据可以是一万亿美元,
  • 4:40 - 4:42
    可以是十万亿美元,
  • 4:42 - 4:44
    而中位数始终不变。
  • 4:44 - 4:46
    因此,当你的数据集存在偏态时,
  • 4:46 - 4:48
    中位数更可靠。
  • 4:48 - 4:52
    而在以下情况中,平均数就更有意义了:当你的数据集是对称的;
  • 4:52 - 4:57
    或者数据大致处于平均值之上和之下的地方;
  • 4:57 - 5:00
    或者数据没有朝着一个方向偏态,
  • 5:00 - 5:04
    尤其是像这个例子只有少量数据的时候。
  • 5:04 - 5:07
    在这个例子中,中位数是一个更加好的
  • 5:07 - 5:10
    衡量集中趋势的指标。
  • 5:10 - 5:11
    那么数据的扩散该用哪个指标呢?
  • 5:11 - 5:14
    你可能会想,我已经告诉你们了
  • 5:14 - 5:16
    平均数在这里不是好的指标,
  • 5:16 - 5:18
    而标准差是基于平均值的。
  • 5:18 - 5:22
    你计算每一个数据点到平均值的距离,
  • 5:22 - 5:25
    将这些数字平方,然后将这些平方相加,
  • 5:25 - 5:28
    除以数据点的个数。
  • 5:28 - 5:31
    如果我们是在计算总体标准差,
  • 5:31 - 5:35
    那么你需要把刚刚得出的数字开根号。
  • 5:35 - 5:38
    既然这是基于平均数的,而平均数
  • 5:38 - 5:41
    并不是一个好的衡量集中趋势的指标,
  • 5:41 - 5:45
    那么这个异常值也同样会使标准差产生偏移。
  • 5:45 - 5:48
    得到的标准差非常大,
  • 5:48 - 5:50
    而这个标准差体现的分布
  • 5:50 - 5:53
    比你看到的实际分布情况要大得多。
  • 5:53 - 5:57
    是的,因为你有这一个数据点,
  • 5:57 - 6:00
    它离平均数或中位数都很远
  • 6:00 - 6:02
    取决于你想用那种指标,但是大部分的数据点
  • 6:02 - 6:05
    似乎都更加接近这两个指标。所以对于这种情况,
  • 6:05 - 6:07
    我们不但选择使用中位数,
  • 6:07 - 6:11
    而且四分位距也是更可靠的。
  • 6:11 - 6:13
    我们如何计算四分位距?
  • 6:13 - 6:15
    你先取中位数,然后再取
  • 6:15 - 6:19
    前半部分的数据,并计算它们的中位数。
  • 6:19 - 6:22
    前半部分的中位数是50。
  • 6:22 - 6:25
    然后你取后半部分的数据,
  • 6:25 - 6:29
    它们的中位数是,60和75的平均值,也就是67.5。
  • 6:29 - 6:31
    如果你对这个计算步骤不是很熟悉,
  • 6:31 - 6:33
    我们有很多
  • 6:33 - 6:35
    关于四分位距和计算标准差、中位数和平均数的视频。
  • 6:35 - 6:36
    这里只是大致复习一下。
  • 6:36 - 6:39
    两个中位数的差值是17.5
  • 6:39 - 6:43
    注意,这两个数之间的距离,也就是这个17.5,
  • 6:43 - 6:45
    它是不会变的,
  • 6:45 - 6:48
    即使这变成了2500亿元。
  • 6:48 - 6:52
    因此,再一次声明,当你的数据集存在偏态时,
  • 6:52 - 6:55
    右边这两种指标是更可靠的,
  • 6:56 - 6:59
    还有一个需要强调的是,如果你的数据集大致对称的话,
  • 6:59 - 7:02
    平均数和标准差并没有什么问题。
  • 7:02 - 7:05
    如果数据集里没有明显的异常值
  • 7:05 - 7:07
    导致数据产生偏斜时,
  • 7:07 - 7:10
    平均数和标准差也是很可靠的。
  • 7:10 - 7:13
    但是,如果你的数据会因为
  • 7:13 - 7:16
    少量数据产生严重偏移,那么中位数
  • 7:16 - 7:19
    中位数和四分位距会更可靠。
    中位数体现集中趋势,
  • 7:19 - 7:23
    四分位距体现集中趋势附近分布。
  • 7:23 - 7:26
    这就是为什么你会看到人们在谈论工资时,
  • 7:26 - 7:28
    会经常谈论中位数,
  • 7:28 - 7:30
    因为工资的数据往往是像上偏移的。
  • 7:30 - 7:32
    当我们谈论像房屋价格这样的事时,你会发现
  • 7:32 - 7:35
    中位数往往比平均值更有代表性。
  • 7:35 - 7:39
    因为一个社区的房价,
  • 7:39 - 7:42
    或者一个城市的房价,很多房子可能
  • 7:42 - 7:46
    在20万到30万左右,但也许有一个巨大的豪宅
  • 7:46 - 7:49
    售价1亿元。如果你计算一下平均价格,
  • 7:49 - 7:52
    那就会出现偏移,而这会给人
  • 7:52 - 7:56
    该城市房价的均价或集中趋势的错误印象。
Title:
平均值和标准差与中位数和四分位距
Description:

当一组数据中存在异常值时,学会选择能衡量中心与分布的 "首选 "指标。

练习该学科或者看更多相关课程
http://www.khanacademy.org/math/ap-statistics/summarizing-quantitative-data-ap/measuring-spread-quantitative/v/mean-and-standard-deviation-versus-median-and-iqr?utm_source=youtube&utm_medium=desc&utm_campaign=apstatistics

可汗学院的AP统计学:认识一下我们的AP统计学作者之一,Jeff。Jeff 曾在密歇根州卡拉马祖市担任过10年的高中教师,教过代数1、几何、代数2、统计学入门和AP统计学。如今,他正为AP统计学创作新的习题和文章。

可汗学院是一家非营利组织,其使命是为任何地方的任何人提供免费的世界级教育。 我们提供涵盖数学、生物、化学、物理、历史、经济、金融、语法、学前教育等多个学术领域的测验、习题、讲解视频及文章。我们为教师提供工具和数据等资源,让他们能够帮助学生培养出学业及未来成功所必需的技能、习惯和心态。 可汗学院已被翻译成数十种语言,在世界各地每个月都有1.5亿用户在可汗学院上进行学习。作为一家符合501(c)(3)条款的非营利组织,我们需要你的帮助!今天就成为我们捐赠人或志愿者吧!

在线捐款: https://www.khanacademy.org/donate?utm_source=youtube&utm_medium=desc

成为志愿者:https://www.khanacademy.org/contribute?utm_source=youtube&utm_medium=desc

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
07:59

Chinese, Simplified subtitles

Revisions Compare revisions