< Return to Video

平均值和标准差与中位数和四分位距

  • 0:01 - 0:03
    [旁白]我们有九个学生,他们最近
  • 0:03 - 0:08
    从一个班级规模为9人的小学校毕业。
  • 0:08 - 0:11
    他们想知道他们毕业一年后工资
  • 0:11 - 0:14
    的集中趋势是什么?
  • 0:14 - 0:17
    他们还想了解一下毕业一年后工资的
  • 0:17 - 0:20
    集中趋势周围的分布情况。
  • 0:20 - 0:24
    为此,他们都同意把他们的工资输入电脑。
  • 0:24 - 0:26
    这些是他们的工资情况。
  • 0:26 - 0:27
    它们是以千为单位计算的。
  • 0:27 - 0:31
    有人每年赚35,000,50,000,50,000,50000,56,000
  • 0:31 - 0:35
    有两个人赚60,000,有一个赚75,000,还有一个赚250,000。
  • 0:35 - 0:37
    这个人很能赚钱。
  • 0:37 - 0:41
    电脑就会基于这些数据
  • 0:41 - 0:43
    提供一堆的参数。
  • 0:43 - 0:47
    它给出了两个典型的关于集中趋势的测量指标。
  • 0:47 - 0:50
    平均数大约是76.2。
  • 0:50 - 0:53
    计算机会把所有这些数加起来,
  • 0:53 - 0:56
    把这九个数字加起来,然后除以9。
  • 0:56 - 1:00
    中位数是56,中位数是很容易计算的。
  • 1:00 - 1:02
    你只需将这些数字排序,然后
  • 1:02 - 1:05
    取这里的中间数字,是56。
  • 1:05 - 1:08
    现在我想让你暂停一下这个视频
  • 1:08 - 1:10
    并思考这个数据集。
  • 1:10 - 1:14
    对于这个工资总体,哪种
  • 1:14 - 1:19
    关于集中趋势的衡量指标会比较好呢?
  • 1:19 - 1:21
    好的,让我们来思考一下这个问题。
  • 1:21 - 1:24
    我在这里画一条数轴。
  • 1:24 - 1:26
    我把数据全都画在这个数轴上,这样我们就能更好地了解。
  • 1:26 - 1:28
    我们没有办法看到精确的数字,
  • 1:28 - 1:31
    但是我们能看到的是这些数字
  • 1:31 - 1:33
    相对于彼此的位置。
  • 1:33 - 1:35
    我们说这里是零。
  • 1:35 - 1:39
    我们说这是,让我看看,一,二,三,四,五。
  • 1:42 - 1:46
    所以这是250,这是50,100,150,200,200。
  • 1:52 - 1:53
    让我们来看看。
  • 1:53 - 1:56
    比方说,如果这里是50,那么这个就
  • 1:56 - 1:59
    大概是40,我只是粗略地估计一下。
  • 1:59 - 2:04
    这里大概是60、70、80、90,分布得挺平均的。
  • 2:04 - 2:06
    我可以把这个画得更整齐一点。
  • 2:06 - 2:07
    60、70、80、90。
  • 2:09 - 2:12
    让我把这里也调整一下。
  • 2:12 - 2:14
    这里的这个40应该
  • 2:14 - 2:17
    离这个50稍微近一点。
  • 2:18 - 2:22
    让我把40画在这里。
  • 2:22 - 2:26
    所以那是40,然后这个是30,20,10。
  • 2:27 - 2:29
    好的,数轴看上去不错。
  • 2:29 - 2:30
    让我们把数据都标上去。
  • 2:30 - 2:34
    一个学生赚了35,000,画在那边。
  • 2:36 - 2:38
    有两个人赚50,000,不,是三个人赚50,000。
  • 2:38 - 2:40
    所以,画一个、两个和三个点。
  • 2:42 - 2:44
    画在这里。
  • 2:44 - 2:48
    有一个人赚56,000个,画在这里。
  • 2:50 - 2:53
    一个人赚60,000,不对,实际上是两个人赚60,000。
  • 2:53 - 2:55
    这样画
  • 2:55 - 2:58
    一个人赚75,000,这里是60、70、75,000。
  • 3:00 - 3:02
    所以画在这里。
  • 3:02 - 3:04
    然后一个人赚250,000。
  • 3:04 - 3:08
    就那一个人的工资是在这里。
  • 3:08 - 3:11
    我们计算出平均值为76.2
  • 3:11 - 3:13
    并把它作为我们对集中趋势的衡量。
  • 3:13 - 3:15
    76.2大概在这里。
  • 3:17 - 3:21
    那么,平均数是一个好的衡量集中趋势的指标吗?
  • 3:21 - 3:23
    对我来说,感觉不是那么好。
  • 3:23 - 3:26
    因为我们这个衡量集中趋势的指标现在
  • 3:26 - 3:30
    除了一个数据以外比所有的的数据点都要大,
  • 3:30 - 3:34
    而原因是就是这个例外的数据点,
  • 3:34 - 3:37
    我们的数据因为这个在$250,000的数据点而产生严重的偏斜。
  • 3:39 - 3:41
    它与整个分布的其他部分离得太远了。
  • 3:41 - 3:45
    它与其他数据离得太远了,这导致平均数产生了偏移。
  • 3:45 - 3:47
    这种情况经常发生。
  • 3:47 - 3:50
    如果你的数据是偏斜的,特别是像
  • 3:50 - 3:53
    这种工资数据里,
  • 3:53 - 3:56
    大多数人都赚50, 60, 70,000美元,但有人可能赚到两百万美元。
  • 3:56 - 4:00
    而这就会使平均值或平均数出现偏差,
  • 4:00 - 4:02
    因为你要把它们全部加起来,
  • 4:02 - 4:03
    然后除以数据点的个数。
  • 4:03 - 4:06
    在这种情况下,特别是当你的数据点
  • 4:06 - 4:10
    会使平均数出现偏移时,中位数会显得比较可靠。
  • 4:10 - 4:14
    中位数是56,就在这里,
  • 4:14 - 4:17
    中位数似乎对集中趋势的指示性要强得多。
  • 4:17 - 4:19
    让我们这样想。
  • 4:19 - 4:22
    假设最后这个数据点不是250,000(25万)
  • 4:22 - 4:26
    而是250,000,000,也就是2.5亿
  • 4:26 - 4:29
    这是一笔巨大的收入。
  • 4:29 - 4:33
    它会使平均值产生非常离谱的偏移,
  • 4:33 - 4:36
    但这里它对中位数不会产生任何影响。
  • 4:36 - 4:37
    因为中位数
  • 4:37 - 4:39
    和最后一个数多大没有任何关系。
  • 4:39 - 4:40
    最后这个数据可以是一万亿美元,
  • 4:40 - 4:42
    可以是十万亿美元,
  • 4:42 - 4:44
    而中位数始终不变。
  • 4:44 - 4:46
    因此,当你的数据集存在偏斜时,
  • 4:46 - 4:48
    中位数更可靠。
  • 4:48 - 4:52
    而在以下情况中,平均数就更有意义了:当你的数据集是对称的;
  • 4:52 - 4:55
  • 4:55 - 4:57
    或者数据大致处于平均值之上和之下的地方;
  • 4:57 - 5:00
    或者数据没有朝着一个方向偏斜,
  • 5:00 - 5:01
  • 5:01 - 5:04
    尤其是像这个例子只有少量数据的时候。
  • 5:04 - 5:07
  • 5:07 - 5:10
  • 5:10 - 5:11
  • 5:11 - 5:14
  • 5:14 - 5:16
  • 5:16 - 5:18
  • 5:18 - 5:22
  • 5:22 - 5:25
  • 5:25 - 5:28
  • 5:28 - 5:31
  • 5:31 - 5:35
  • 5:35 - 5:38
  • 5:38 - 5:41
  • 5:41 - 5:45
  • 5:45 - 5:48
  • 5:48 - 5:50
  • 5:50 - 5:53
  • 5:53 - 5:57
  • 5:57 - 6:00
  • 6:00 - 6:02
  • 6:02 - 6:05
  • 6:05 - 6:07
  • 6:07 - 6:11
  • 6:11 - 6:13
  • 6:13 - 6:15
  • 6:15 - 6:19
  • 6:19 - 6:22
  • 6:22 - 6:25
  • 6:25 - 6:29
  • 6:29 - 6:31
  • 6:31 - 6:33
  • 6:33 - 6:35
  • 6:35 - 6:36
  • 6:36 - 6:39
  • 6:39 - 6:43
  • 6:43 - 6:45
  • 6:45 - 6:48
  • 6:48 - 6:52
  • 6:52 - 6:55
  • 6:56 - 6:59
  • 6:59 - 7:02
  • 7:02 - 7:05
  • 7:05 - 7:07
  • 7:07 - 7:10
  • 7:10 - 7:13
  • 7:13 - 7:16
  • 7:16 - 7:19
  • 7:19 - 7:23
  • 7:23 - 7:26
  • 7:26 - 7:28
  • 7:28 - 7:30
  • 7:30 - 7:32
  • 7:32 - 7:35
  • 7:35 - 7:39
  • 7:39 - 7:42
  • 7:42 - 7:46
  • 7:46 - 7:49
  • 7:49 - 7:52
  • 7:52 - 7:56
Title:
平均值和标准差与中位数和四分位距
Description:

当一组数据中存在异常值时,学会选择能衡量中心与分布的 "首选 "指标。

练习该学科或者看更多相关课程
http://www.khanacademy.org/math/ap-statistics/summarizing-quantitative-data-ap/measuring-spread-quantitative/v/mean-and-standard-deviation-versus-median-and-iqr?utm_source=youtube&utm_medium=desc&utm_campaign=apstatistics

可汗学院的AP统计学:认识一下我们的AP统计学作者之一,杰夫。杰夫曾在密歇根州卡拉马祖市担任过10年的高中教师,教过代数1、几何、代数2、统计学入门和AP统计学。如今,他正投入为AP统计学创作新的习题和文章。

可汗学院是一家非营利组织,其使命是为任何地方的任何人提供免费的世界级教育。 我们提供涵盖数学、生物、化学、物理、历史、经济、金融、语法、学前教育等多个学术领域的测验、习题、讲解视频及文章。我们为教师提供工具和数据等资源,让他们能够帮助学生培养出学业及未来成功所必需的技能、习惯和心态。 可汗学院已被翻译成数十种语言,在世界各地每个月都有1.5亿用户在可汗学院上进行学习。作为一家符合501(c)(3)条款的非营利组织,我们需要你的帮助!今天就成为我们捐赠人或志愿者吧!

在线捐款: https://www.khanacademy.org/donate?utm_source=youtube&utm_medium=desc

成为志愿者:https://www.khanacademy.org/contribute?utm_source=youtube&utm_medium=desc

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
07:59

Chinese, Simplified subtitles

Revisions Compare revisions