平均值和标准差与中位数和四分位距
-
0:01 - 0:03[旁白]我们有九个学生,他们最近
-
0:03 - 0:08从一个班级规模为9人的小学校毕业。
-
0:08 - 0:11他们想知道他们毕业一年后
-
0:11 - 0:14工资的集中趋势是什么?
-
0:14 - 0:17他们还想了解一下毕业一年后工资的
-
0:17 - 0:20集中趋势周围的分布情况。
-
0:20 - 0:24为此,他们都同意把他们的工资输入电脑。
-
0:24 - 0:26这些是他们的工资情况。
-
0:26 - 0:27它们是以千为单位计算的。
-
0:27 - 0:31这些人每年各赚35,000,50,000,50,000,50000,56,000
-
0:31 - 0:35有两个人赚60,000,有一个人赚75,000,还有一个人赚250,000。
-
0:35 - 0:37这个人很能赚钱。
-
0:37 - 0:41电脑会基于这些数据
-
0:41 - 0:43提供一些的参数。
-
0:43 - 0:47它给出了两个典型的衡量集中趋势的指标。
-
0:47 - 0:50平均数大约是76.2。
-
0:50 - 0:53计算机会把所有这些数加起来,
-
0:53 - 0:56把这九个数字加起来,然后除以9。
-
0:56 - 1:00中位数是56,中位数是很容易计算的。
-
1:00 - 1:02你只需将这些数字排序,然后
-
1:02 - 1:05取这里的中间数字,是56。
-
1:05 - 1:08现在我想让你暂停一下这个视频
-
1:08 - 1:10并思考这个数据集。
-
1:10 - 1:14对于这个工资总体,
-
1:14 - 1:19哪种衡量集中趋势的指标会比较好呢?
-
1:19 - 1:21好的,让我们来思考一下这个问题。
-
1:21 - 1:24我在这里画一条数轴。
-
1:24 - 1:26我把数据全都画在这个数轴上,这样我们就能更好地了解。
-
1:26 - 1:28我们没有办法看到精确的数字,
-
1:28 - 1:31但是我们能看到的是这些数字
-
1:31 - 1:33相对于彼此的位置。
-
1:33 - 1:35我们说这里是零。
-
1:35 - 1:39我们说这是,让我看看,一,二,三,四,五。
-
1:42 - 1:46所以这是250,这是50,100,150,200。
-
1:52 - 1:53让我们来看看。
-
1:53 - 1:56比方说,如果这里是50,那么这个就
-
1:56 - 1:59大概是40,我只是粗略地估计一下。
-
1:59 - 2:04这里大概是60、70、80、90,分布得挺平均的。
-
2:04 - 2:06我可以把这个画得更整齐一点。
-
2:06 - 2:0760、70、80、90。
-
2:09 - 2:12让我把这里也调整一下。
-
2:12 - 2:14这里的这个40应该
-
2:14 - 2:17离这个50稍微近一点。
-
2:18 - 2:22让我把40画在这里。
-
2:22 - 2:26所以那是40,然后这个是30,20,10。
-
2:27 - 2:29好的,数轴看上去不错。
-
2:29 - 2:30让我们把数据都标上去。
-
2:30 - 2:34一个学生赚了35,000,画在那边。
-
2:36 - 2:38有两个人赚50,000,不,是三个人赚50,000。
-
2:38 - 2:40所以,画一个、两个和三个点。
-
2:42 - 2:44画在这里。
-
2:44 - 2:48有一个人赚56,000个,画在这里。
-
2:50 - 2:53一个人赚60,000,不对,实际上是两个人赚60,000。
-
2:53 - 2:55这样画
-
2:55 - 2:58一个人赚7.5万,这里是6万、7万、7.5万。
-
3:00 - 3:02所以画在这里。
-
3:02 - 3:04然后一个人赚25万。
-
3:04 - 3:08就那一个人的工资是在这里。
-
3:08 - 3:11我们计算出平均值为76.2
-
3:11 - 3:13并把它作为我们对集中趋势的衡量。
-
3:13 - 3:1576.2大概在这里。
-
3:17 - 3:21那么,平均数是一个好的衡量集中趋势的指标吗?
-
3:21 - 3:23对我来说,感觉不是那么好。
-
3:23 - 3:26因为这个衡量集中趋势的指标(平均数)现在
-
3:26 - 3:30除了一个数据以外比所有的的数据点都要大。
-
3:30 - 3:34而原因是就是这个例外的数据点,
-
3:34 - 3:37我们的数据因为这个在25万的数据点而产生严重的偏斜。
-
3:39 - 3:41它与整个分布的其他部分离得太远了。
-
3:41 - 3:45它与其他数据离得太远了,这导致平均数产生了偏移。
-
3:45 - 3:47这种情况经常发生。
-
3:47 - 3:50如果你的数据是偏斜的,特别是像
-
3:50 - 3:53这种工资数据里,
-
3:53 - 3:56大多数人都赚5万、6万、7万块,但有人可能赚到两百万。
-
3:56 - 4:00而这就会使平均值或平均数出现偏差,
-
4:00 - 4:02因为你要把它们全部加起来,
-
4:02 - 4:03然后除以数据点的个数。
-
4:03 - 4:06在这种情况下,特别是当你的数据点
-
4:06 - 4:10会使平均数出现偏移时,中位数会显得比较可靠。
-
4:10 - 4:14中位数是56,就在这里,
-
4:14 - 4:17中位数似乎对集中趋势的指示性要强得多。
-
4:17 - 4:19让我们这样想。
-
4:19 - 4:22假设最后这个数据点不是250,000(25万)
-
4:22 - 4:26而是250,000,000,也就是2.5亿
-
4:26 - 4:29这是一笔巨大的收入。
-
4:29 - 4:33它会使平均值产生非常离谱的偏移,
-
4:33 - 4:36但这里它对中位数不会产生任何影响。
-
4:36 - 4:37因为中位数
-
4:37 - 4:39和最后一个数多大没有任何关系。
-
4:39 - 4:40最后这个数据可以是一万亿美元,
-
4:40 - 4:42可以是十万亿美元,
-
4:42 - 4:44而中位数始终不变。
-
4:44 - 4:46因此,当你的数据集存在偏态时,
-
4:46 - 4:48中位数更可靠。
-
4:48 - 4:52而在以下情况中,平均数就更有意义了:当你的数据集是对称的;
-
4:52 - 4:57或者数据大致处于平均值之上和之下的地方;
-
4:57 - 5:00或者数据没有朝着一个方向偏态,
-
5:00 - 5:04尤其是像这个例子只有少量数据的时候。
-
5:04 - 5:07在这个例子中,中位数是一个更加好的
-
5:07 - 5:10衡量集中趋势的指标。
-
5:10 - 5:11那么数据的扩散该用哪个指标呢?
-
5:11 - 5:14你可能会想,我已经告诉你们了
-
5:14 - 5:16平均数在这里不是好的指标,
-
5:16 - 5:18而标准差是基于平均值的。
-
5:18 - 5:22你计算每一个数据点到平均值的距离,
-
5:22 - 5:25将这些数字平方,然后将这些平方相加,
-
5:25 - 5:28除以数据点的个数。
-
5:28 - 5:31如果我们是在计算总体标准差,
-
5:31 - 5:35那么你需要把刚刚得出的数字开根号。
-
5:35 - 5:38既然这是基于平均数的,而平均数
-
5:38 - 5:41并不是一个好的衡量集中趋势的指标,
-
5:41 - 5:45那么这个异常值也同样会使标准差产生偏移。
-
5:45 - 5:48得到的标准差非常大,
-
5:48 - 5:50而这个标准差体现的分布
-
5:50 - 5:53比你看到的实际分布情况要大得多。
-
5:53 - 5:57是的,因为你有这一个数据点,
-
5:57 - 6:00它离平均数或中位数都很远
-
6:00 - 6:02取决于你想用那种指标,但是大部分的数据点
-
6:02 - 6:05似乎都更加接近这两个指标。所以对于这种情况,
-
6:05 - 6:07我们不但选择使用中位数,
-
6:07 - 6:11而且四分位距也是更可靠的。
-
6:11 - 6:13我们如何计算四分位距?
-
6:13 - 6:15你先取中位数,然后再取
-
6:15 - 6:19前半部分的数据,并计算它们的中位数。
-
6:19 - 6:22前半部分的中位数是50。
-
6:22 - 6:25然后你取后半部分的数据,
-
6:25 - 6:29它们的中位数是,60和75的平均值,也就是67.5。
-
6:29 - 6:31如果你对这个计算步骤不是很熟悉,
-
6:31 - 6:33我们有很多
-
6:33 - 6:35关于四分位距和计算标准差、中位数和平均数的视频。
-
6:35 - 6:36这里只是大致复习一下。
-
6:36 - 6:39两个中位数的差值是17.5
-
6:39 - 6:43注意,这两个数之间的距离,也就是这个17.5,
-
6:43 - 6:45它是不会变的,
-
6:45 - 6:48即使这变成了2500亿元。
-
6:48 - 6:52因此,再一次声明,当你的数据集存在偏态时,
-
6:52 - 6:55右边这两种指标是更可靠的,
-
6:56 - 6:59还有一个需要强调的是,如果你的数据集大致对称的话,
-
6:59 - 7:02平均数和标准差并没有什么问题。
-
7:02 - 7:05如果数据集里没有明显的异常值
-
7:05 - 7:07导致数据产生偏斜时,
-
7:07 - 7:10平均数和标准差也是很可靠的。
-
7:10 - 7:13但是,如果你的数据会因为
-
7:13 - 7:16少量数据产生严重偏移,那么中位数
-
7:16 - 7:19中位数和四分位距会更可靠。
中位数体现集中趋势, -
7:19 - 7:23四分位距体现集中趋势附近分布。
-
7:23 - 7:26这就是为什么你会看到人们在谈论工资时,
-
7:26 - 7:28会经常谈论中位数,
-
7:28 - 7:30因为工资的数据往往是像上偏移的。
-
7:30 - 7:32当我们谈论像房屋价格这样的事时,你会发现
-
7:32 - 7:35中位数往往比平均值更有代表性。
-
7:35 - 7:39因为一个社区的房价,
-
7:39 - 7:42或者一个城市的房价,很多房子可能
-
7:42 - 7:46在20万到30万左右,但也许有一个巨大的豪宅
-
7:46 - 7:49售价1亿元。如果你计算一下平均价格,
-
7:49 - 7:52那就会出现偏移,而这会给人
-
7:52 - 7:56该城市房价的均价或集中趋势的错误印象。
- Title:
- 平均值和标准差与中位数和四分位距
- Description:
-
当一组数据中存在异常值时,学会选择能衡量中心与分布的 "首选 "指标。
练习该学科或者看更多相关课程
http://www.khanacademy.org/math/ap-statistics/summarizing-quantitative-data-ap/measuring-spread-quantitative/v/mean-and-standard-deviation-versus-median-and-iqr?utm_source=youtube&utm_medium=desc&utm_campaign=apstatistics可汗学院的AP统计学:认识一下我们的AP统计学作者之一,Jeff。Jeff 曾在密歇根州卡拉马祖市担任过10年的高中教师,教过代数1、几何、代数2、统计学入门和AP统计学。如今,他正为AP统计学创作新的习题和文章。
可汗学院是一家非营利组织,其使命是为任何地方的任何人提供免费的世界级教育。 我们提供涵盖数学、生物、化学、物理、历史、经济、金融、语法、学前教育等多个学术领域的测验、习题、讲解视频及文章。我们为教师提供工具和数据等资源,让他们能够帮助学生培养出学业及未来成功所必需的技能、习惯和心态。 可汗学院已被翻译成数十种语言,在世界各地每个月都有1.5亿用户在可汗学院上进行学习。作为一家符合501(c)(3)条款的非营利组织,我们需要你的帮助!今天就成为我们捐赠人或志愿者吧!
在线捐款: https://www.khanacademy.org/donate?utm_source=youtube&utm_medium=desc
成为志愿者:https://www.khanacademy.org/contribute?utm_source=youtube&utm_medium=desc
- Video Language:
- English
- Team:
Khan Academy
- Duration:
- 07:59
![]() |
F L edited Chinese, Simplified subtitles for Mean and standard deviation versus median and IQR | |
![]() |
ShellyHe edited Chinese, Simplified subtitles for Mean and standard deviation versus median and IQR | |
![]() |
ShellyHe edited Chinese, Simplified subtitles for Mean and standard deviation versus median and IQR | |
![]() |
ShellyHe edited Chinese, Simplified subtitles for Mean and standard deviation versus median and IQR |