< Return to Video

分布中集群(聚类)、间隔、峰值和离群值(异常值)的分析示例

  • 0:00 - 0:02
    [画外音]在这个视频中,我想讲一些
  • 0:02 - 0:05
    关于分布情况的例子。尤其关注的是那些不同的分布特征,
  • 0:05 - 0:08
    比如分布中的集群(聚类)、间隔和峰值。
  • 0:08 - 0:11
    所以现在,我想给出一些例子。
  • 0:11 - 0:13
    以下哪些选项是关于分布情况的
  • 0:13 - 0:15
    准确描述?
  • 0:15 - 0:17
    选择所有符合的选项。
  • 0:17 - 0:20
    第一个选项说的是是分布里有一个离群点(异常点)。
  • 0:20 - 0:23
    一个离群点(异常点)指的是一个偏离了
  • 0:23 - 0:25
    其他数据点的数据点。
  • 0:25 - 0:27
    它往往比其他形成集群(聚类)的数据点都
  • 0:27 - 0:29
    大得多或小得多。
  • 0:29 - 0:31
    如果我们观察这里会发现,
  • 0:31 - 0:34
    我们有很多处于0到6之间的数据点。
  • 0:34 - 0:36
    让我们想一想他们在指的是什么数据:
  • 0:36 - 0:42
    是超市里每个苹果的保质期。
  • 0:42 - 0:45
    比方说,我们看到有一、二、三、四、
  • 0:45 - 0:50
    五、六、七个苹果的保质期是0天,
  • 0:50 - 0:53
    所以,(哈哈),它们马上要坏了。
  • 0:53 - 0:57
    你看你有一个,两个,三个,四个,五个,六个,七个,
  • 0:57 - 0:59
    八个苹果还可以再吃一天。
  • 0:59 - 1:01
    你有两个苹果
  • 1:01 - 1:04
    还有六天保质期。
  • 1:04 - 1:06
    你还有一个苹果可以吃10天,这个数据有点异常。
  • 1:06 - 1:10
    它是我们这里的离群值(异常值)。
  • 1:10 - 1:12
    它比我们这其他所有的数据都要大。
  • 1:12 - 1:14
    我想说,这肯定有一个异常点。
  • 1:14 - 1:15
    我们只有这一个数据点
  • 1:15 - 1:18
    是在数轴上的最右边,
  • 1:18 - 1:21
    而且比其他苹果的保质期都要长很多。
  • 1:21 - 1:24
    所以这个分布里有一个异常点,这个就是异常点。
  • 1:24 - 1:27
    (这个选项说)分布有一个从4天到6天的集群(聚类)。
  • 1:27 - 1:30
    我们确实看到了一个从4天到6天的集群(聚类)。
  • 1:30 - 1:33
    一个集群(聚类),你可以想象,它是一组分布在一起
  • 1:33 - 1:36
    的数据。你能看到有一组苹果的
  • 1:36 - 1:38
    保质期是在4到6天之间。
  • 1:38 - 1:40
    你肯定能看到这个集群(聚类)。
  • 1:40 - 1:42
    因为我已经选择了两个选项,
  • 1:42 - 1:45
    所以我不可能选这个“没有符合选项”的选项。
  • 1:45 - 1:46
    让我检查一下我的答案。
  • 1:46 - 1:50
    让我做几道这样的题目。
  • 1:50 - 1:53
    以下哪些选项是对分布情况的
  • 1:53 - 1:54
    准确描述?
  • 1:54 - 1:57
    同样地,我们要选择所有适用的选项。
  • 1:57 - 2:00
    (选项)这个分布有一个离群点。
  • 2:00 - 2:02
    让我们来看看这个分布。
  • 2:02 - 2:04
    这里确实有一个数据点是在最高端,
  • 2:04 - 2:07
    还有一个数据点在最低端。
  • 2:07 - 2:09
    但我没有看到任何数据点是处于
  • 2:09 - 2:12
    远高于或远低于大部分数据的位置。
  • 2:12 - 2:14
    如果我有一个数据点在这里,那么,
  • 2:14 - 2:16
    我就会说这是一个在右的离群点,
  • 2:16 - 2:19
    或者一个正向的离群点。
  • 2:19 - 2:22
    如果我有一个数据点在左边的位置,一直到超出屏幕,那么这也可以是一个离群点。
  • 2:22 - 2:23
    但是在我们现在这个分布里,我没有看到任何明显的离群点。
  • 2:23 - 2:27
    所有的数据都是非常集中的。
  • 2:27 - 2:31
    所以我不会说这个分布有离群点。
  • 2:31 - 2:35
    (选项)分布在22度的地方有一个峰值。
  • 2:35 - 2:37
    没错,看上去确实是这样。
  • 2:37 - 2:38
    让我们看看我们实际测量的是什么:
  • 2:38 - 2:43
    爱荷华州埃奇顿7月份每天的最高温度。
  • 2:43 - 2:45
    从分布上来看,确实我们在最高温度是22度那里
  • 2:45 - 2:49
    有最多的天数。
  • 2:49 - 2:52
    7月份出现天数最多的最高温
  • 2:52 - 2:56
    是22度,所以这是一个峰值。
  • 2:56 - 2:58
    如果你把它想象成一座山的话
  • 2:58 - 2:59
    这就是山峰,这是一个最高点。
  • 2:59 - 3:04
    起码在局部范围内,最多天数是
  • 3:04 - 3:07
    在22度这里。
  • 3:07 - 3:09
    所以我会选这个选项,在那里肯定有一个峰值。
  • 3:09 - 3:11
    既然我已经选了选项,我就不会再选
  • 3:11 - 3:12
    “以上都不是”。
  • 3:12 - 3:14
    我们再来做几个这样的题目吧。
  • 3:14 - 3:16
    哪些选项是对以下分布情况
  • 3:16 - 3:18
    的准确描述?
  • 3:18 - 3:21
    第一个选项,分布有一个离群点。
  • 3:21 - 3:21
    让我们看看。
  • 3:22 - 3:26
    面包店每天的客流量。
  • 3:26 - 3:29
    让我们看看,最低的...
  • 3:30 - 3:32
    他们没有哪一天
  • 3:32 - 3:36
    的客流量是0到19人。
  • 3:36 - 3:39
    也没有哪一天的客流量是20到39人。
  • 3:39 - 3:40
    看上去有9天的
  • 3:40 - 3:42
    客流量在40到59人之间。
  • 3:42 - 3:46
    有20天的客流量是60到79人。
  • 3:46 - 3:48
    一直到最后,这里看起来有8天
  • 3:48 - 3:51
    的客流量是180到199人。
  • 3:51 - 3:54
    关于离群值,这里似乎并没有
  • 3:54 - 3:58
    哪一天有异常的客流量。
  • 3:58 - 4:00
    没有哪一天的客流量是在这里的,
  • 4:00 - 4:02
    比如有500个客人。
  • 4:02 - 4:06
    所以我想说这个分布没有异常点。
  • 4:06 - 4:09
    (选项)这个分布有一个客流量从0到39个的集群(聚类)。
  • 4:09 - 4:14
    0到39的客流量是在这里,0到39个客人
  • 4:14 - 4:17
    没有哪一天的客流量是在0到39之间的,
  • 4:17 - 4:20
    没有客流量是0到19的日子,也没有客流量是20到39的日子。
  • 4:20 - 4:21
    所以那里绝对不是一个集群。
  • 4:21 - 4:24
    我想说的是,集群应该是在几天之间,
  • 4:24 - 4:28
    客流量是40到199那几天。
  • 4:28 - 4:30
    绝对不是0到39人,
  • 4:30 - 4:32
    因为没有客流量是0到39人的日子。
  • 4:32 - 4:36
    所以我很有把握地选“以上都不是”。
  • 4:36 - 4:38
    我们再来做一题。
  • 4:38 - 4:40
    哪些选项是关于以下分布的
  • 4:40 - 4:41
    准确描述?
  • 4:41 - 4:42
    (笑)好的。
  • 4:42 - 4:46
    (选项)12到13间有个峰值。
  • 4:46 - 4:51
    让我看看这是在测量什么,这个数据是关于什么的。
  • 4:51 - 4:55
    方老师班上学生的考试成绩。
  • 4:55 - 4:58
    有一个学生的成绩在0到1分之间
  • 4:58 - 5:01
    这是20分制,
  • 5:01 - 5:05
    我猜有20道题目。这个同学的成绩在0到1分之间。
  • 5:05 - 5:07
    然后你会发现,没有学生在
  • 5:07 - 5:10
    2到3分,或者4到5分,或者6到7分这几个分数段里。
  • 5:10 - 5:12
    我们有一个学生在8和9分之间。
  • 5:12 - 5:15
    10到11分的分数段里有3个学生。
  • 5:15 - 5:16
    分数继续增长,
  • 5:16 - 5:21
    好像有12个学生得了16或者17分,
  • 5:21 - 5:22
    或者16和17之间(比如16.5之类)的分数,
  • 5:22 - 5:25
    如果打分有小数点的话。
  • 5:25 - 5:29
    然后看起来有10个学生是在18到19的分数段。
  • 5:29 - 5:32
    (选项)分布在12到13分间有一个峰值
  • 5:32 - 5:36
    12到13分,
  • 5:36 - 5:38
    我们有5个学生在这个分数段,但这并不是一个峰值。
  • 5:38 - 5:41
    只看一下到14到15分段的情况,就有发现有更多的学生。
  • 5:41 - 5:42
    所以这绝对不是一个峰值。
  • 5:42 - 5:44
    如果你把这看成是一座山的话,
  • 5:44 - 5:46
    你肯定不会把这个点说成是一个山峰。
  • 5:46 - 5:48
    你会说这个分布确实有一个峰值。
  • 5:48 - 5:49
    它在16到17的分数段里
  • 5:49 - 5:51
    有最多的学生。
  • 5:51 - 5:54
    所以那里才是峰值,而不是12到13分。
  • 5:54 - 5:57
    所以我不会选择那个第一选择。
  • 5:57 - 6:00
    (选项)这个分布有一个离群点。
  • 6:00 - 6:01
    嗯,对的,看看这里:你有这个离群点。
  • 6:01 - 6:05
    大多数学生的得分是在8到19分之间,
  • 6:05 - 6:07
    然后只有一个学生的
  • 6:07 - 6:09
    分数是在0到1分之间,这很明显是个离群值。
  • 6:09 - 6:11
    你甚至可以从图表上直观地看出这一点。
  • 6:11 - 6:14
    它甚至与分布的其他部分没有连在一起。
  • 6:14 - 6:15
    它靠得太左边了。
  • 6:15 - 6:17
    如果一个数值过于偏向左边或右边,
  • 6:17 - 6:22
    如果它异常地低或异常地高,这就是一个离群值(异常值)。
  • 6:22 - 6:24
    我肯定要选“分布有一个离群值”,
  • 6:24 - 6:28
    所以不能选“以上均不符合”。
  • 6:29 - 6:31
    好了,我们完成了所有的题目。
Title:
分布中集群(聚类)、间隔、峰值和离群值(异常值)的分析示例
Description:

关注分布的不同特征示例,例如分布的集群(聚类)、间隔、峰值和离群值(异常值)

现在开始在可汗学院KhanAcademy.org上自行练习本课程:
https://www.khanacademy.org/math/cc-sixth-grade-math/cc-6th-data-statistics/cc-6-shape-of-data/e/clusters--gaps--peaks--and-outliers?utm_source=YT&utm_medium=Desc&utm_campaign=6thgrade

这是六年级课程的最后一个视频!让我们开始七年级课程的第一个视频:
https://www.khanacademy.org/math/cc-seventh-grade-math/cc-7th-negative-numbers-add-and-subtract/cc-7th-add-negatives/v/adding-negative-numbers?utm_source=YT&utm_medium=Desc&utm_campaign=6thgrade

错过上一节课? https://www.khanacademy.org/math/cc-sixth-grade-math/cc-6th-data-statistics/cc-6-shape-of-data/v/shapes-of-distributions?utm_source=YT&utm_medium=Desc&utm_campaign=6thgrade

可汗学院上的六年级课程:到了六年级,你将成为一名高级数学家。对于暴躁食人魔向你抛出的加,减,乘和非负数(包括小数和小数)除法,你都能轻松应对。一些令人震惊的概念,例如指数(你在五年级时曾看到过),比例,百分比,负数和变量表达式将开始出现在你的舒适区域中。 最重要的是,数学的代数方面是一种全新的乐趣! 如果这还不够,我们将继续对坐标平面(五年级起)和面积等概念有所了解,同时开始从数据中获取信息! (该年级水平的内容是根据正常的美国课纲所挑选。)

关于可汗学院:可汗学院提供练习,教学视频和个性化的学习进度表,使学习者可以在教室内外按自己的步调学习。我们提供数学,科学,计算机编程,历史,艺术史,经济学等等学科的内容。我们的数学任务使用最先进的自适应技术来指导学生从幼儿园到微积分的学习。 这些技术可以识别学习中的优势和差距。我们还与NASA,现代艺术博物馆,加利福尼亚科学院和MIT等机构合作,提供专门的内容。

免费。为了所有人。永远。 #你可以学习所有东西

订阅可汗学院Khan Academy的六年级课程频道: https://www.youtube.com/channel/UCnif494Ay2S-PuYlDVrOwYQ?sub_confirmation=1

订阅可汗学院Khan Academy: https://www.youtube.com/subscription_center?add_user=khanacademy

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
06:32

Chinese, Simplified subtitles

Revisions Compare revisions