< Return to Video

分布中集群(聚类)、间隔、峰值和离群值(异常值)的分析示例

  • 0:00 - 0:02
    [画外音]在这个视频中,我想讲一些
  • 0:02 - 0:05
    关于分布情况的例子。尤其关注的是那些不同的分布特征,
  • 0:05 - 0:08
    比如分布中的集群(聚类)、间隔和峰值。
  • 0:08 - 0:11
    所以现在,我想给出一些例子。
  • 0:11 - 0:13
    以下哪些选项是关于分布情况的
  • 0:13 - 0:15
    准确描述?
  • 0:15 - 0:17
    选择所有符合的选项。
  • 0:17 - 0:20
    第一个选项说的是是分布里有一个离群点(异常点)。
  • 0:20 - 0:23
    一个离群点(异常点)指的是一个偏离了
  • 0:23 - 0:25
    其他数据点的数据点。
  • 0:25 - 0:27
    它往往比其他形成集群(聚类)的数据点都
  • 0:27 - 0:29
    大得多或小得多。
  • 0:29 - 0:31
    如果我们观察这里会发现,
  • 0:31 - 0:34
    我们有很多处于0到6之间的数据点。
  • 0:34 - 0:36
    让我们想一想他们在指的是什么数据:
  • 0:36 - 0:38
  • 0:38 - 0:42
    是超市里每个苹果的保质期。
  • 0:42 - 0:45
    比方说,我们看到有一、二、三、四、
  • 0:45 - 0:50
    五、六、七个苹果的保质期是0天,
  • 0:50 - 0:53
    所以,(哈哈),它们马上要坏了。
  • 0:53 - 0:57
    你看你有一个,两个,三个,四个,五个,六个,七个,
  • 0:57 - 0:59
    八个苹果还可以再吃一天。
  • 0:59 - 1:01
    你有两个苹果
  • 1:01 - 1:04
    还有六天保质期。
  • 1:04 - 1:06
    你还有一个苹果可以吃10天,这个数据有点异常。
  • 1:06 - 1:10
    它是我们这里的离群值(异常值)。
  • 1:10 - 1:12
    它比我们这其他所有的数据都要大。
  • 1:12 - 1:14
    我想说,这肯定有一个异常点。
  • 1:14 - 1:15
    我们只有这一个数据点
  • 1:15 - 1:18
    是在数轴上的最右边,
  • 1:18 - 1:21
    而且比其他苹果的保质期都要长很多。
  • 1:21 - 1:24
    所以这个分布里有一个异常点,这个就是异常点。
  • 1:24 - 1:27
    (这个选项说)分布有一个从4天到6天的集群(聚类)。
  • 1:27 - 1:30
    我们确实看到了一个从4天到6天的集群(聚类)。
  • 1:30 - 1:33
    一个集群(聚类),你可以想象,它是一组分布在一起
  • 1:33 - 1:36
    的数据。你能看到有一组苹果的
  • 1:36 - 1:38
    保质期是在4到6天之间。
  • 1:38 - 1:40
    你肯定能看到这个集群(聚类)。
  • 1:40 - 1:42
    因为我已经选择了两个选项,
  • 1:42 - 1:45
    所以我不可能选这个“没有符合选项”的选项。
  • 1:45 - 1:46
    让我检查一下我的答案。
  • 1:46 - 1:50
    让我做几道这样的题目。
  • 1:50 - 1:53
    以下哪些选项是对分布情况的
  • 1:53 - 1:54
    准确描述?
  • 1:54 - 1:57
    同样地,我们要选择所有适用的选项。
  • 1:57 - 2:00
    (选项)这个分布有一个离群点。
  • 2:00 - 2:02
    让我们来看看这个分布。
  • 2:02 - 2:04
    这里确实有一个数据点是在最高端,
  • 2:04 - 2:07
    还有一个数据点在最低端。
  • 2:07 - 2:09
    但我没有看到任何数据点是处于
  • 2:09 - 2:12
    远高于或远低于大部分数据的位置。
  • 2:12 - 2:14
    如果我有一个数据点在这里,那么,
  • 2:14 - 2:16
    我就会说这是一个在右的离群点,
  • 2:16 - 2:19
    或者一个正向的离群点。
  • 2:19 - 2:22
    如果我有一个数据点在左边的位置,一直到超出屏幕,那么这也可以是一个离群点。
  • 2:22 - 2:23
    但是在我们现在这个分布里,我没有看到任何明显的离群点。
  • 2:23 - 2:27
    所有的数据都是非常集中的。
  • 2:27 - 2:31
    所以我不会说这个分布有离群点。
  • 2:31 - 2:35
    (选项)分布在22度的地方有一个峰值。
  • 2:35 - 2:37
    没错,看上去确实是这样。
  • 2:37 - 2:38
    让我们看看我们实际测量的是什么:
  • 2:38 - 2:43
    爱荷华州埃奇顿7月份每天的最高温度。
  • 2:43 - 2:45
    从分布上来看,确实我们在最高温度是22度那里
  • 2:45 - 2:49
    有最多的天数。
  • 2:49 - 2:52
    7月份出现天数最多的最高温
  • 2:52 - 2:56
    是22度,所以这是一个峰值。
  • 2:56 - 2:58
    如果你把它想象成一座山的话
  • 2:58 - 2:59
    这就是山峰,这是一个最高点。
  • 2:59 - 3:04
    起码在局部范围内,最多天数是
  • 3:04 - 3:07
    在22度这里。
  • 3:07 - 3:09
    所以我会选这个选项,在那里肯定有一个峰值。
  • 3:09 - 3:11
    既然我已经选了选项,我就不会再选
  • 3:11 - 3:12
    “以上都不是”。
  • 3:12 - 3:14
    我们再来做几个这样的题目吧。
  • 3:14 - 3:16
    哪些选项是对以下分布情况
  • 3:16 - 3:18
    的准确描述?
  • 3:18 - 3:21
    第一个选项,分布有一个离群点。
  • 3:21 - 3:21
    让我们看看。
  • 3:22 - 3:26
    面包店每天的客流量。
  • 3:26 - 3:29
    让我们看看,最低的...
  • 3:30 - 3:32
    他们没有哪一天
  • 3:32 - 3:36
    的客流量是0到19人。
  • 3:36 - 3:39
    也没有哪一天的客流量是20到39人。
  • 3:39 - 3:40
    看上去有9天的
  • 3:40 - 3:42
    客流量在40到59人之间。
  • 3:42 - 3:46
    有20天的客流量是60到79人。
  • 3:46 - 3:48
    一直到最后,这里看起来有8天
  • 3:48 - 3:51
    的客流量是180到199人。
  • 3:51 - 3:54
    关于离群值,这里似乎并没有
  • 3:54 - 3:58
    哪一天有异常的客流量。
  • 3:58 - 4:00
    没有哪一天的客流量是在这里的,
  • 4:00 - 4:02
    比如有500个客人。
  • 4:02 - 4:06
    所以我想说这个分布没有异常点。
  • 4:06 - 4:09
    (选项)这个分布有一个客流量从0到39个的集群(聚类)。
  • 4:09 - 4:14
    0到39的客流量是在这里,0到39个客人
  • 4:14 - 4:17
    没有哪一天的客流量是在0到39之间的,
  • 4:17 - 4:20
    没有客流量是0到19的日子,也没有客流量是20到39的日子。
  • 4:20 - 4:21
    所以那里绝对不是一个集群。
  • 4:21 - 4:24
    我想说的是,集群应该是在几天之间,
  • 4:24 - 4:28
    客流量是40到199那几天。
  • 4:28 - 4:30
    绝对不是0到39人,
  • 4:30 - 4:32
    因为没有客流量是0到39人的日子。
  • 4:32 - 4:36
  • 4:36 - 4:38
  • 4:38 - 4:40
  • 4:40 - 4:41
  • 4:41 - 4:42
  • 4:42 - 4:46
  • 4:46 - 4:51
  • 4:51 - 4:55
  • 4:55 - 4:58
  • 4:58 - 5:01
  • 5:01 - 5:05
  • 5:05 - 5:07
  • 5:07 - 5:10
  • 5:10 - 5:12
  • 5:12 - 5:15
  • 5:15 - 5:16
  • 5:16 - 5:21
  • 5:21 - 5:22
  • 5:22 - 5:25
  • 5:25 - 5:29
  • 5:29 - 5:32
  • 5:32 - 5:36
  • 5:36 - 5:38
  • 5:38 - 5:41
  • 5:41 - 5:42
  • 5:42 - 5:44
  • 5:44 - 5:46
  • 5:46 - 5:48
  • 5:48 - 5:49
  • 5:49 - 5:51
  • 5:51 - 5:54
  • 5:54 - 5:57
  • 5:57 - 6:00
  • 6:00 - 6:01
  • 6:01 - 6:05
  • 6:05 - 6:07
  • 6:07 - 6:09
  • 6:09 - 6:11
  • 6:11 - 6:14
  • 6:14 - 6:15
  • 6:15 - 6:17
  • 6:17 - 6:22
  • 6:22 - 6:24
  • 6:24 - 6:26
  • 6:26 - 6:28
  • 6:29 - 6:31
Title:
分布中集群(聚类)、间隔、峰值和离群值(异常值)的分析示例
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
06:32

Chinese, Simplified subtitles

Revisions Compare revisions