< Return to Video

Examples analyzing clusters, gaps, peaks and outliers for distributions

  • 0:00 - 0:03
    この動画では分布やそれらのピーク、
  • 0:03 - 0:05
    ギャップやクラスターの
  • 0:05 - 0:08
    特徴の例を挙げようと思います。
  • 0:08 - 0:11
    ここで、何個か例を挙げてみます。
  • 0:11 - 0:13
    これらの記述のうちどれがこの下の分布を
  • 0:13 - 0:15
    正確に表せているでしょうか。
  • 0:15 - 0:17
    該当する全てを選びましょう。
  • 0:17 - 0:20
    まず一つ目の記述は、
    「この分布には外れ値が存在する」
  • 0:20 - 0:23
    外れ値とは、他のデータの点と
  • 0:23 - 0:25
    かけ離れている
  • 0:25 - 0:27
    つまり、ほとんどのデータの点が
  • 0:27 - 0:29
    集まっている箇所に比べ極端に大きい、
  • 0:29 - 0:30
    もしくは小さいという事です。
  • 0:30 - 0:34
    ここを見てみれば、0と6の間に
    たくさん点があるのがわかります。
  • 0:34 - 0:36
    まずこのグラフでは
    何を測っているのかを考えましょう。
  • 0:36 - 0:38
    これらは、ゴーグさんの店で売っている
  • 0:38 - 0:42
    りんごの保存期間を表しています。
  • 0:42 - 0:45
    例えば、ここでは 1、2、3、4、
  • 0:45 - 0:50
    5、6、7個が保存期間0日、
  • 0:50 - 0:53
    つまりすぐ悪くなってしまうという事ですね。
  • 0:53 - 0:57
    ここには 1、2、3、4、5、6、7
  • 0:57 - 0:59
    8個のリンゴがあと一日もつということです。
  • 0:59 - 1:01
    2個のリンゴは
  • 1:01 - 1:04
    あと6日持ち、1 個のリンゴは
  • 1:04 - 1:06
    あと10日も持ちます。これは異常ですね。
  • 1:06 - 1:10
    他のりんごに比べとても長い保存期間なので、
  • 1:10 - 1:12
    これは外れ値と言えます。
  • 1:12 - 1:14
    よって、この分布は外れ値があると言えます。
  • 1:14 - 1:16
    この点ひとつだけが
  • 1:16 - 1:18
    遠い右側に、大きな値で、
  • 1:18 - 1:22
    他のりんごと比べとても長い保存期間なので、
  • 1:22 - 1:24
    この点は分布の外れ値と言えます。
  • 1:24 - 1:27
    「この分布には4日から6日に
    クラスターがある」
  • 1:27 - 1:30
    確かに4日から6日にかけて点が密集しています。
  • 1:30 - 1:34
    クラスターとは、
    名前から想像できるように、
  • 1:34 - 1:36
    複数のデータの集まり、
    ここでは4日から6日の
  • 1:36 - 1:38
    保存期限のりんごの集まりがあることが
  • 1:38 - 1:40
    ここでは確認できますね。
  • 1:40 - 1:42
    そしてもうすでに2つ
    選択肢を選んでいるのだから、
  • 1:42 - 1:45
    「どれでもない」の選択肢ではないでしょう。
  • 1:45 - 1:46
    答えを確認しましょう。
  • 1:46 - 1:50
    あと数問解いてみましょう。
  • 1:50 - 1:53
    これらの記述のうちどれが
  • 1:53 - 1:56
    以下の分布を正確に表していますか。
  • 1:56 - 1:57
    また、該当する全てを選びましょう。
  • 1:57 - 2:00
    「この分布には外れ値が存在する。」
  • 2:00 - 2:02
    分布を見てみましょう。
  • 2:02 - 2:04
    高い値と低い値に
  • 2:04 - 2:07
    居る点はありますが、
  • 2:07 - 2:10
    飛び抜けて高い、または低いところに
  • 2:10 - 2:12
    ある点は見当たりません。
  • 2:12 - 2:14
    もし点がこんなところにあったら
  • 2:14 - 2:18
    まあ外れ値だろうと言えますが、
  • 2:18 - 2:20
    また、はるか遠く左に点があれば
  • 2:20 - 2:21
    それは外れ値になりますが、
  • 2:21 - 2:24
    ここでは外れ値は見受けられません。
  • 2:24 - 2:27
    全ての点が、まとまっていますね。
  • 2:27 - 2:31
    つまり、この分布には外れ値は存在しません。
  • 2:31 - 2:35
    「この分布のピークは22度である。」
  • 2:35 - 2:37
    まあ、そのように見えますね。
  • 2:37 - 2:39
    ここでは何を測っているかを見てみましょう。
  • 2:39 - 2:43
    「エッジトン、アイオワ州の7月各日の最高気温」
  • 2:43 - 2:46
    確かにここでは22度が最高気温の日が
  • 2:46 - 2:49
    一番多いように見えます。
  • 2:49 - 2:53
    最高気温が22度の日が一番
  • 2:53 - 2:56
    多いので、ここが頂点となります。
  • 2:56 - 2:58
    想像できるように、ここの「山」の
  • 2:58 - 3:01
    一番高いところ、ここがピークです。
  • 3:01 - 3:02
    少なくとも局地的には、
  • 3:02 - 3:07
    一番多いのは22度の日です。
  • 3:07 - 3:09
    なので、ここにピークがあると言えます。
  • 3:09 - 3:11
    ひとつ選んだので、「どれでもない」は
  • 3:11 - 3:12
    選びません。
  • 3:12 - 3:15
    あと何問か解いてみましょう。
  • 3:15 - 3:17
    これらのうち正しく下の分布を
  • 3:17 - 3:18
    表している記述はどれでしょう。
  • 3:18 - 3:21
    1つ目は「この分布には外れ値が存在する。」
  • 3:21 - 3:22
    さて、
  • 3:22 - 3:26
    「セスさんのサンドイッチ屋の客数」と。
  • 3:26 - 3:31
    一番低いのは、
  • 3:31 - 3:35
    1日もないのは、
  • 3:35 - 3:37
    0−19客の日でゼロ。
  • 3:37 - 3:39
    20-39客の日もゼロ。
  • 3:39 - 3:41
    40-59客の日は
  • 3:41 - 3:43
    9日あったみたいですね。
  • 3:43 - 3:46
    60-79客の日は20日、
  • 3:46 - 3:47
    進んでいき
  • 3:47 - 3:51
    180−199客の日は約8日ですね。
  • 3:51 - 3:54
    しかし今は外れ値の質問です
  • 3:54 - 3:58
    異常な量の客が来るような外れ値はありません。
  • 3:58 - 4:00
    500人の客が来るような
  • 4:00 - 4:02
    右に行きすぎている点は見当たりません。
  • 4:02 - 4:06
    よって、この分布には外れ値はないと言えます。
  • 4:06 - 4:09
    「この分布には0-39人の客のデータの集まりがある。」
  • 4:09 - 4:14
    0-39人の客はここですね。
  • 4:14 - 4:17
    そして、0-39人の客の日は1日もありません。
  • 4:17 - 4:20
    0-19人の客の日も20-39人の客もないです。
  • 4:20 - 4:22
    つまりここにはデータの集まりはありません。
  • 4:22 - 4:28
    40-199人の客にはデータの集まりが
    あるかもしれませんが、
  • 4:28 - 4:30
    0-39人の客にはありません。
  • 4:30 - 4:31
    0-39人の客の日は一日もないので
  • 4:31 - 4:32
    データの集まりはありません。
  • 4:32 - 4:36
    よって、「どれでもない」が正解でしょう。
  • 4:36 - 4:38
    あと一問解いてみましょう。
  • 4:38 - 4:40
    これらのうち下の分布を
  • 4:40 - 4:42
    正しく表せている記述はどれでしょう。
  • 4:42 - 4:46
    「この分布には12から13点の間にピークがある」。
  • 4:46 - 4:51
    この分布が何を測っているのかを
    みてみましょう。
  • 4:51 - 4:55
    「フライン先生の生徒のテスト点数」
  • 4:55 - 4:59
    つまり、一人が20点中
  • 4:59 - 5:01
    0から1点を得ました。
  • 5:01 - 5:05
    おそらく20問中、0か1 問正解できたんでしょう。
  • 5:05 - 5:07
    そして2から3、4から5、
  • 5:07 - 5:10
    6から7点の生徒はいなかったみたいですね。
  • 5:10 - 5:12
    8から9点の生徒が1人、
  • 5:12 - 5:15
    3人が10から11点、
  • 5:15 - 5:16
    そしてさらに増えていき、
  • 5:16 - 5:21
    12人が16または17点、
  • 5:21 - 5:23
    もしくはテスト点数が整数でなくても良いのなら
  • 5:23 - 5:25
    その間のどこかでもありえます。
  • 5:25 - 5:29
    18から19点は10人ですね。
  • 5:29 - 5:32
    では、この記述には「この分布には
  • 5:32 - 5:36
    12から13点にピークがある」とのことですが、
  • 5:36 - 5:38
    12から13点はたった5人で、これはピークとは言えません。
  • 5:38 - 5:41
    14から15点でも、もっと多くいます。
  • 5:41 - 5:42
    なので、ピークではありません。
  • 5:42 - 5:44
    もしこれを山と考えれば、
  • 5:44 - 5:46
    ここは頂上ではないでしょう。
  • 5:46 - 5:48
    この分布にピークがあることは確かです。
  • 5:48 - 5:50
    一番生徒数が多いのは
  • 5:50 - 5:52
    16から17点を取れた人、
  • 5:52 - 5:55
    つまりその点がピークであり、
    12から13点ではありません。
  • 5:55 - 5:57
    なので、一つ目の選択肢は選びません。
  • 5:57 - 6:00
    「この分布には外れ値が存在する。」
  • 6:00 - 6:01
    まあ、ここをみてみれば一目瞭然です。
  • 6:01 - 6:06
    ほとんどの生徒たちは8から19点、
  • 6:06 - 6:07
    そこでこの生徒1人が
  • 6:07 - 6:09
    0から1点と、完璧な外れ値です。
  • 6:09 - 6:12
    一目見るだけですぐ分かります
  • 6:12 - 6:14
    他の部分と繋がってさえいません。
  • 6:14 - 6:15
    ずっと左にあります。
  • 6:15 - 6:17
    もし点がずっと左もしくは右にある場合、
  • 6:17 - 6:19
    それは外れ値であると言えます。
  • 6:19 - 6:22
    異常に高いまたは低い値です。
  • 6:22 - 6:24
    よって、この分布には外れ値は
  • 6:24 - 6:26
    存在すると言えます。
  • 6:26 - 6:29
    一つ選択肢を選んだので、
    「どれでもない」は選びません。
  • 6:29 - 6:31
    これで終わりです。
Title:
Examples analyzing clusters, gaps, peaks and outliers for distributions
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
06:32

Japanese subtitles

Revisions Compare revisions