< Return to Video

Examples analyzing clusters, gaps, peaks and outliers for distributions

  • 0:00 - 0:02
    この動画では分布やそれらの
  • 0:02 - 0:05
    頂点、空白や集まりなどの
  • 0:05 - 0:08
    特徴の例を挙げようと思います。
  • 0:08 - 0:11
    ここで、何個か例を挙げてみます。
  • 0:11 - 0:13
    これらの記述のうちどれがこの下の分布を
  • 0:13 - 0:15
    一番正確に表せているでしょうか。
  • 0:15 - 0:17
    該当する全てを選べ。
  • 0:17 - 0:20
    まず一つ目の記述は、「この分布には外れ値が存在する」
  • 0:20 - 0:23
    外れ値とは、他のデータの点と
  • 0:23 - 0:25
    かけ離れている
  • 0:25 - 0:27
    つまり、ほとんどのデータの点が
  • 0:27 - 0:29
    集まっている箇所に比べ極端に大きい、
  • 0:29 - 0:31
    もしくは小さいという事です。ここをみてみれば、
  • 0:31 - 0:34
    0と6の間にたくさん点があるのがわかります。
  • 0:34 - 0:36
    まずこのグラフでは何を図っているのかを考えましょう。
  • 0:36 - 0:38
    これらは、ゴーグさんの店で売られる
  • 0:38 - 0:42
    りんごの保存期間を表しています。
  • 0:42 - 0:45
    例えば、ここでは1、2、3、4、
  • 0:45 - 0:50
    5、6、7個が保存期間0日、
  • 0:50 - 0:53
    つまりすぐ悪くなってしまうという事ですね。
  • 0:53 - 0:57
    ここには1、2、3、4、5、6、7
  • 0:57 - 0:59
    8個の林檎があと一日もつということです。
  • 0:59 - 1:01
    2個のリンゴは
  • 1:01 - 1:04
    あと6日持ち、1つのリンゴは
  • 1:04 - 1:06
    あと10日も持ちます。これは異常ですね。
  • 1:06 - 1:09
    他のりんごに比べ長すぎる
  • 1:09 - 1:12
    保存期間なので、これは外れ値と言えます。
  • 1:12 - 1:14
    よって、この分布は外れ値があると言えます。
  • 1:14 - 1:16
    この点1つだけが
  • 1:16 - 1:18
    遠い右側に、大きな値で、
  • 1:18 - 1:22
    他のりんごと比べ長すぎる保存期間なので、
  • 1:22 - 1:24
    この点は分布の外れ値と言えます。
  • 1:24 - 1:27
    「この分布には4日から6日に点の集まり密集点がある」
  • 1:27 - 1:30
    確かに4日から6日にかけて点が密集しています。
  • 1:30 - 1:34
    密集点とは、名前から想像できるように、
  • 1:34 - 1:36
    点の集まり、ここでは4日から6日の
  • 1:36 - 1:38
    保存期限のりんごの集まりがあることが
  • 1:38 - 1:40
    ここでは確認できますね。
  • 1:40 - 1:42
    そしてもうすでに2つ選択肢を選んでいるのだから、
  • 1:42 - 1:45
    「どれでもない」の選択肢ではないでしょう。
  • 1:45 - 1:46
    答えを確認しましょう。
  • 1:46 - 1:50
    あと数問解いてみましょう。
  • 1:50 - 1:53
    これらの記述のうちどれが
  • 1:53 - 1:56
    以下の分布を正確に表していますか。
  • 1:56 - 1:57
    また、該当する全てを選べ。
  • 1:57 - 2:00
    「この分布には外れ値が存在する。」
  • 2:00 - 2:02
    分布を見てみましょう。
  • 2:02 - 2:04
    高い値と低い値に
  • 2:04 - 2:07
    居座る点はありますが、
  • 2:07 - 2:10
    飛び抜けて高い、または低いところに
  • 2:10 - 2:12
    ある点は見当たりません。
  • 2:12 - 2:14
    もし点がこんなところにあったら
  • 2:14 - 2:18
    まあ外れ値だろうと言えますが、
  • 2:18 - 2:21
    また、はるか遠く左に点があれば
  • 2:21 - 2:21
    それは外れ値になりますが、
  • 2:21 - 2:24
    ここでは外れ値は確認できません。
  • 2:24 - 2:27
    全ての点が、まとまっていますね。
  • 2:27 - 2:31
    つまり、この分布には外れ値は存在しません。
  • 2:31 - 2:35
    「この分布の頂点は22度である。」
  • 2:35 - 2:37
    まあ、そのように見えますね。
  • 2:37 - 2:39
    ここでは何を図っているかを見てみましょう。
  • 2:39 - 2:43
    「エッジトン、アイオワ州の7月各日の最高気温」
  • 2:43 - 2:45
    確かにここでは22度が最高気温の日が
  • 2:45 - 2:49
    一番多いように見えます。
  • 2:49 - 2:53
    最高気温が22度の日が一番
  • 2:53 - 2:56
    多いので、ここが頂点となります。
  • 2:56 - 2:58
    想像できるように、ここの「山」の
  • 2:58 - 3:01
    一番高いところ、ここが頂点です。
  • 3:01 - 3:02
    少なくとも局地的には、
  • 3:02 - 3:07
    一番多いのは22度の日です。
  • 3:07 - 3:09
    なので、ここに頂点があると言えます。
  • 3:09 - 3:11
    1つ選んだので、「どれでもない」は
  • 3:11 - 3:12
    選びません。
  • 3:12 - 3:15
    あと何問か解いてみましょう。
  • 3:15 - 3:17
    これらのうち正しく下の分布を
  • 3:17 - 3:18
    表している記述はどれでしょう。
  • 3:18 - 3:21
    1つ目は「この分布には外れ値が存在する。」
  • 3:21 - 3:22
    さて、
  • 3:22 - 3:26
    「セスさんのサンドイッチ屋の客数」と。
  • 3:26 - 3:31
    一番低いのは、
  • 3:31 - 3:35
    1日もない
  • 3:35 - 3:37
    0−19客の日はゼロ。
  • 3:37 - 3:39
    20-39客の日もゼロ。
  • 3:39 - 3:41
    40-59客の日は
  • 3:41 - 3:43
    9日あったみたいですね。
  • 3:43 - 3:46
    60-79客の日は20日、
  • 3:46 - 3:47
    進んでいき
  • 3:47 - 3:51
    180−199客の日は約8日ですね。
  • 3:51 - 3:54
    しかし今は外れ値の質問です
  • 3:54 - 3:58
    異常な量の客が来るような外れ値はありません。
  • 3:58 - 4:00
    500人の客が来るような
  • 4:00 - 4:02
    右に行きすぎている点は見当たりません。
  • 4:02 - 4:06
    よって、この分布には外れ値はないと言えます。
  • 4:06 - 4:09
    「この分布には0-39客の密集点がある。」
  • 4:09 - 4:14
    0-39客はここですね。
  • 4:14 - 4:17
    そして、0-39客の日は1日もありません。
  • 4:17 - 4:20
    0-19客の日も20-39客もないです。
  • 4:20 - 4:22
    つまりここには密集点があるわけはありません。
  • 4:22 - 4:28
    40-199客には密集点はあるかもしれませんが、
  • 4:28 - 4:30
    0-39客にはありません。
  • 4:30 - 4:31
    0-39客の日は一日もないのに
  • 4:31 - 4:32
    そこに密集点があるわけがありません。
  • 4:32 - 4:36
    よって、「どれでもない」が正解でしょう。
  • 4:36 - 4:38
    あと一問解いてみましょう。
  • 4:38 - 4:40
    これらのうち下の分布を
  • 4:40 - 4:41
    正しく表せている記述はどれでしょう。
  • 4:41 - 4:42
    では。
  • 4:42 - 4:46
    「この分布には12から13点の間に頂点がある」。
  • 4:46 - 4:51
    この分布が何を図っているのかをみてみましょう。
  • 4:51 - 4:55
    「フライン先生の生徒のテスト点数」と。
  • 4:55 - 4:57
    つまり、一人が20点中
  • 4:57 - 5:01
    0から1点取れた
  • 5:01 - 5:05
    おそらく20問中、0か1問正解できたんでしょう。
  • 5:05 - 5:09
    そして2から3、4から5、
  • 5:09 - 5:10
    6から7点の生徒はいなかったみたいですね。
  • 5:10 - 5:12
    8から9点の生徒が1人、
  • 5:12 - 5:15
    3人が10から11点、
  • 5:15 - 5:16
    そしてさらに増えていき、
  • 5:16 - 5:21
    12人が16から17点
  • 5:21 - 5:23
    もしくはテスト点数が整数でなくても良いのなら
  • 5:23 - 5:25
    その間のどこかでも有り得ます。
  • 5:25 - 5:29
    18から19点は10人ですね。
  • 5:29 - 5:32
    では、この記述には「この分布には
  • 5:32 - 5:36
    12から13点に頂点がある」とのことですが、
  • 5:36 - 5:38
    12から13点は5人だけで有り、これは頂点とは言えません。
  • 5:38 - 5:41
    14から15点でも、もっと人がいます。
  • 5:41 - 5:42
    なので、頂点ではありません。
  • 5:42 - 5:44
    もしこのあたりを山と見るのであれば、
  • 5:44 - 5:46
    ここは頂上ではないでしょう。
  • 5:46 - 5:48
    確かに頂上はある分布です、
  • 5:48 - 5:50
    一番生徒数が多いのは
  • 5:50 - 5:52
    16から17点を取れた人、
  • 5:52 - 5:55
    つまりその点が頂点であり12から13点ではありません。
  • 5:55 - 5:57
    なので、一つ目の選択肢は選びません。
  • 5:57 - 6:00
    「この分布には外れ値が存在する。」
  • 6:00 - 6:01
    まあ、ここをみてみれば一目瞭然です。
  • 6:01 - 6:06
    ほとんどの生徒たちは8から19点、
  • 6:06 - 6:07
    そこでこの生徒1人が
  • 6:07 - 6:09
    0から1点と、完璧な外れ値です。
  • 6:09 - 6:12
    一目見るだけですぐ分かります
  • 6:12 - 6:14
    他の部分と繋がってさえいません。
  • 6:14 - 6:15
    ずっと左にあります。
  • 6:15 - 6:18
    もし点がずっと左もしくは右にある場合、
  • 6:18 - 6:23
    その点は外れ値である可能性が高いです。
  • 6:23 - 6:25
    よって、この分布には外れ値は
  • 6:25 - 6:26
    存在すると言えます。
  • 6:26 - 6:31
    一つ選択肢を選んだので、「どれでもない」は選びません。
  • 6:31 - 6:35
    これで終わりです。
Title:
Examples analyzing clusters, gaps, peaks and outliers for distributions
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
06:32

Japanese subtitles

Revisions Compare revisions