< Return to Video

Mean and standard deviation versus median and IQR

  • 0:01 - 0:03
    各学年の生徒数が9人の小さな学校から、
  • 0:03 - 0:08
    最近、卒業した学生が9人います。
  • 0:08 - 0:11
    卒業1年後の彼らの給与の
  • 0:11 - 0:14
    傾向を求めたいと思います。
  • 0:14 - 0:17
    1年後のサラリーの
  • 0:17 - 0:20
    ばらつきも求めたいです。
  • 0:20 - 0:24
    そこで彼らは給与額を
    コンピュータに入力することに同意し
  • 0:24 - 0:26
    これがその給与額です。
  • 0:26 - 0:27
    千の単位で書かれています。
  • 0:27 - 0:31
    つまり、35,000、50,000、50,000、
    50,000、56,000
  • 0:31 - 0:35
    そして2人が60,000で、次が75,000、
    最後に250,000があります。
  • 0:35 - 0:37
    この人はとても給与が高いですね。
  • 0:37 - 0:41
    このデータに基づいて
  • 0:41 - 0:43
    コンピュータはいろんなパラメータを
    出力しています。
  • 0:43 - 0:47
    2つの典型的な中心の傾向を
    示すパラメータがあります。
  • 0:47 - 0:50
    平均は約 76.2 です。
  • 0:50 - 0:53
    コンピュータはこれらの値を合計し
  • 0:53 - 0:56
    そして、それを9で割っています。
  • 0:56 - 1:00
    中央値は56 でこれは簡単に出ます。
  • 1:00 - 1:02
    数を順に並べて
  • 1:02 - 1:05
    その中央である56 になります。
  • 1:05 - 1:08
    ここで動画を一時停止して
  • 1:08 - 1:10
    このデータセットを見て
  • 1:10 - 1:14
    この給与のデータセットに関して
  • 1:14 - 1:19
    中央を見るパラメータをどちらがよいが
    考えてみましょう。
  • 1:19 - 1:21
    では、見ていきましょう。
  • 1:21 - 1:24
    これを線上に並べてみましょう。
  • 1:24 - 1:26
    これを線上においてみることで
  • 1:26 - 1:28
    数を見ているだけでは
  • 1:28 - 1:31
    理解しにくい、
  • 1:31 - 1:33
    これらの数の分布がわかりやすくなります。
  • 1:33 - 1:35
    これを0とします。
  • 1:35 - 1:42
    1、2、3、4、5で
  • 1:42 - 1:50
    これが 250 そしてこれが 50、
    100、150、200
  • 1:52 - 1:53
    そして、
  • 1:53 - 1:56
    これが50とすると、
  • 1:56 - 1:59
    これは約 40となります。
  • 1:59 - 2:04
    ここが60で 70、80、90、のように。
  • 2:04 - 2:06
    もう少しきちんと書くこともできますが…
  • 2:06 - 2:09
    60、70、80、90とわかりますね。
  • 2:09 - 2:12
    ちょっと書き直してみましょう。
  • 2:12 - 2:14
    ここが
  • 2:14 - 2:17
    もう少しこっちによって
  • 2:18 - 2:22
    ここに置きます。
  • 2:22 - 2:27
    これが40です。
    そして 30、20、10となります。
  • 2:27 - 2:29
    いいですね。
  • 2:29 - 2:30
    では、データをおいていきましょう。
  • 2:30 - 2:34
    ひとりは 35,000 の給与額で
    ここになります。
  • 2:36 - 2:38
    そして2人は 50,000 で
    おっと3人ですね。
  • 2:38 - 2:42
    ここに1、2、3。
  • 2:42 - 2:44
    このように書きます。
  • 2:44 - 2:50
    一人は 56,000の給与でここになります。
  • 2:50 - 2:53
    そして2人は60,000 の給与で
  • 2:53 - 2:55
    ここになります。
  • 2:55 - 3:00
    そして、次は 75,000、だから
    60、70で、75,000 は
  • 3:00 - 3:02
    このあたりになります。
  • 3:02 - 3:04
    そして最後は 250,000 です。
  • 3:04 - 3:08
    この人の給与額はこの遠くにあります。
  • 3:08 - 3:11
    これを中心を見る指標として
  • 3:11 - 3:13
    平均を計算すると 76.2 になります。
  • 3:13 - 3:17
    76.2 はここになります。
  • 3:17 - 3:21
    これは中心の傾向として良いでしょうか?
  • 3:21 - 3:23
    あまりよく見えないですね。
  • 3:23 - 3:28
    中心傾向の指標なのに,1つ以外のすべてのデータより
  • 3:28 - 3:30
    高い値です。
  • 3:30 - 3:34
    これを中心の指標と考えると
  • 3:34 - 3:37
    この250,000の点によって
    ゆがめられています。
  • 3:39 - 3:41
    他のデータから見ると、
  • 3:41 - 3:45
    この平均はゆがめられています。
  • 3:45 - 3:47
    これはよく見られる事態です。
  • 3:47 - 3:50
    データセットに外れた値がある場合、
  • 3:50 - 3:53
    特にこの給与額のデータセットのように
  • 3:53 - 3:56
    ほとんどが 50,000から70,000で
    ひとつの値が250,000のような場合、
  • 3:56 - 3:59
    平均が偏ります。
  • 3:59 - 4:02
    平均はすべての数を合計して
  • 4:02 - 4:03
    データ数で割って得られるものです。
  • 4:03 - 4:08
    この場合、著しく離れた値がある場合
    それによって平均が影響されますが、
  • 4:08 - 4:11
    中央値はあまり影響を受けません。
  • 4:11 - 4:14
    このデータセットの中央値である 56 はここで、
  • 4:14 - 4:17
    これはよりデータセットの中心に近いです。
  • 4:17 - 4:19
    考えてみましょう。
  • 4:19 - 4:22
    もし この外れた値が
  • 4:22 - 4:26
    250000の給与額の代わりに
  • 4:26 - 4:30
    250 億などの非常に高い値とすると、
  • 4:30 - 4:33
    平均に著しく影響しますが、
  • 4:33 - 4:36
    中央値には影響しません。
  • 4:36 - 4:37
    なぜなら、中央値は
  • 4:37 - 4:39
    最大値や最小値の値には関係ありません。
  • 4:39 - 4:40
    この値が1兆ドルであっても
  • 4:40 - 4:42
    1000兆ドルであっても
  • 4:42 - 4:44
    中央値はそのままです。
  • 4:44 - 4:46
    偏りのあるデータセットでは、
  • 4:46 - 4:48
    中央値はもっと安定しています。
  • 4:48 - 4:52
    対称的なデータセットがある場合は
  • 4:52 - 4:55
    平均がより意味を持つようになります。
  • 4:55 - 4:57
    データセットが平均の上下に分布されていて
  • 4:57 - 5:00
    著しい偏りがない場合です。
  • 5:00 - 5:01
    特にこの例でこの部分の
  • 5:01 - 5:04
    データセットだけをみる場合などです。
  • 5:04 - 5:07
    しかし、この例では
  • 5:07 - 5:10
    中央値がよりよく中心を示します。
  • 5:10 - 5:11
    では、広がりはどうでしょう。
  • 5:11 - 5:14
    ここまでで、このデータセットでは平均は
  • 5:14 - 5:16
    あまりより指標でないと理解したので
  • 5:16 - 5:18
    平均に依存する標準偏差はどうでしょう。
  • 5:18 - 5:22
    標準偏差はそれぞれのデータポイントの
  • 5:22 - 5:25
    平均から差を2乗して
  • 5:25 - 5:28
    その合計を、データポイント数で割って
  • 5:28 - 5:31
    母集団標準偏差の場合、
  • 5:31 - 5:35
    その平方根を取ります。
  • 5:35 - 5:38
    標準偏差は平均から計算されるので
  • 5:38 - 5:41
    中心の指標として好ましいない平均を使うと
  • 5:41 - 5:45
    その標準偏差も偏ります。
  • 5:45 - 5:48
    実際の広がりを見た場合、
  • 5:48 - 5:50
    このパラメータは
  • 5:50 - 5:53
    広がりの指標としては実際より大きくなります。
  • 5:53 - 5:57
    このデータセットにはこの平均または中央値から
  • 5:57 - 6:00
    著しく離れた値があります。
  • 6:00 - 6:02
    しかし、そのほかの値は
  • 6:02 - 6:05
    ほぼ1箇所に集まっています。
  • 6:05 - 6:07
    だからこの場合は中央値を使用するとともに
  • 6:07 - 6:11
    四分位範囲の指標が望ましいです。
  • 6:11 - 6:13
    四分位範囲はどのように算出しますか。
  • 6:13 - 6:15
    中央値をまず見つけ、
  • 6:15 - 6:19
    そして、下半分のデータのみの
    中央値を見つけます。
  • 6:19 - 6:22
    ここに 50 があり、そして
  • 6:22 - 6:25
    上のグループの数を集め、
  • 6:25 - 6:29
    ここでは 60 と 75 で
    これらの中央値は 67.5 です。
  • 6:29 - 6:31
    これに馴染みのない人は
  • 6:31 - 6:33
    四分位範囲と標準偏差と中央値と平均の
  • 6:33 - 6:35
    計算方法の動画あるのでご覧ください。
  • 6:35 - 6:36
    ここでは復習です。
  • 6:36 - 6:39
    これらの差は 17.5 で
  • 6:39 - 6:43
    この2つの差は 17.5 ですね。
  • 6:43 - 6:46
    この値が 25億であっても
  • 6:46 - 6:48
    この差は変化しません。
  • 6:48 - 6:52
    繰り返しますが、これらの指標は
  • 6:52 - 6:55
    偏りのあるデータで影響されにくいです。
  • 6:56 - 6:59
    ここで知っておくとよいことは
  • 6:59 - 7:02
    対称的なデータセットでは
    平均や標準偏差は便利です。
  • 7:02 - 7:05
    データセットに偏りを与える
  • 7:05 - 7:07
    外れ値がない場合には
  • 7:07 - 7:10
    平均や標準偏差は安定しています。
  • 7:10 - 7:13
    少しのデータポイントによって
  • 7:13 - 7:16
    非常に偏りのある場合は
  • 7:16 - 7:19
    中央値と四分位範囲、
    中心の指標には中央値、
  • 7:19 - 7:23
    広がりの指標には四分位範囲が適しています。
  • 7:23 - 7:26
    そのため、給与額の場合は
  • 7:26 - 7:28
    よく中央値が使用されます。
  • 7:28 - 7:30
    なぜなら、非常に高い給与額が
    よく見受けらるからです。
  • 7:30 - 7:32
    家屋の価格でも
  • 7:32 - 7:35
    中央値が平均より、よく使われます。
  • 7:35 - 7:39
    なぜなら、地区、市内などで
  • 7:39 - 7:42
    多くの家が 二十万ドル から 三十万 ドルでも
  • 7:42 - 7:47
    ひとつ 一億ドルのマンションがあったりした場合、
  • 7:47 - 7:49
    平均を計算すると
  • 7:49 - 7:52
    その地区の家屋の価格の中心が
  • 7:52 - 7:56
    非常に高い印象を与えます。
Title:
Mean and standard deviation versus median and IQR
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
07:59

Japanese subtitles

Revisions Compare revisions