Mean and standard deviation versus median and IQR
-
0:01 - 0:03各学年の生徒数が9人の小さな学校から、
-
0:03 - 0:08最近、卒業した学生が9人います。
-
0:08 - 0:11卒業1年後の彼らの給与の
-
0:11 - 0:14傾向を求めたいと思います。
-
0:14 - 0:171年後のサラリーの
-
0:17 - 0:20ばらつきも求めたいです。
-
0:20 - 0:24そこで彼らは給与額を
コンピュータに入力することに同意し -
0:24 - 0:26これがその給与額です。
-
0:26 - 0:27千の単位で書かれています。
-
0:27 - 0:31つまり、35,000、50,000、50,000、
50,000、56,000 -
0:31 - 0:35そして2人が60,000で、次が75,000、
最後に250,000があります。 -
0:35 - 0:37この人はとても給与が高いですね。
-
0:37 - 0:41このデータに基づいて
-
0:41 - 0:43コンピュータはいろんなパラメータを
出力しています。 -
0:43 - 0:472つの典型的な中心の傾向を
示すパラメータがあります。 -
0:47 - 0:50平均は約 76.2 です。
-
0:50 - 0:53コンピュータはこれらの値を合計し
-
0:53 - 0:56そして、それを9で割っています。
-
0:56 - 1:00中央値は56 でこれは簡単に出ます。
-
1:00 - 1:02数を順に並べて
-
1:02 - 1:05その中央である56 になります。
-
1:05 - 1:08ここで動画を一時停止して
-
1:08 - 1:10このデータセットを見て
-
1:10 - 1:14この給与のデータセットに関して
-
1:14 - 1:19中央を見るパラメータをどちらがよいが
考えてみましょう。 -
1:19 - 1:21では、見ていきましょう。
-
1:21 - 1:24これを線上に並べてみましょう。
-
1:24 - 1:26これを線上においてみることで
-
1:26 - 1:28数を見ているだけでは
-
1:28 - 1:31理解しにくい、
-
1:31 - 1:33これらの数の分布がわかりやすくなります。
-
1:33 - 1:35これを0とします。
-
1:35 - 1:421、2、3、4、5で
-
1:42 - 1:50これが 250 そしてこれが 50、
100、150、200 -
1:52 - 1:53そして、
-
1:53 - 1:56これが50とすると、
-
1:56 - 1:59これは約 40となります。
-
1:59 - 2:04ここが60で 70、80、90、のように。
-
2:04 - 2:06もう少しきちんと書くこともできますが…
-
2:06 - 2:0960、70、80、90とわかりますね。
-
2:09 - 2:12ちょっと書き直してみましょう。
-
2:12 - 2:14ここが
-
2:14 - 2:17もう少しこっちによって
-
2:18 - 2:22ここに置きます。
-
2:22 - 2:27これが40です。
そして 30、20、10となります。 -
2:27 - 2:29いいですね。
-
2:29 - 2:30では、データをおいていきましょう。
-
2:30 - 2:34ひとりは 35,000 の給与額で
ここになります。 -
2:36 - 2:38そして2人は 50,000 で
おっと3人ですね。 -
2:38 - 2:42ここに1、2、3。
-
2:42 - 2:44このように書きます。
-
2:44 - 2:50一人は 56,000の給与でここになります。
-
2:50 - 2:53そして2人は60,000 の給与で
-
2:53 - 2:55ここになります。
-
2:55 - 3:00そして、次は 75,000、だから
60、70で、75,000 は -
3:00 - 3:02このあたりになります。
-
3:02 - 3:04そして最後は 250,000 です。
-
3:04 - 3:08この人の給与額はこの遠くにあります。
-
3:08 - 3:11これを中心を見る指標として
-
3:11 - 3:13平均を計算すると 76.2 になります。
-
3:13 - 3:1776.2 はここになります。
-
3:17 - 3:21これは中心の傾向として良いでしょうか?
-
3:21 - 3:23あまりよく見えないですね。
-
3:23 - 3:28中心傾向の指標なのに,1つ以外のすべてのデータより
-
3:28 - 3:30高い値です。
-
3:30 - 3:34これを中心の指標と考えると
-
3:34 - 3:37この250,000の点によって
ゆがめられています。 -
3:39 - 3:41他のデータから見ると、
-
3:41 - 3:45この平均はゆがめられています。
-
3:45 - 3:47これはよく見られる事態です。
-
3:47 - 3:50データセットに外れた値がある場合、
-
3:50 - 3:53特にこの給与額のデータセットのように
-
3:53 - 3:56ほとんどが 50,000から70,000で
ひとつの値が250,000のような場合、 -
3:56 - 3:59平均が偏ります。
-
3:59 - 4:02平均はすべての数を合計して
-
4:02 - 4:03データ数で割って得られるものです。
-
4:03 - 4:08この場合、著しく離れた値がある場合
それによって平均が影響されますが、 -
4:08 - 4:11中央値はあまり影響を受けません。
-
4:11 - 4:14このデータセットの中央値である 56 はここで、
-
4:14 - 4:17これはよりデータセットの中心に近いです。
-
4:17 - 4:19考えてみましょう。
-
4:19 - 4:22もし この外れた値が
-
4:22 - 4:26250000の給与額の代わりに
-
4:26 - 4:30250 億などの非常に高い値とすると、
-
4:30 - 4:33平均に著しく影響しますが、
-
4:33 - 4:36中央値には影響しません。
-
4:36 - 4:37なぜなら、中央値は
-
4:37 - 4:39最大値や最小値の値には関係ありません。
-
4:39 - 4:40この値が1兆ドルであっても
-
4:40 - 4:421000兆ドルであっても
-
4:42 - 4:44中央値はそのままです。
-
4:44 - 4:46偏りのあるデータセットでは、
-
4:46 - 4:48中央値はもっと安定しています。
-
4:48 - 4:52対称的なデータセットがある場合は
-
4:52 - 4:55平均がより意味を持つようになります。
-
4:55 - 4:57データセットが平均の上下に分布されていて
-
4:57 - 5:00著しい偏りがない場合です。
-
5:00 - 5:01特にこの例でこの部分の
-
5:01 - 5:04データセットだけをみる場合などです。
-
5:04 - 5:07しかし、この例では
-
5:07 - 5:10中央値がよりよく中心を示します。
-
5:10 - 5:11では、広がりはどうでしょう。
-
5:11 - 5:14ここまでで、このデータセットでは平均は
-
5:14 - 5:16あまりより指標でないと理解したので
-
5:16 - 5:18平均に依存する標準偏差はどうでしょう。
-
5:18 - 5:22標準偏差はそれぞれのデータポイントの
-
5:22 - 5:25平均から差を2乗して
-
5:25 - 5:28その合計を、データポイント数で割って
-
5:28 - 5:31母集団標準偏差の場合、
-
5:31 - 5:35その平方根を取ります。
-
5:35 - 5:38標準偏差は平均から計算されるので
-
5:38 - 5:41中心の指標として好ましいない平均を使うと
-
5:41 - 5:45その標準偏差も偏ります。
-
5:45 - 5:48実際の広がりを見た場合、
-
5:48 - 5:50このパラメータは
-
5:50 - 5:53広がりの指標としては実際より大きくなります。
-
5:53 - 5:57このデータセットにはこの平均または中央値から
-
5:57 - 6:00著しく離れた値があります。
-
6:00 - 6:02しかし、そのほかの値は
-
6:02 - 6:05ほぼ1箇所に集まっています。
-
6:05 - 6:07だからこの場合は中央値を使用するとともに
-
6:07 - 6:11四分位範囲の指標が望ましいです。
-
6:11 - 6:13四分位範囲はどのように算出しますか。
-
6:13 - 6:15中央値をまず見つけ、
-
6:15 - 6:19そして、下半分のデータのみの
中央値を見つけます。 -
6:19 - 6:22ここに 50 があり、そして
-
6:22 - 6:25上のグループの数を集め、
-
6:25 - 6:29ここでは 60 と 75 で
これらの中央値は 67.5 です。 -
6:29 - 6:31これに馴染みのない人は
-
6:31 - 6:33四分位範囲と標準偏差と中央値と平均の
-
6:33 - 6:35計算方法の動画あるのでご覧ください。
-
6:35 - 6:36ここでは復習です。
-
6:36 - 6:39これらの差は 17.5 で
-
6:39 - 6:43この2つの差は 17.5 ですね。
-
6:43 - 6:46この値が 25億であっても
-
6:46 - 6:48この差は変化しません。
-
6:48 - 6:52繰り返しますが、これらの指標は
-
6:52 - 6:55偏りのあるデータで影響されにくいです。
-
6:56 - 6:59ここで知っておくとよいことは
-
6:59 - 7:02対称的なデータセットでは
平均や標準偏差は便利です。 -
7:02 - 7:05データセットに偏りを与える
-
7:05 - 7:07外れ値がない場合には
-
7:07 - 7:10平均や標準偏差は安定しています。
-
7:10 - 7:13少しのデータポイントによって
-
7:13 - 7:16非常に偏りのある場合は
-
7:16 - 7:19中央値と四分位範囲、
中心の指標には中央値、 -
7:19 - 7:23広がりの指標には四分位範囲が適しています。
-
7:23 - 7:26そのため、給与額の場合は
-
7:26 - 7:28よく中央値が使用されます。
-
7:28 - 7:30なぜなら、非常に高い給与額が
よく見受けらるからです。 -
7:30 - 7:32家屋の価格でも
-
7:32 - 7:35中央値が平均より、よく使われます。
-
7:35 - 7:39なぜなら、地区、市内などで
-
7:39 - 7:42多くの家が 二十万ドル から 三十万 ドルでも
-
7:42 - 7:47ひとつ 一億ドルのマンションがあったりした場合、
-
7:47 - 7:49平均を計算すると
-
7:49 - 7:52その地区の家屋の価格の中心が
-
7:52 - 7:56非常に高い印象を与えます。
- Title:
- Mean and standard deviation versus median and IQR
- Description:
-
- Video Language:
- English
- Team:
Khan Academy
- Duration:
- 07:59
![]() |
Hitoshi Yamauchi edited Japanese subtitles for Mean and standard deviation versus median and IQR | |
![]() |
Hitoshi Yamauchi edited Japanese subtitles for Mean and standard deviation versus median and IQR | |
![]() |
Hitoshi Yamauchi edited Japanese subtitles for Mean and standard deviation versus median and IQR | |
![]() |
Nobuko Hamaguchi edited Japanese subtitles for Mean and standard deviation versus median and IQR | |
![]() |
Nobuko Hamaguchi edited Japanese subtitles for Mean and standard deviation versus median and IQR |