-
私たちはこれから「統計」の
世界へと旅を始めます。
-
それは本当にデータについて
理解する方法です。
-
つまり統計とは結局データに
ついてです。
-
そして統計の世界への旅を
始める時には,
-
まず,記述統計学と呼ばれるものに
ついてたくさんやっていきます。
-
さて,私たちがたくさんの
データを持っているとして,
-
データ全部を見せることなしに,
そのデータについて何かを語りたい時,
-
そのデータをある少ない数のセットでどうにか記述できな
いでしょうか?
-
それが私たちが焦点を
あてたいことです。
-
そして,私たちが記述統計学の
上にツールキットを作ったら,
-
データについて推計したり,
何か結論を出したり,
-
何か判断したりしはじめる
ことができるでしょう。
-
私たちは推計統計学について
たくさんのことをしはじめ,推計をします。
-
これらは今は置いておき,
-
まずは,データをどうやって
記述するかについて考えましょう。
-
まずは数のセットがあるとします。
-
これをデータと考えることができます。
-
たとえば,私たちの庭にある
植物の高さを測ったとしましょう。
-
ここには 6 本の植物が
あったとします。
-
そして高さは 4 インチ,3 インチ,
1 インチ, 6 インチ,
-
そして,1 インチ, 7インチ
だったとします。
-
そして,他の部屋にいる誰かが,
あなたの植物は見ずに,
-
「あなたの植物の高さはどれくらい?」
と尋ねたとします。
-
そしてその人は 1 つの数しか
聞きたくないとします。
-
つまり,どうにかして,これらの
植物全部を代表するような
-
1 つの数を知りたいのです。
-
どうしたらいいでしょうか?
-
そうですね。どうしたら
いいでしょうか?
-
何かこの数のうち,
よくあるものとか。
-
または,なんとかこの数の
真ん中を表すような数。
-
たとえば,一番よく出てくる
数かもしれません。
-
あるいは,これらの数
全部の真ん中を
-
表すような数とかかもしれません。
-
もしあなたが,こういった
ことを言ったとしたら,
-
実はあなたは記述統計学を
最初に考えた人たちと
-
同じことをしています。
-
その人たちは,「どうしたら
いいかな?」と言ったことでしょう。
-
そして「平均」という考えに
ついて考えはじます。
-
「平均」。
-
ここで見ていきますが,
毎日の言葉で
-
「平均」は特定の意味を持ちます。
-
多くの人が平均と言うと,
-
すぐ後で見ますが,算術平均に
ついて言っています。
-
しかし統計学では,平均というのは,
もっと一般の何かを言います。
-
それは,よく出てくるもの,中央のもの,
-
または,これらは「または」でつなぎます。
-
それは実際には中心傾向の
測定をみつけることです。
-
「中心傾向」。
-
ではもう一度,あなたが
たくさんの数を持っていて,
-
どうにかしてこれらを 1 個の数で
表わそうとした時,それを平均と呼び,
-
それは,よくあるものか,真ん中か,
これらの数の中央にある何かです。
-
これから,いろんなタイプの
平均(Average)を見ていきます。
-
最初のものは多分あなたに
一番身近なものでしょう。
-
それは,人々は「この試験の平均」,とか
-
「この植物の高さの平均」とか言います。
-
それは普通算術平均です。
-
書いてみましょう。
-
黄色で算術平均と書きます。
-
算術は名詞ですが,ここでは
形容詞のように使います。
-
算術平均。
-
これは全部のデータの和を
データの数で割ったものです。
-
これは人間が作った定義で,
使い出があるものです。
-
これら数の全部の和を,
-
これらの数の数で割ります。
-
これが与えられたとして,この
データセットの算術平均は何ですか?
-
計算してみましょう。
-
4 たす 3 たす 1 たす
6 たす 1 たす 7 を
-
ここにあるデータポイントの
数で割ります。
-
6 個のデータポイントがあります。
-
ですから 6 で割ります。
-
4 たす 3 は 7 で,たすことの
1 は 8,たすことの 6 は 14,
-
たすことの 1 は 15,たすことの 7。
-
15 たす 7 は 22 に等しい。
-
もう一見確かめます。
-
7, 8, 14, 15, 22,
これ全部を 6 で割る。
-
これは帯分数で書けます。
-
6 は 22 に 3 回あるので,
あまりは 4 です。
-
すると,3 と 6 分の 4 です。
それは,3 と 3 分の 2 と同じです。
-
これを小数で, 3.6 の
循環と書くこともできます。
-
これは実は 3.6 の循環小数です。
-
わかっているのならどう
書いてもいいです。
-
しかし,これはある意味
データを代表する数です。
-
これは中心傾向を
とらえようとしています。
-
繰り返しますが,これは
人の作ったものです。
-
誰かが,これは宗教の書物とかで,
-
算術平均はこうして計算する
ように定義されなくてはならない,
-
というものではありません。
-
また,宇宙を研究する時に
考える,円の周長を求める,
-
みたいな純粋な
計算でもありません。
-
円周とかは宇宙を
研究すると出てきます。
-
算術平均は人間の作った定義で,
-
いろいろ使い道があります。
-
さて,平均,よくあるもの,
真ん中の値とかを求めるには
-
他の方法もあります。
-
よくある他の方法には
中央値,メジアンがあります。
-
中央値と書いとおきます。
-
もう色がないですね。
-
これはピンクで書きます。
-
さて,中央値です。
-
中央値とは,文字通り,
真ん中の数を探します。
-
もしこれらの数を
全部順番に並べて,
-
真ん中の数をみつけたら,
それが中央値です。
-
では,この数のセットの
中央値は何でしょうか?
-
求めてみましょう。
-
まずは順番に並べましょう。
-
1 があって,
-
もう 1 個 1 があります。
-
それから 3 があり,
-
4,6, そして 7 です。
-
これらの数を並びかえました。
-
では何が真ん中の数ですか?
-
ここを見ます。
-
ここには偶数の数の数があります。
6 個の数があります。
-
すると中央の数はありません。
-
実は 2 個の中央の数があります。
-
ここに,2 個の中央の数があります。
-
3 と 4 です。
-
この場合のように 2 個の
中央の数がある時には,
-
これら 2 個の数の間をとります。
-
中央値を求めるには,これら
2 個の数の算術平均をとります。
-
すると中央値は 3 と 4 の間,
つまり 3.5 になります。
-
するとこの場合には
中央値は 3.5 です。
-
もし偶数の数の数が
あった場合には,
-
中央値は,真ん中の 2 個の
数の算術平均をとります
-
あるいは,真ん中の 2 個の
数の真ん中の値をとります。
-
もし数の数が奇数なら,
もっと簡単です。
-
その場合には,そうですね,
他のデータセットを考えましょう。
-
データセットは,
-
最初から順番に並べますが,
-
0,7,50, どうしますかね,
1 万,100 万とします。
-
これがデータセットだとしましょう。
-
ちょっとおかしなデータ
セットかもしれません。
-
しかしこの場合,中央値は
何になりますか?
-
ここには 5 個の数があります。
-
数の数は奇数です。
-
すると,真ん中を
取るのは簡単です。
-
真ん中は,こちらの 2 個の
数よりも大きくて,
-
こちらの 2 個の数よりも
小さいものです。
-
これは丁度真ん中にあります。
-
するとこの場合,
中央値は 50 です。
-
さて,3 番目の中心傾向は,
-
多分日常生活では,
一番使わないでしょうが,
-
モード,最頻値です。
-
これは結構忘れられて
いるのではないでしょうか。
-
何か複雑な響きがあります。
-
しかし,これはとても
素直な考えです。
-
ある意味,一番基本の
考えとも言えます。
-
最頻値は,データセットの
中の一番よくある数のことです。
-
もし一番よく出てくる数が
あるのならば,です。
-
全部の数が等しく表われたり,
-
一番よく出てくる数が
1 つに決まらない場合,
-
最頻値はありません。
-
しかし,最頻値の定義が
そう与えられたとして,
-
この元のデータセットに一番良く
出てくる 1 個の数は何でしょうか?
-
このデータセットです。
-
4 は 1 個しかありません。
-
3 は 1 個しかありません。
-
しかし 1 は 2 個あります。
-
6 も 7 も 1 個だけです。
-
ここで一番良く出てくる数は 1 です。
-
最頻値は,一番普通にある数,
一番良く出てくる数で,
-
ここでは 1 です。
-
さて,これらがよくあるもの,
中央のもの,中心傾向を
-
求める方法です。
-
しかしそれぞれはまったく
違う方法です。
-
もっと学び,もっと統計をやっていくと,
-
これらはそれぞれ違う利用法が
あるとわかるでしょう。
-
これが最も使われるものです。
-
中央値はこんなふうに算術平均が
ゆがんでしまうような,
-
変なデータセットの時に
とても良いです。
-
最頻値(モード)は,
-
特に 1 つの数がよく出てくる
場合にとても使い出があります。
-
とにかく今回はここまでにしましょう。
-
そして,次のいくつかの
ビデオでは統計について
-
もっと深く見ていきましょう。