私たちはこれから「統計」の
世界へと旅を始めます。
それは本当にデータについて
理解する方法です。
つまり統計とは結局データに
ついてです。
そして統計の世界への旅を
始める時には,
まず,記述統計学と呼ばれるものに
ついてたくさんやっていきます。
さて,私たちがたくさんの
データを持っているとして,
データ全部を見せることなしに,
そのデータについて何かを語りたい時,
そのデータをある少ない数のセットでどうにか記述できな
いでしょうか?
それが私たちが焦点を
あてたいことです。
そして,私たちが記述統計学の
上にツールキットを作ったら,
データについて推計したり,
何か結論を出したり,
何か判断したりしはじめる
ことができるでしょう。
私たちは推計統計学について
たくさんのことをしはじめ,推計をします。
これらは今は置いておき,
まずは,データをどうやって
記述するかについて考えましょう。
まずは数のセットがあるとします。
これをデータと考えることができます。
たとえば,私たちの庭にある
植物の高さを測ったとしましょう。
ここには 6 本の植物が
あったとします。
そして高さは 4 インチ,3 インチ,
1 インチ, 6 インチ,
そして,1 インチ, 7インチ
だったとします。
そして,他の部屋にいる誰かが,
あなたの植物は見ずに,
「あなたの植物の高さはどれくらい?」
と尋ねたとします。
そしてその人は 1 つの数しか
聞きたくないとします。
つまり,どうにかして,これらの
植物全部を代表するような
1 つの数を知りたいのです。
どうしたらいいでしょうか?
そうですね。どうしたら
いいでしょうか?
何かこの数のうち,
よくあるものとか。
または,なんとかこの数の
真ん中を表すような数。
たとえば,一番よく出てくる
数かもしれません。
あるいは,これらの数
全部の真ん中を
表すような数とかかもしれません。
もしあなたが,こういった
ことを言ったとしたら,
実はあなたは記述統計学を
最初に考えた人たちと
同じことをしています。
その人たちは,「どうしたら
いいかな?」と言ったことでしょう。
そして「平均」という考えに
ついて考えはじます。
「平均」。
ここで見ていきますが,
毎日の言葉で
「平均」は特定の意味を持ちます。
多くの人が平均と言うと,
すぐ後で見ますが,算術平均に
ついて言っています。
しかし統計学では,平均というのは,
もっと一般の何かを言います。
それは,よく出てくるもの,中央のもの,
または,これらは「または」でつなぎます。
それは実際には中心傾向の
測定をみつけることです。
「中心傾向」。
ではもう一度,あなたが
たくさんの数を持っていて,
どうにかしてこれらを 1 個の数で
表わそうとした時,それを平均と呼び,
それは,よくあるものか,真ん中か,
これらの数の中央にある何かです。
これから,いろんなタイプの
平均(Average)を見ていきます。
最初のものは多分あなたに
一番身近なものでしょう。
それは,人々は「この試験の平均」,とか
「この植物の高さの平均」とか言います。
それは普通算術平均です。
書いてみましょう。
黄色で算術平均と書きます。
算術は名詞ですが,ここでは
形容詞のように使います。
算術平均。
これは全部のデータの和を
データの数で割ったものです。
これは人間が作った定義で,
使い出があるものです。
これら数の全部の和を,
これらの数の数で割ります。
これが与えられたとして,この
データセットの算術平均は何ですか?
計算してみましょう。
4 たす 3 たす 1 たす
6 たす 1 たす 7 を
ここにあるデータポイントの
数で割ります。
6 個のデータポイントがあります。
ですから 6 で割ります。
4 たす 3 は 7 で,たすことの
1 は 8,たすことの 6 は 14,
たすことの 1 は 15,たすことの 7。
15 たす 7 は 22 に等しい。
もう一見確かめます。
7, 8, 14, 15, 22,
これ全部を 6 で割る。
これは帯分数で書けます。
6 は 22 に 3 回あるので,
あまりは 4 です。
すると,3 と 6 分の 4 です。
それは,3 と 3 分の 2 と同じです。
これを小数で, 3.6 の
循環と書くこともできます。
これは実は 3.6 の循環小数です。
わかっているのならどう
書いてもいいです。
しかし,これはある意味
データを代表する数です。
これは中心傾向を
とらえようとしています。
繰り返しますが,これは
人の作ったものです。
誰かが,これは宗教の書物とかで,
算術平均はこうして計算する
ように定義されなくてはならない,
というものではありません。
また,宇宙を研究する時に
考える,円の周長を求める,
みたいな純粋な
計算でもありません。
円周とかは宇宙を
研究すると出てきます。
算術平均は人間の作った定義で,
いろいろ使い道があります。
さて,平均,よくあるもの,
真ん中の値とかを求めるには
他の方法もあります。
よくある他の方法には
中央値,メジアンがあります。
中央値と書いとおきます。
もう色がないですね。
これはピンクで書きます。
さて,中央値です。
中央値とは,文字通り,
真ん中の数を探します。
もしこれらの数を
全部順番に並べて,
真ん中の数をみつけたら,
それが中央値です。
では,この数のセットの
中央値は何でしょうか?
求めてみましょう。
まずは順番に並べましょう。
1 があって,
もう 1 個 1 があります。
それから 3 があり,
4,6, そして 7 です。
これらの数を並びかえました。
では何が真ん中の数ですか?
ここを見ます。
ここには偶数の数の数があります。
6 個の数があります。
すると中央の数はありません。
実は 2 個の中央の数があります。
ここに,2 個の中央の数があります。
3 と 4 です。
この場合のように 2 個の
中央の数がある時には,
これら 2 個の数の間をとります。
中央値を求めるには,これら
2 個の数の算術平均をとります。
すると中央値は 3 と 4 の間,
つまり 3.5 になります。
するとこの場合には
中央値は 3.5 です。
もし偶数の数の数が
あった場合には,
中央値は,真ん中の 2 個の
数の算術平均をとります
あるいは,真ん中の 2 個の
数の真ん中の値をとります。
もし数の数が奇数なら,
もっと簡単です。
その場合には,そうですね,
他のデータセットを考えましょう。
データセットは,
最初から順番に並べますが,
0,7,50, どうしますかね,
1 万,100 万とします。
これがデータセットだとしましょう。
ちょっとおかしなデータ
セットかもしれません。
しかしこの場合,中央値は
何になりますか?
ここには 5 個の数があります。
数の数は奇数です。
すると,真ん中を
取るのは簡単です。
真ん中は,こちらの 2 個の
数よりも大きくて,
こちらの 2 個の数よりも
小さいものです。
これは丁度真ん中にあります。
するとこの場合,
中央値は 50 です。
さて,3 番目の中心傾向は,
多分日常生活では,
一番使わないでしょうが,
モード,最頻値です。
これは結構忘れられて
いるのではないでしょうか。
何か複雑な響きがあります。
しかし,これはとても
素直な考えです。
ある意味,一番基本の
考えとも言えます。
最頻値は,データセットの
中の一番よくある数のことです。
もし一番よく出てくる数が
あるのならば,です。
全部の数が等しく表われたり,
一番よく出てくる数が
1 つに決まらない場合,
最頻値はありません。
しかし,最頻値の定義が
そう与えられたとして,
この元のデータセットに一番良く
出てくる 1 個の数は何でしょうか?
このデータセットです。
4 は 1 個しかありません。
3 は 1 個しかありません。
しかし 1 は 2 個あります。
6 も 7 も 1 個だけです。
ここで一番良く出てくる数は 1 です。
最頻値は,一番普通にある数,
一番良く出てくる数で,
ここでは 1 です。
さて,これらがよくあるもの,
中央のもの,中心傾向を
求める方法です。
しかしそれぞれはまったく
違う方法です。
もっと学び,もっと統計をやっていくと,
これらはそれぞれ違う利用法が
あるとわかるでしょう。
これが最も使われるものです。
中央値はこんなふうに算術平均が
ゆがんでしまうような,
変なデータセットの時に
とても良いです。
最頻値(モード)は,
特に 1 つの数がよく出てくる
場合にとても使い出があります。
とにかく今回はここまでにしましょう。
そして,次のいくつかの
ビデオでは統計について
もっと深く見ていきましょう。