1 00:00:00,000 --> 00:00:06,533 私たちはこれから「統計」の 世界へと旅を始めます。 2 00:00:06,533 --> 00:00:11,399 それは本当にデータについて 理解する方法です。 3 00:00:11,400 --> 00:00:14,433 つまり統計とは結局データに ついてです。 4 00:00:14,433 --> 00:00:18,799 そして統計の世界への旅を 始める時には, 5 00:00:18,800 --> 00:00:22,900 まず,記述統計学と呼ばれるものに ついてたくさんやっていきます。 6 00:00:22,900 --> 00:00:25,000 さて,私たちがたくさんの データを持っているとして, 7 00:00:25,000 --> 00:00:29,766 データ全部を見せることなしに, そのデータについて何かを語りたい時, 8 00:00:29,766 --> 00:00:33,566 そのデータをある少ない数のセットでどうにか記述できな いでしょうか? 9 00:00:33,566 --> 00:00:35,399 それが私たちが焦点を あてたいことです。 10 00:00:35,400 --> 00:00:38,800 そして,私たちが記述統計学の 上にツールキットを作ったら, 11 00:00:38,800 --> 00:00:41,400 データについて推計したり, 何か結論を出したり, 12 00:00:41,400 --> 00:00:43,900 何か判断したりしはじめる ことができるでしょう。 13 00:00:43,900 --> 00:00:50,833 私たちは推計統計学について たくさんのことをしはじめ,推計をします。 14 00:00:50,833 --> 00:00:52,799 これらは今は置いておき, 15 00:00:52,800 --> 00:00:56,066 まずは,データをどうやって 記述するかについて考えましょう。 16 00:00:56,066 --> 00:01:00,399 まずは数のセットがあるとします。 17 00:01:00,400 --> 00:01:02,033 これをデータと考えることができます。 18 00:01:02,033 --> 00:01:05,433 たとえば,私たちの庭にある 植物の高さを測ったとしましょう。 19 00:01:05,433 --> 00:01:07,099 ここには 6 本の植物が あったとします。 20 00:01:07,100 --> 00:01:13,566 そして高さは 4 インチ,3 インチ, 1 インチ, 6 インチ, 21 00:01:13,566 --> 00:01:17,666 そして,1 インチ, 7インチ だったとします。 22 00:01:17,666 --> 00:01:20,632 そして,他の部屋にいる誰かが, あなたの植物は見ずに, 23 00:01:20,633 --> 00:01:24,333 「あなたの植物の高さはどれくらい?」 と尋ねたとします。 24 00:01:24,333 --> 00:01:25,933 そしてその人は 1 つの数しか 聞きたくないとします。 25 00:01:25,933 --> 00:01:30,233 つまり,どうにかして,これらの 植物全部を代表するような 26 00:01:30,233 --> 00:01:33,099 1 つの数を知りたいのです。 27 00:01:33,100 --> 00:01:36,266 どうしたらいいでしょうか? 28 00:01:36,266 --> 00:01:38,499 そうですね。どうしたら いいでしょうか? 29 00:01:38,500 --> 00:01:40,666 何かこの数のうち, よくあるものとか。 30 00:01:40,666 --> 00:01:43,732 または,なんとかこの数の 真ん中を表すような数。 31 00:01:43,733 --> 00:01:45,933 たとえば,一番よく出てくる 数かもしれません。 32 00:01:45,933 --> 00:01:48,433 あるいは,これらの数 全部の真ん中を 33 00:01:48,433 --> 00:01:50,966 表すような数とかかもしれません。 34 00:01:50,966 --> 00:01:52,899 もしあなたが,こういった ことを言ったとしたら, 35 00:01:52,900 --> 00:01:54,866 実はあなたは記述統計学を 最初に考えた人たちと 36 00:01:54,866 --> 00:01:57,899 同じことをしています。 37 00:01:57,900 --> 00:01:59,833 その人たちは,「どうしたら いいかな?」と言ったことでしょう。 38 00:01:59,833 --> 00:02:03,799 そして「平均」という考えに ついて考えはじます。 39 00:02:03,800 --> 00:02:04,633 「平均」。 40 00:02:04,633 --> 00:02:07,166 ここで見ていきますが, 毎日の言葉で 41 00:02:07,166 --> 00:02:09,399 「平均」は特定の意味を持ちます。 42 00:02:09,400 --> 00:02:11,266 多くの人が平均と言うと, 43 00:02:11,266 --> 00:02:14,632 すぐ後で見ますが,算術平均に ついて言っています。 44 00:02:14,633 --> 00:02:17,799 しかし統計学では,平均というのは, もっと一般の何かを言います。 45 00:02:17,800 --> 00:02:22,666 それは,よく出てくるもの,中央のもの, 46 00:02:22,666 --> 00:02:29,499 または,これらは「または」でつなぎます。 47 00:02:29,500 --> 00:02:34,266 それは実際には中心傾向の 測定をみつけることです。 48 00:02:34,266 --> 00:02:38,232 「中心傾向」。 49 00:02:38,233 --> 00:02:40,233 ではもう一度,あなたが たくさんの数を持っていて, 50 00:02:40,233 --> 00:02:44,133 どうにかしてこれらを 1 個の数で 表わそうとした時,それを平均と呼び, 51 00:02:44,133 --> 00:02:50,133 それは,よくあるものか,真ん中か, これらの数の中央にある何かです。 52 00:02:50,133 --> 00:02:53,799 これから,いろんなタイプの 平均(Average)を見ていきます。 53 00:02:53,800 --> 00:02:56,366 最初のものは多分あなたに 一番身近なものでしょう。 54 00:02:56,366 --> 00:02:59,132 それは,人々は「この試験の平均」,とか 55 00:02:59,133 --> 00:03:00,533 「この植物の高さの平均」とか言います。 56 00:03:00,533 --> 00:03:02,666 それは普通算術平均です。 57 00:03:02,666 --> 00:03:05,166 書いてみましょう。 58 00:03:05,166 --> 00:03:12,799 黄色で算術平均と書きます。 59 00:03:12,800 --> 00:03:19,400 算術は名詞ですが,ここでは 形容詞のように使います。 60 00:03:19,400 --> 00:03:21,300 算術平均。 61 00:03:21,300 --> 00:03:25,000 これは全部のデータの和を データの数で割ったものです。 62 00:03:25,000 --> 00:03:27,866 これは人間が作った定義で, 使い出があるものです。 63 00:03:27,866 --> 00:03:31,299 これら数の全部の和ろ, 64 00:03:31,300 --> 00:03:34,133 これらの数の数で割ります。 65 00:03:34,133 --> 00:03:38,799 これが与えられたとして,この データセットの算術平均は何ですか? 66 00:03:38,800 --> 00:03:39,966 計算してみましょう。 67 00:03:39,966 --> 00:03:47,166 4 たす 3 たす 1 たす 6 たす 1 たす 7 を 68 00:03:47,166 --> 00:03:50,899 ここにあるデータポイントの 数で割ります。 69 00:03:50,900 --> 00:03:52,900 6 個のデータポイントがあります。 70 00:03:52,900 --> 00:03:54,533 ですから 6 で割ります。 71 00:03:54,533 --> 00:04:01,699 4 たす 3 は 7 で,たすことの 1 は 8,たすことの 6 は 14, 72 00:04:01,700 --> 00:04:04,800 たすことの 1 は 15,たすことの 7。 73 00:04:04,800 --> 00:04:07,900 15 たす 7 は 22 に等しい。 74 00:04:07,900 --> 00:04:08,833 もう一見確かめます。 75 00:04:08,833 --> 00:04:14,866 7, 8, 14, 15, 22, これ全部を 6 で割る。 76 00:04:14,866 --> 00:04:16,766 これは帯分数で書けます。 77 00:04:16,766 --> 00:04:20,799 6 は 22 に 3 回あるので, あまりは 4 です。 78 00:04:20,800 --> 00:04:24,900 すると,3 と 6 分の 4 です。 それは,3 と 3 分の 2 と同じです。 79 00:04:24,900 --> 00:04:28,366 これを小数で, 3.6 の 循環と書くこともできます。 80 00:04:28,366 --> 00:04:31,766 これは実は 3.6 の循環小数です。 81 00:04:31,766 --> 00:04:34,066 わかっているのならどう 書いてもいいです。 82 00:04:34,066 --> 00:04:36,399 しかし,これはある意味 データを代表する数です。 83 00:04:36,400 --> 00:04:39,500 これは中心傾向を とらえようとしています。 84 00:04:39,500 --> 00:04:41,300 繰り返しますが,これは 人の作ったものです。 85 00:04:41,300 --> 00:04:45,833 誰かが,これは宗教の書物とかで, 86 00:04:45,833 --> 00:04:47,666 算術平均はこうして計算する ように定義されなくてはならない, 87 00:04:47,666 --> 00:04:48,866 というものではありません。 88 00:04:48,866 --> 00:04:53,199 また,宇宙を研究する時に 考える,円の周長を求める, 89 00:04:53,200 --> 00:04:57,533 みたいな純粋な 計算でもありません。 90 00:04:57,533 --> 00:05:00,299 円周とかは宇宙を 研究すると出てきます。 91 00:05:00,300 --> 00:05:01,933 算術平均は人間の作った定義で, 92 00:05:01,933 --> 00:05:03,799 いろいろ使い道があります。 93 00:05:03,800 --> 00:05:06,933 さて,平均,よくあるもの, 真ん中の値とかを求めるには 94 00:05:06,933 --> 00:05:09,799 他の方法もあります。 95 00:05:09,800 --> 00:05:14,166 よくある他の方法には 中央値,メジアンがあります。 96 00:05:14,166 --> 00:05:15,366 中央値と書いとおきます。 97 00:05:15,366 --> 00:05:16,432 もう色がないですね。 98 00:05:16,433 --> 00:05:18,333 これはピンクで書きます。 99 00:05:18,333 --> 00:05:20,966 さて,中央値です。 100 00:05:20,966 --> 00:05:24,832 中央値とは,文字通り, 真ん中の数を探します。 101 00:05:24,833 --> 00:05:27,033 もしこれらの数を 全部順番に並べて, 102 00:05:27,033 --> 00:05:31,133 真ん中の数をみつけたら, それが中央値です。 103 00:05:31,133 --> 00:05:35,499 では,この数のセットの 中央値は何でしょうか? 104 00:05:35,500 --> 00:05:36,600 求めてみましょう。 105 00:05:36,600 --> 00:05:37,866 まずは順番に並べましょう。 106 00:05:37,866 --> 00:05:39,499 1 があって, 107 00:05:39,500 --> 00:05:40,700 もう 1 個 1 があります。 108 00:05:40,700 --> 00:05:42,533 それから 3 があり, 109 00:05:42,533 --> 00:05:46,299 4,6, そして 7 です。 110 00:05:46,300 --> 00:05:48,400 これらの数を並びかえました。 111 00:05:48,400 --> 00:05:50,566 では何が真ん中の数ですか? 112 00:05:50,566 --> 00:05:51,999 ここを見ます。 113 00:05:52,000 --> 00:05:54,633 ここには偶数の数の数があります。 6 個の数があります。 114 00:05:54,633 --> 00:05:56,933 すると中央の数はありません。 115 00:05:56,933 --> 00:05:59,333 実は 2 個の中央の数があります。 116 00:05:59,333 --> 00:06:01,733 ここに,2 個の中央の数があります。 117 00:06:01,733 --> 00:06:02,833 3 と 4 です。 118 00:06:02,833 --> 00:06:05,633 この場合のように 2 個の 中央の数がある時には, 119 00:06:05,633 --> 00:06:09,333 これら 2 個の数の間をとります。 120 00:06:09,333 --> 00:06:13,966 中央値を求めるには,これら 2 個の数の算術平均をとります。 121 00:06:13,966 --> 00:06:18,866 すると中央値は 3 と 4 の間, つまり 3.5 になります。 122 00:06:18,866 --> 00:06:24,099 するとこの場合には 中央値は 3.5 です。 123 00:06:24,100 --> 00:06:26,266 もし偶数の数の数が あった場合には, 124 00:06:26,266 --> 00:06:28,399 中央値は,真ん中の 2 個の 数の算術平均をとります 125 00:06:28,400 --> 00:06:31,433 あるいは,真ん中の 2 個の 数の真ん中の値をとります。 126 00:06:31,433 --> 00:06:33,966 もし数の数が奇数なら, もっと簡単です。 127 00:06:33,966 --> 00:06:36,599 その場合には,そうですね, 他のデータセットを考えましょう。 128 00:06:36,600 --> 00:06:38,066 データセットは, 129 00:06:38,066 --> 00:06:42,932 最初から順番に並べますが, 130 00:06:42,933 --> 00:06:55,366 0,7,50, どうしますかね, 1 万,100 万とします。 131 00:06:55,366 --> 00:06:56,666 これがデータセットだとしましょう。 132 00:06:56,666 --> 00:06:58,132 ちょっとおかしなデータ セットかもしれません。 133 00:06:58,133 --> 00:07:02,099 しかしこの場合,中央値は 何になりますか? 134 00:07:02,100 --> 00:07:03,733 ここには 5 個の数があります。 135 00:07:03,733 --> 00:07:05,099 数の数は奇数です。 136 00:07:05,100 --> 00:07:06,900 すると,真ん中を 取るのは簡単です。 137 00:07:06,900 --> 00:07:11,733 真ん中は,こちらの 2 個の 数よりも大きくて, 138 00:07:11,733 --> 00:07:13,233 こちらの 2 個の数よりも 小さいものです。 139 00:07:13,233 --> 00:07:14,433 これは丁度真ん中にあります。 140 00:07:14,433 --> 00:07:18,533 するとこの場合, 中央値は 50 です。 141 00:07:18,533 --> 00:07:20,433 さて,3 番目の中心傾向は, 142 00:07:20,433 --> 00:07:21,899 多分日常生活では, 一番使わないでしょうが, 143 00:07:21,900 --> 00:07:26,100 モード,最頻値です。 144 00:07:26,100 --> 00:07:27,500 これは結構忘れられて いるのではないでしょうか。 145 00:07:27,500 --> 00:07:29,766 何か複雑な響きがあります。 146 00:07:29,766 --> 00:07:32,766 しかし,これはとても 素直な考えです。 147 00:07:32,766 --> 00:07:35,866 ある意味,一番基本の 考えとも言えます。 148 00:07:35,866 --> 00:07:40,199 最頻値は,データセットの 中の一番よくある数のことです。 149 00:07:40,200 --> 00:07:41,566 もし一番よく出てくる数が あるのならば,です。 150 00:07:41,566 --> 00:07:43,499 全部の数が等しく表われたり, 151 00:07:43,500 --> 00:07:45,433 一番よく出てくる数が 1 つに決まらない場合, 152 00:07:45,433 --> 00:07:46,999 最頻値はありません。 153 00:07:47,000 --> 00:07:49,933 しかし,最頻値の定義が そう与えられたとして, 154 00:07:49,933 --> 00:07:53,866 この元のデータセットに一番良く 出てくる 1 個の数は何でしょうか? 155 00:07:53,866 --> 00:07:57,999 このデータセットです。 156 00:07:58,000 --> 00:07:59,800 4 は 1 個しかありません。 157 00:07:59,800 --> 00:08:01,166 3 は 1 個しかありません。 158 00:08:01,166 --> 00:08:03,066 しかし 1 は 2 個あります。 159 00:08:03,066 --> 00:08:04,566 6 も 7 も 1 個だけです。 160 00:08:04,566 --> 00:08:10,732 ここで一番良く出てくる数は 1 です。 161 00:08:10,733 --> 00:08:13,766 最頻値は,一番普通にある数, 一番良く出てくる数で, 162 00:08:13,766 --> 00:08:17,299 ここでは 1 です。 163 00:08:17,300 --> 00:08:19,266 さて,これらがよくあるもの, 中央のもの,中心傾向を 164 00:08:19,266 --> 00:08:22,999 求める方法です。 165 00:08:23,000 --> 00:08:25,300 しかしそれぞれはまったく 違う方法です。 166 00:08:25,300 --> 00:08:27,033 もっと学び,もっと統計をやっていくと, 167 00:08:27,033 --> 00:08:29,433 これらはそれぞれ違う利用法が あるとわかるでしょう。 168 00:08:29,433 --> 00:08:31,399 これが最も使われるものです。 169 00:08:31,400 --> 00:08:34,266 中央値はこんなふうに算術平均が ゆがんでしまうような, 170 00:08:34,266 --> 00:08:37,799 変なデータセットの時に とても良いです。 171 00:08:37,800 --> 00:08:41,266 最頻値(モード)は, 172 00:08:41,266 --> 00:08:45,632 特に 1 つの数がよく出てくる 場合にとても使い出があります。 173 00:08:45,633 --> 00:08:47,466 とにかく今回はここまでにしましょう。 174 00:08:47,466 --> 00:08:50,332 そして,次のいくつかの ビデオでは統計について 175 00:08:50,333 --> 00:08:53,199 もっと深く見ていきましょう。