WEBVTT 00:00:00.000 --> 00:00:06.533 私たちはこれから「統計」の 世界へと旅を始めます。 00:00:06.533 --> 00:00:11.399 それは本当にデータについて 理解する方法です。 00:00:11.400 --> 00:00:14.433 つまり統計とは結局データに ついてです。 00:00:14.433 --> 00:00:18.799 そして統計の世界への旅を 始める時には, 00:00:18.800 --> 00:00:22.900 まず,記述統計学と呼ばれるものに ついてたくさんやっていきます。 00:00:22.900 --> 00:00:25.000 さて,私たちがたくさんの データを持っているとして, 00:00:25.000 --> 00:00:29.766 データ全部を見せることなしに, そのデータについて何かを語りたい時, 00:00:29.766 --> 00:00:33.566 そのデータをある少ない数のセットでどうにか記述できな いでしょうか? 00:00:33.566 --> 00:00:35.399 それが私たちが焦点を あてたいことです。 00:00:35.400 --> 00:00:38.800 そして,私たちが記述統計学の 上にツールキットを作ったら, 00:00:38.800 --> 00:00:41.400 データについて推計したり, 何か結論を出したり, 00:00:41.400 --> 00:00:43.900 何か判断したりしはじめる ことができるでしょう。 00:00:43.900 --> 00:00:50.833 私たちは推計統計学について たくさんのことをしはじめ,推計をします。 00:00:50.833 --> 00:00:52.799 これらは今は置いておき, 00:00:52.800 --> 00:00:56.066 まずは,データをどうやって 記述するかについて考えましょう。 00:00:56.066 --> 00:01:00.399 まずは数のセットがあるとします。 00:01:00.400 --> 00:01:02.033 これをデータと考えることができます。 00:01:02.033 --> 00:01:05.433 たとえば,私たちの庭にある 植物の高さを測ったとしましょう。 00:01:05.433 --> 00:01:07.099 ここには 6 本の植物が あったとします。 00:01:07.100 --> 00:01:13.566 そして高さは 4 インチ,3 インチ, 1 インチ, 6 インチ, 00:01:13.566 --> 00:01:17.666 そして,1 インチ, 7インチ だったとします。 00:01:17.666 --> 00:01:20.632 そして,他の部屋にいる誰かが, あなたの植物は見ずに, 00:01:20.633 --> 00:01:24.333 「あなたの植物の高さはどれくらい?」 と尋ねたとします。 00:01:24.333 --> 00:01:25.933 そしてその人は 1 つの数しか 聞きたくないとします。 00:01:25.933 --> 00:01:30.233 つまり,どうにかして,これらの 植物全部を代表するような 00:01:30.233 --> 00:01:33.099 1 つの数を知りたいのです。 00:01:33.100 --> 00:01:36.266 どうしたらいいでしょうか? 00:01:36.266 --> 00:01:38.499 そうですね。どうしたら いいでしょうか? 00:01:38.500 --> 00:01:40.666 何かこの数のうち, よくあるものとか。 00:01:40.666 --> 00:01:43.732 または,なんとかこの数の 真ん中を表すような数。 00:01:43.733 --> 00:01:45.933 たとえば,一番よく出てくる 数かもしれません。 00:01:45.933 --> 00:01:48.433 あるいは,これらの数 全部の真ん中を 00:01:48.433 --> 00:01:50.966 表すような数とかかもしれません。 00:01:50.966 --> 00:01:52.899 もしあなたが,こういった ことを言ったとしたら, 00:01:52.900 --> 00:01:54.866 実はあなたは記述統計学を 最初に考えた人たちと 00:01:54.866 --> 00:01:57.899 同じことをしています。 00:01:57.900 --> 00:01:59.833 その人たちは,「どうしたら いいかな?」と言ったことでしょう。 00:01:59.833 --> 00:02:03.799 そして「平均」という考えに ついて考えはじます。 00:02:03.800 --> 00:02:04.633 「平均」。 00:02:04.633 --> 00:02:07.166 ここで見ていきますが, 毎日の言葉で 00:02:07.166 --> 00:02:09.399 「平均」は特定の意味を持ちます。 00:02:09.400 --> 00:02:11.266 多くの人が平均と言うと, 00:02:11.266 --> 00:02:14.632 すぐ後で見ますが,算術平均に ついて言っています。 00:02:14.633 --> 00:02:17.799 しかし統計学では,平均というのは, もっと一般の何かを言います。 00:02:17.800 --> 00:02:22.666 それは,よく出てくるもの,中央のもの, 00:02:22.666 --> 00:02:29.499 または,これらは「または」でつなぎます。 00:02:29.500 --> 00:02:34.266 それは実際には中心傾向の 測定をみつけることです。 00:02:34.266 --> 00:02:38.232 「中心傾向」。 00:02:38.233 --> 00:02:40.233 ではもう一度,あなたが たくさんの数を持っていて, 00:02:40.233 --> 00:02:44.133 どうにかしてこれらを 1 個の数で 表わそうとした時,それを平均と呼び, 00:02:44.133 --> 00:02:50.133 それは,よくあるものか,真ん中か, これらの数の中央にある何かです。 00:02:50.133 --> 00:02:53.799 これから,いろんなタイプの 平均(Average)を見ていきます。 00:02:53.800 --> 00:02:56.366 最初のものは多分あなたに 一番身近なものでしょう。 00:02:56.366 --> 00:02:59.132 それは,人々は「この試験の平均」,とか 00:02:59.133 --> 00:03:00.533 「この植物の高さの平均」とか言います。 00:03:00.533 --> 00:03:02.666 それは普通算術平均です。 00:03:02.666 --> 00:03:05.166 書いてみましょう。 00:03:05.166 --> 00:03:12.799 黄色で算術平均と書きます。 00:03:12.800 --> 00:03:19.400 算術は名詞ですが,ここでは 形容詞のように使います。 00:03:19.400 --> 00:03:21.300 算術平均。 00:03:21.300 --> 00:03:25.000 これは全部のデータの和を データの数で割ったものです。 00:03:25.000 --> 00:03:27.866 これは人間が作った定義で, 使い出があるものです。 00:03:27.866 --> 00:03:31.299 これら数の全部の和を, 00:03:31.300 --> 00:03:34.133 これらの数の数で割ります。 00:03:34.133 --> 00:03:38.799 これが与えられたとして,この データセットの算術平均は何ですか? 00:03:38.800 --> 00:03:39.966 計算してみましょう。 00:03:39.966 --> 00:03:47.166 4 たす 3 たす 1 たす 6 たす 1 たす 7 を 00:03:47.166 --> 00:03:50.899 ここにあるデータポイントの 数で割ります。 00:03:50.900 --> 00:03:52.900 6 個のデータポイントがあります。 00:03:52.900 --> 00:03:54.533 ですから 6 で割ります。 00:03:54.533 --> 00:04:01.699 4 たす 3 は 7 で,たすことの 1 は 8,たすことの 6 は 14, 00:04:01.700 --> 00:04:04.800 たすことの 1 は 15,たすことの 7。 00:04:04.800 --> 00:04:07.900 15 たす 7 は 22 に等しい。 00:04:07.900 --> 00:04:08.833 もう一見確かめます。 00:04:08.833 --> 00:04:14.866 7, 8, 14, 15, 22, これ全部を 6 で割る。 00:04:14.866 --> 00:04:16.766 これは帯分数で書けます。 00:04:16.766 --> 00:04:20.799 6 は 22 に 3 回あるので, あまりは 4 です。 00:04:20.800 --> 00:04:24.900 すると,3 と 6 分の 4 です。 それは,3 と 3 分の 2 と同じです。 00:04:24.900 --> 00:04:28.366 これを小数で, 3.6 の 循環と書くこともできます。 00:04:28.366 --> 00:04:31.766 これは実は 3.6 の循環小数です。 00:04:31.766 --> 00:04:34.066 わかっているのならどう 書いてもいいです。 00:04:34.066 --> 00:04:36.399 しかし,これはある意味 データを代表する数です。 00:04:36.400 --> 00:04:39.500 これは中心傾向を とらえようとしています。 00:04:39.500 --> 00:04:41.300 繰り返しますが,これは 人の作ったものです。 00:04:41.300 --> 00:04:45.833 誰かが,これは宗教の書物とかで, 00:04:45.833 --> 00:04:47.666 算術平均はこうして計算する ように定義されなくてはならない, 00:04:47.666 --> 00:04:48.866 というものではありません。 00:04:48.866 --> 00:04:53.199 また,宇宙を研究する時に 考える,円の周長を求める, 00:04:53.200 --> 00:04:57.533 みたいな純粋な 計算でもありません。 00:04:57.533 --> 00:05:00.299 円周とかは宇宙を 研究すると出てきます。 00:05:00.300 --> 00:05:01.933 算術平均は人間の作った定義で, 00:05:01.933 --> 00:05:03.799 いろいろ使い道があります。 00:05:03.800 --> 00:05:06.933 さて,平均,よくあるもの, 真ん中の値とかを求めるには 00:05:06.933 --> 00:05:09.799 他の方法もあります。 00:05:09.800 --> 00:05:14.166 よくある他の方法には 中央値,メジアンがあります。 00:05:14.166 --> 00:05:15.366 中央値と書いとおきます。 00:05:15.366 --> 00:05:16.432 もう色がないですね。 00:05:16.433 --> 00:05:18.333 これはピンクで書きます。 00:05:18.333 --> 00:05:20.966 さて,中央値です。 00:05:20.966 --> 00:05:24.832 中央値とは,文字通り, 真ん中の数を探します。 00:05:24.833 --> 00:05:27.033 もしこれらの数を 全部順番に並べて, 00:05:27.033 --> 00:05:31.133 真ん中の数をみつけたら, それが中央値です。 00:05:31.133 --> 00:05:35.499 では,この数のセットの 中央値は何でしょうか? 00:05:35.500 --> 00:05:36.600 求めてみましょう。 00:05:36.600 --> 00:05:37.866 まずは順番に並べましょう。 00:05:37.866 --> 00:05:39.499 1 があって, 00:05:39.500 --> 00:05:40.700 もう 1 個 1 があります。 00:05:40.700 --> 00:05:42.533 それから 3 があり, 00:05:42.533 --> 00:05:46.299 4,6, そして 7 です。 00:05:46.300 --> 00:05:48.400 これらの数を並びかえました。 00:05:48.400 --> 00:05:50.566 では何が真ん中の数ですか? 00:05:50.566 --> 00:05:51.999 ここを見ます。 00:05:52.000 --> 00:05:54.633 ここには偶数の数の数があります。 6 個の数があります。 00:05:54.633 --> 00:05:56.933 すると中央の数はありません。 00:05:56.933 --> 00:05:59.333 実は 2 個の中央の数があります。 00:05:59.333 --> 00:06:01.733 ここに,2 個の中央の数があります。 00:06:01.733 --> 00:06:02.833 3 と 4 です。 00:06:02.833 --> 00:06:05.633 この場合のように 2 個の 中央の数がある時には, 00:06:05.633 --> 00:06:09.333 これら 2 個の数の間をとります。 00:06:09.333 --> 00:06:13.966 中央値を求めるには,これら 2 個の数の算術平均をとります。 00:06:13.966 --> 00:06:18.866 すると中央値は 3 と 4 の間, つまり 3.5 になります。 00:06:18.866 --> 00:06:24.099 するとこの場合には 中央値は 3.5 です。 00:06:24.100 --> 00:06:26.266 もし偶数の数の数が あった場合には, 00:06:26.266 --> 00:06:28.399 中央値は,真ん中の 2 個の 数の算術平均をとります 00:06:28.400 --> 00:06:31.433 あるいは,真ん中の 2 個の 数の真ん中の値をとります。 00:06:31.433 --> 00:06:33.966 もし数の数が奇数なら, もっと簡単です。 00:06:33.966 --> 00:06:36.599 その場合には,そうですね, 他のデータセットを考えましょう。 00:06:36.600 --> 00:06:38.066 データセットは, 00:06:38.066 --> 00:06:42.932 最初から順番に並べますが, 00:06:42.933 --> 00:06:55.366 0,7,50, どうしますかね, 1 万,100 万とします。 00:06:55.366 --> 00:06:56.666 これがデータセットだとしましょう。 00:06:56.666 --> 00:06:58.132 ちょっとおかしなデータ セットかもしれません。 00:06:58.133 --> 00:07:02.099 しかしこの場合,中央値は 何になりますか? 00:07:02.100 --> 00:07:03.733 ここには 5 個の数があります。 00:07:03.733 --> 00:07:05.099 数の数は奇数です。 00:07:05.100 --> 00:07:06.900 すると,真ん中を 取るのは簡単です。 00:07:06.900 --> 00:07:11.733 真ん中は,こちらの 2 個の 数よりも大きくて, 00:07:11.733 --> 00:07:13.233 こちらの 2 個の数よりも 小さいものです。 00:07:13.233 --> 00:07:14.433 これは丁度真ん中にあります。 00:07:14.433 --> 00:07:18.533 するとこの場合, 中央値は 50 です。 00:07:18.533 --> 00:07:20.433 さて,3 番目の中心傾向は, 00:07:20.433 --> 00:07:21.899 多分日常生活では, 一番使わないでしょうが, 00:07:21.900 --> 00:07:26.100 モード,最頻値です。 00:07:26.100 --> 00:07:27.500 これは結構忘れられて いるのではないでしょうか。 00:07:27.500 --> 00:07:29.766 何か複雑な響きがあります。 00:07:29.766 --> 00:07:32.766 しかし,これはとても 素直な考えです。 00:07:32.766 --> 00:07:35.866 ある意味,一番基本の 考えとも言えます。 00:07:35.866 --> 00:07:40.199 最頻値は,データセットの 中の一番よくある数のことです。 00:07:40.200 --> 00:07:41.566 もし一番よく出てくる数が あるのならば,です。 00:07:41.566 --> 00:07:43.499 全部の数が等しく表われたり, 00:07:43.500 --> 00:07:45.433 一番よく出てくる数が 1 つに決まらない場合, 00:07:45.433 --> 00:07:46.999 最頻値はありません。 00:07:47.000 --> 00:07:49.933 しかし,最頻値の定義が そう与えられたとして, 00:07:49.933 --> 00:07:53.866 この元のデータセットに一番良く 出てくる 1 個の数は何でしょうか? 00:07:53.866 --> 00:07:57.999 このデータセットです。 00:07:58.000 --> 00:07:59.800 4 は 1 個しかありません。 00:07:59.800 --> 00:08:01.166 3 は 1 個しかありません。 00:08:01.166 --> 00:08:03.066 しかし 1 は 2 個あります。 00:08:03.066 --> 00:08:04.566 6 も 7 も 1 個だけです。 00:08:04.566 --> 00:08:10.732 ここで一番良く出てくる数は 1 です。 00:08:10.733 --> 00:08:13.766 最頻値は,一番普通にある数, 一番良く出てくる数で, 00:08:13.766 --> 00:08:17.299 ここでは 1 です。 00:08:17.300 --> 00:08:19.266 さて,これらがよくあるもの, 中央のもの,中心傾向を 00:08:19.266 --> 00:08:22.999 求める方法です。 00:08:23.000 --> 00:08:25.300 しかしそれぞれはまったく 違う方法です。 00:08:25.300 --> 00:08:27.033 もっと学び,もっと統計をやっていくと, 00:08:27.033 --> 00:08:29.433 これらはそれぞれ違う利用法が あるとわかるでしょう。 00:08:29.433 --> 00:08:31.399 これが最も使われるものです。 00:08:31.400 --> 00:08:34.266 中央値はこんなふうに算術平均が ゆがんでしまうような, 00:08:34.266 --> 00:08:37.799 変なデータセットの時に とても良いです。 00:08:37.800 --> 00:08:41.266 最頻値(モード)は, 00:08:41.266 --> 00:08:45.632 特に 1 つの数がよく出てくる 場合にとても使い出があります。 00:08:45.633 --> 00:08:47.466 とにかく今回はここまでにしましょう。 00:08:47.466 --> 00:08:50.332 そして,次のいくつかの ビデオでは統計について 00:08:50.333 --> 00:08:53.199 もっと深く見ていきましょう。