0:00:00.000,0:00:06.533 私たちはこれから「統計」の[br]世界へと旅を始めます。 0:00:06.533,0:00:11.399 それは本当にデータについて[br]理解する方法です。 0:00:11.400,0:00:14.433 つまり統計とは結局データに[br]ついてです。 0:00:14.433,0:00:18.799 そして統計の世界への旅を[br]始める時には, 0:00:18.800,0:00:22.900 まず,記述統計学と呼ばれるものに[br]ついてたくさんやっていきます。 0:00:22.900,0:00:25.000 さて,私たちがたくさんの[br]データを持っているとして, 0:00:25.000,0:00:29.766 データ全部を見せることなしに,[br]そのデータについて何かを語りたい時, 0:00:29.766,0:00:33.566 そのデータをある少ない數のセットでどうにか記述できな[br]いでしょうか? 0:00:33.566,0:00:35.399 それが私たちが焦点を[br]あてたいことです。 0:00:35.400,0:00:38.800 そして,私たちが記述統計学の[br]上にツールキットを作ったら, 0:00:38.800,0:00:41.400 データについて推計したり,[br]何か結論を出したり, 0:00:41.400,0:00:43.900 何か判断したりしはじめる[br]ことができるでしょう。 0:00:43.900,0:00:50.833 私たちは推計統計学について[br]たくさんのことをしはじめ,推計をします。 0:00:50.833,0:00:52.799 これらは今は置いておき, 0:00:52.800,0:00:56.066 まずは,データをどうやって[br]記述するかについて考えましょう。 0:00:56.066,0:01:00.399 まずは數のセットがあるとします。 0:01:00.400,0:01:02.033 これをデータと考えることができます。 0:01:02.033,0:01:05.433 たとえば,私たちの庭にある[br]植物の高さを測ったとしましょう。 0:01:05.433,0:01:07.099 ここには 6 本の植物が[br]あったとします。 0:01:07.100,0:01:13.566 そして高さは 4 インチ,3 インチ,[br]1 インチ, 6 インチ, 0:01:13.566,0:01:17.666 そして,1 インチ, 7インチ[br]だったとします。 0:01:17.666,0:01:20.632 そして,他の部屋にいる誰かが,[br]あなたの植物は見ずに, 0:01:20.633,0:01:24.333 「あなたの植物の高さはどれくらい?」[br]と尋ねたとします。 0:01:24.333,0:01:25.933 そしてその人は 1 つの數しか[br]聞きたくないとします。 0:01:25.933,0:01:30.233 つまり,どうにかして,これらの[br]植物全部を代表するような 0:01:30.233,0:01:33.099 1 つの數を知りたいのです。 0:01:33.100,0:01:36.266 どうしたらいいでしょうか? 0:01:36.266,0:01:38.499 そうですね。どうしたら[br]いいでしょうか? 0:01:38.500,0:01:40.666 何かこの數のうち,[br]よくあるものとか。 0:01:40.666,0:01:43.732 または,なんとかこの數の[br]真ん中を表すような數。 0:01:43.733,0:01:45.933 たとえば,一番よく出てくる[br]數かもしれません。 0:01:45.933,0:01:48.433 あるいは,これらの數[br]全部の真ん中を 0:01:48.433,0:01:50.966 表すような數とかかもしれません。 0:01:50.966,0:01:52.899 もしあなたが,こういった[br]ことを言ったとしたら, 0:01:52.900,0:01:54.866 実はあなたは記述統計学を[br]最初に考えた人たちと 0:01:54.866,0:01:57.899 同じことをしています。 0:01:57.900,0:01:59.833 その人たちは,「どうしたら[br]いいかな?」と言ったことでしょう。 0:01:59.833,0:02:03.799 そして「平均」という考えに[br]ついて考えはじます。 0:02:03.800,0:02:04.633 「平均」。 0:02:04.633,0:02:07.166 ここで見ていきますが,[br]毎日の言葉で 0:02:07.166,0:02:09.399 「平均」は特定の意味を持ちます。 0:02:09.400,0:02:11.266 多くの人が平均と言うと, 0:02:11.266,0:02:14.632 すぐ後で見ますが,算術平均に[br]ついて言っています。 0:02:14.633,0:02:17.799 しかし統計学では,平均というのは,[br]もっと一般の何かを言います。 0:02:17.800,0:02:22.666 それは,よく出てくるもの,中央のもの, 0:02:22.666,0:02:29.499 または,これらは「または」でつなぎます。 0:02:29.500,0:02:34.266 それは実際には中心傾向の[br]測定をみつけることです。 0:02:34.266,0:02:38.232 「中心傾向」。 0:02:38.233,0:02:40.233 ではもう一度,あなたが[br]たくさんの數を持っていて, 0:02:40.233,0:02:44.133 どうにかしてこれらを 1 個の數で[br]表わそうとした時,それを平均と呼び, 0:02:44.133,0:02:50.133 それは,よくあるものか,真ん中か,[br]これらの數の中央にある何かです。 0:02:50.133,0:02:53.799 これから,いろんなタイプの[br]平均(Average)を見ていきます。 0:02:53.800,0:02:56.366 最初のものは多分あなたに[br]一番身近なものでしょう。 0:02:56.366,0:02:59.132 それは,人々は「この試験の平均」,とか 0:02:59.133,0:03:00.533 「この植物の高さの平均」とか言います。 0:03:00.533,0:03:02.666 それは普通算術平均です。 0:03:02.666,0:03:05.166 書いてみましょう。 0:03:05.166,0:03:12.799 黄色で算術平均と書きます。 0:03:12.800,0:03:19.400 算術は名詞ですが,ここでは[br]形容詞のように使います。 0:03:19.400,0:03:21.300 算術平均。 0:03:21.300,0:03:25.000 これは全部のデータの和を[br]データの數で割ったものです。 0:03:25.000,0:03:27.866 これは人間が作った定義で,[br]使い出があるものです。 0:03:27.866,0:03:31.299 これら數の全部の和ろ, 0:03:31.300,0:03:34.133 これらの數の數で割ります。 0:03:34.133,0:03:38.799 これが与えられたとして,この[br]データセットの算術平均は何ですか? 0:03:38.800,0:03:39.966 計算してみましょう。 0:03:39.966,0:03:47.166 4 たす 3 たす 1 たす [br]6 たす 1 たす 7 を 0:03:47.166,0:03:50.899 ここにあるデータポイントの[br]數で割ります。 0:03:50.900,0:03:52.900 6 個のデータポイントがあります。 0:03:52.900,0:03:54.533 ですから 6 で割ります。 0:03:54.533,0:04:01.699 4 たす 3 は 7 で,たすことの[br]1 は 8,たすことの 6 は 14, 0:04:01.700,0:04:04.800 たすことの 1 は 15,たすことの 7。 0:04:04.800,0:04:07.900 15 たす 7 は 22 に等しい。 0:04:07.900,0:04:08.833 もう一見確かめます。 0:04:08.833,0:04:14.866 7, 8, 14, 15, 22, [br]これ全部を 6 で割る。 0:04:14.866,0:04:16.766 これは帯分数で書けます。 0:04:16.766,0:04:20.799 6 は 22 に 3 回あるので,[br]あまりは 4 です。 0:04:20.800,0:04:24.900 すると,3 と 6 分の 4 です。[br]それは,3 と 3 分の 2 と同じです。 0:04:24.900,0:04:28.366 これを小数で, 3.6 の[br]循環と書くこともできます。 0:04:28.366,0:04:31.766 これは実は 3.6 の循環小数です。 0:04:31.766,0:04:34.066 わかっているのならどう[br]書いてもいいです。 0:04:34.066,0:04:36.399 しかし,これはある意味[br]データを代表する數です。 0:04:36.400,0:04:39.500 これは中心傾向を[br]とらえようとしています。 0:04:39.500,0:04:41.300 繰り返しますが,これは[br]人の作ったものです。 0:04:41.300,0:04:45.833 誰かが,これは宗教の書物とかで, 0:04:45.833,0:04:47.666 算術平均はこうして計算する[br]ように定義されなくてはならない, 0:04:47.666,0:04:48.866 というものではありません。 0:04:48.866,0:04:53.199 また,宇宙を研究する時に[br]考える,円の周長を求める, 0:04:53.200,0:04:57.533 みたいな純粋な[br]計算でもありません。 0:04:57.533,0:05:00.299 円周とかは宇宙を[br]研究すると出てきます。 0:05:00.300,0:05:01.933 算術平均は人間の作った定義で, 0:05:01.933,0:05:03.799 いろいろ使い道があります。 0:05:03.800,0:05:06.933 さて,平均,よくあるもの,[br]真ん中の値とかを求めるには 0:05:06.933,0:05:09.799 他の方法もあります。 0:05:09.800,0:05:14.166 よくある他の方法には[br]中央値,メジアンがあります。 0:05:14.166,0:05:15.366 中央値と書いとおきます。 0:05:15.366,0:05:16.432 もう色がないですね。 0:05:16.433,0:05:18.333 これはピンクで書きます。 0:05:18.333,0:05:20.966 さて,中央値です。 0:05:20.966,0:05:24.832 中央値とは,文字通り,[br]真ん中の數を探します。 0:05:24.833,0:05:27.033 もしこれらの數を[br]全部順番に並べて, 0:05:27.033,0:05:31.133 真ん中の數をみつけたら,[br]それが中央値です。 0:05:31.133,0:05:35.499 では,この數のセットの[br]中央値は何でしょうか? 0:05:35.500,0:05:36.600 求めてみましょう。 0:05:36.600,0:05:37.866 まずは順番に並べましょう。 0:05:37.866,0:05:39.499 1 があって, 0:05:39.500,0:05:40.700 もう 1 個 1 があります。 0:05:40.700,0:05:42.533 それから 3 があり, 0:05:42.533,0:05:46.299 4,6, そして 7 です。 0:05:46.300,0:05:48.400 これらの數を並びかえました。 0:05:48.400,0:05:50.566 では何が真ん中の數ですか? 0:05:50.566,0:05:51.999 ここを見ます。 0:05:52.000,0:05:54.633 ここには偶数の數の數があります。[br]6 個の數があります。 0:05:54.633,0:05:56.933 すると中央の數はありません。 0:05:56.933,0:05:59.333 実は 2 個の中央の數があります。 0:05:59.333,0:06:01.733 ここに,2 個の中央の數があります。 0:06:01.733,0:06:02.833 3 と 4 です。 0:06:02.833,0:06:05.633 この場合のように 2 個の[br]中央の數がある時には, 0:06:05.633,0:06:09.333 これら 2 個の數の間をとります。 0:06:09.333,0:06:13.966 中央値を求めるには,これら [br]2 個の數の算術平均をとります。 0:06:13.966,0:06:18.866 すると中央値は 3 と 4 の間,[br]つまり 3.5 になります。 0:06:18.866,0:06:24.099 するとこの場合には[br]中央値は 3.5 です。 0:06:24.100,0:06:26.266 もし偶数の數の數が[br]あった場合には, 0:06:26.266,0:06:28.399 中央値は,真ん中の 2 個の[br]數の算術平均をとります 0:06:28.400,0:06:31.433 あるいは,真ん中の 2 個の[br]數の真ん中の値をとります。 0:06:31.433,0:06:33.966 もし數の數が奇数なら,[br]もっと簡単です。 0:06:33.966,0:06:36.599 その場合には,そうですね,[br]他のデータセットを考えましょう。 0:06:36.600,0:06:38.066 データセットは, 0:06:38.066,0:06:42.932 最初から順番に並べますが, 0:06:42.933,0:06:55.366 0,7,50, どうしますかね,[br]1 万,100 万とします。 0:06:55.366,0:06:56.666 これがデータセットだとしましょう。 0:06:56.666,0:06:58.132 ちょっとおかしなデータ[br]セットかもしれません。 0:06:58.133,0:07:02.099 しかしこの場合,中央値は[br]何になりますか? 0:07:02.100,0:07:03.733 ここには 5 個の數があります。 0:07:03.733,0:07:05.099 數の數は奇数です。 0:07:05.100,0:07:06.900 すると,真ん中を[br]取るのは簡単です。 0:07:06.900,0:07:11.733 真ん中は,こちらの 2 個の[br]數よりも大きくて, 0:07:11.733,0:07:13.233 こちらの 2 個の數よりも[br]小さいものです。 0:07:13.233,0:07:14.433 これは丁度真ん中にあります。 0:07:14.433,0:07:18.533 するとこの場合,[br]中央値は 50 です。 0:07:18.533,0:07:20.433 さて,3 番目の中心傾向は, 0:07:20.433,0:07:21.899 多分日常生活では,[br]一番使わないでしょうが, 0:07:21.900,0:07:26.100 モード,最頻値です。 0:07:26.100,0:07:27.500 これは結構忘れられて[br]いるのではないでしょうか。 0:07:27.500,0:07:29.766 何か複雑な響きがあります。 0:07:29.766,0:07:32.766 しかし,これはとても[br]素直な考えです。 0:07:32.766,0:07:35.866 ある意味,一番基本の[br]考えとも言えます。 0:07:35.866,0:07:40.199 最頻値は,データセットの[br]中の一番よくある數のことです。 0:07:40.200,0:07:41.566 もし一番よく出てくる數が[br]あるのならば,です。 0:07:41.566,0:07:43.499 全部の數が等しく表われたり, 0:07:43.500,0:07:45.433 一番よく出てくる數が [br]1 つに決まらない場合, 0:07:45.433,0:07:46.999 最頻値はありません。 0:07:47.000,0:07:49.933 しかし,最頻値の定義が[br]そう与えられたとして, 0:07:49.933,0:07:53.866 この元のデータセットに一番良く[br]出てくる 1 個の數は何でしょうか? 0:07:53.866,0:07:57.999 このデータセットです。 0:07:58.000,0:07:59.800 4 は 1 個しかありません。 0:07:59.800,0:08:01.166 3 は 1 個しかありません。 0:08:01.166,0:08:03.066 しかし 1 は 2 個あります。 0:08:03.066,0:08:04.566 6 も 7 も 1 個だけです。 0:08:04.566,0:08:10.732 ここで一番良く出てくる數は 1 です。 0:08:10.733,0:08:13.766 最頻値は,一番普通にある數,[br]一番良く出てくる數で, 0:08:13.766,0:08:17.299 ここでは 1 です。 0:08:17.300,0:08:19.266 さて,これらがよくあるもの,[br]中央のもの,中心傾向を 0:08:19.266,0:08:22.999 求める方法です。 0:08:23.000,0:08:25.300 しかしそれぞれはまったく[br]違う方法です。 0:08:25.300,0:08:27.033 もっと学び,もっと統計をやっていくと, 0:08:27.033,0:08:29.433 これらはそれぞれ違う利用法が[br]あるとわかるでしょう。 0:08:29.433,0:08:31.399 これが最も使われるものです。 0:08:31.400,0:08:34.266 中央値はこんなふうに算術平均が[br]ゆがんでしまうような, 0:08:34.266,0:08:37.799 変なデータセットの時に[br]とても良いです。 0:08:37.800,0:08:41.266 最頻値(モード)は, 0:08:41.266,0:08:45.632 特に 1 つの數がよく出てくる[br]場合にとても使い出があります。 0:08:45.633,0:08:47.466 とにかく今回はここまでにしましょう。 0:08:47.466,0:08:50.332 そして,次のいくつかの[br]ビデオでは統計について 0:08:50.333,0:08:53.199 もっと深く見ていきましょう。