WEBVTT 00:00:00.768 --> 00:00:03.667 ある生態学者が、地域の森にある木の樹齢を 00:00:03.667 --> 00:00:05.322 100本調べた。 00:00:05.322 --> 00:00:07.757 データを図示するために、 00:00:07.757 --> 00:00:10.090 彼は以下の「箱ひげ図」を描いた。 00:00:10.090 --> 00:00:13.816 調べた樹齢の範囲(range)はいくつだろう? 00:00:13.816 --> 00:00:17.000 森の樹齢の中央値(median)は何だろう? 00:00:17.000 --> 00:00:18.004 まず第一に、 00:00:18.004 --> 00:00:19.066 「箱ひげ図」とは、 00:00:19.066 --> 00:00:21.082 一体何なのかを理解しよう。 00:00:21.082 --> 00:00:24.082 箱ひげ図は、樹齢のように 00:00:24.097 --> 00:00:25.661 様々なデータの分布を見るために 00:00:25.661 --> 00:00:27.246 用いられ、 00:00:27.246 --> 00:00:28.834 中央値や、多くの木が 00:00:28.834 --> 00:00:29.981 どのあたりの樹齢に位置するのか 00:00:29.981 --> 00:00:32.267 といった情報を読み取ることが 00:00:32.267 --> 00:00:33.419 できる。 00:00:33.434 --> 00:00:34.953 まず「ひげ」の部分について。 00:00:34.953 --> 00:00:36.578 この黒い部分がひげで、 00:00:36.578 --> 00:00:37.896 こっちは箱、 00:00:37.896 --> 00:00:39.500 こっちにもう一つ「ひげ」がある。 00:00:39.500 --> 00:00:42.421 ひげは基本的に、全データが広がる範囲を 00:00:42.421 --> 00:00:43.711 示す。 00:00:43.711 --> 00:00:46.370 つまり、このサンプルで最も小さいデータは 00:00:46.370 --> 00:00:48.213 樹齢8年だと分かる。 00:00:48.213 --> 00:00:51.405 下の軸は年を表すとする。 00:00:51.405 --> 00:00:55.147 そして最も高齢の木はここ、 00:00:55.147 --> 00:00:55.983 50年と分かる。 00:00:55.983 --> 00:00:57.967 だから範囲を求める時、 00:00:57.967 --> 00:01:00.412 統計学的に「範囲」を考えると、 00:01:00.412 --> 00:01:02.441 「最も大きいデータ 引く 00:01:02.441 --> 00:01:04.221 最も小さいデータ」 となる。 00:01:04.221 --> 00:01:07.036 よって 50 - 8 で 00:01:07.036 --> 00:01:09.637 範囲は 42 だと分かる。 00:01:09.637 --> 00:01:11.333 これが「ひげ」の意味だ。 00:01:11.333 --> 00:01:13.491 全てのデータが、8〜50年の間に収まっていることが 00:01:13.491 --> 00:01:16.250 読み取れる。ただし8,50を含む。 00:01:16.250 --> 00:01:19.229 次に箱について。線の場所の意味は、 00:01:19.229 --> 00:01:21.572 こう説明しよう。 00:01:21.572 --> 00:01:23.894 真ん中にあるこの線は中央値だ。 00:01:23.894 --> 00:01:26.962 ここが中央値(median)。 00:01:26.962 --> 00:01:31.045 つまり半数はこの中央値より若い。 00:01:31.045 --> 00:01:33.367 図より中央値は 21 だから、 00:01:33.367 --> 00:01:35.550 半数の木が21歳より若く、 00:01:35.550 --> 00:01:38.894 半数の木が21歳より高齢であることが、 00:01:38.894 --> 00:01:42.069 箱ひげ図から読み取れる。 00:01:42.069 --> 00:01:44.652 そして端っこの点は、 00:01:44.652 --> 00:01:47.299 2つの区間それぞれの中央値だ。 00:01:47.299 --> 00:01:49.297 つまりこの点は、 00:01:49.297 --> 00:01:51.154 実際の中央値より低い木のみをー 00:01:51.154 --> 00:01:53.151 全て取り出したうちの中央値だ。 00:01:53.151 --> 00:01:55.473 この点は、21より若い木から取った 00:01:55.473 --> 00:01:57.284 中央値なんだ。 00:01:57.284 --> 00:02:00.303 こっちは、21より高齢のー 00:02:00.303 --> 00:02:02.067 木からとった中央値だ。 00:02:02.067 --> 00:02:04.841 これにより僕らは、 00:02:04.841 --> 00:02:08.290 全てのデータを次の4グループに分けたことになる: 00:02:08.290 --> 00:02:11.030 ここが第1四分位(first quartile)で、 00:02:11.030 --> 00:02:12.981 これを Q1 としよう。 00:02:12.981 --> 00:02:15.309 やっぱり 1Q にしよう。 00:02:15.309 --> 00:02:17.506 これが第1四分位で、 00:02:17.506 --> 00:02:19.981 木々の約1/4がここに属する。 00:02:19.981 --> 00:02:21.453 そうなるように、木のデータをー 00:02:21.453 --> 00:02:22.958 境界線に用いたのだから。 00:02:22.958 --> 00:02:25.061 木々の約1/4がここに来て、 00:02:25.061 --> 00:02:27.984 次の1/4は14〜21歳で、 00:02:27.984 --> 00:02:30.814 もう1/4は21〜33歳で、 00:02:30.814 --> 00:02:32.720 残りの1/4はこの四分位に来る。 00:02:32.720 --> 00:02:36.619 これを第1四分位、第2四分位、 00:02:36.619 --> 00:02:39.820 第3四分位、第4四分位と呼ぶ。 00:02:39.820 --> 00:02:41.938 さて問に答えよう。 00:02:41.938 --> 00:02:43.636 範囲はすでに求めたね。 00:02:43.636 --> 00:02:47.160 最高齢と最年少の間には42年の開きがあり、 00:02:47.160 --> 00:02:50.040 森の木々の年齢の中央値は 00:02:50.040 --> 00:02:51.467 21だ。 00:02:51.467 --> 00:02:53.668 中には50歳もある木が見つかったー 00:02:53.668 --> 00:02:55.122 にもかかわらず、 00:02:55.122 --> 00:02:57.352 森全体の中央値で見ると、 00:02:57.352 --> 00:02:59.289 実は低い方にー 00:02:59.289 --> 00:03:02.733 多く分布していたんだ。 00:03:02.733 --> 00:03:06.421 だから中央値を代表値とみなせば、 00:03:06.421 --> 00:03:09.112 たったの21歳になる。 00:03:09.112 --> 00:03:10.605 次のことに注目しよう。 00:03:10.605 --> 00:03:12.108 今回の中央値は箱の左側に近く、 00:03:12.108 --> 00:03:15.320 ひげの右端よりも、 00:03:15.320 --> 99:59:59.999 左端の方に近いんだ。