Japanese subtitles

← Box Plots

Get Embed Code
6 Languages

Showing Revision 1 created 08/03/2014 by Udacity.

  1. 箱ひげ図という別のタイプの可視化を使って
  2. 変数分布を見てみましょう
  3. 箱ひげ図の情報はインストラクターノートにあり
  4. UDACITY統計学クラスのリンクもあるので
  5. そこで知識を確認することもできます
  6. 先ほど友達数のヒストグラムを
  7. facet_wrapを使い
    性別ごとに分割した時のコードはこうでした
  8. 今度は性別ごとの友達数の箱ひげ図を作成します
  9. そうすれば分布の違いを一目で確認できます
  10. 特に2つのグループの中央値の違いを見ていきます
  11. qplot関数は
  12. 1つの変数を与えると自動でヒストグラムを作成します
  13. なのでqplotに違うタイプの図を作成するように
  14. パラメータを追加して指示する必要があります
  15. boxplotというジオメトリを使います
  16. データ集合は以前と同じものです
  17. なのでこれとqplotはそのままにします
  18. 箱ひげ図ではy軸が友達数を表す度数になり
  19. x軸がカテゴリ変数になるので
  20. 男性、女性と性別が表示されます
  21. yつまりfriend_countが
  22. 連続変数であることに注意してください
    グループ分けのカテゴリ変数がxとなります
  23. 箱ひげ図は常にこの形式になります
  24. ここの括弧を忘れたのでコードを再編成して整えます
  25. コードを実行すると
  26. 2つの箱ひげ図ができました
  27. クローズアップして見てみましょう
  28. この箱は中間の50%の値を占める
    四分位数範囲と呼ばれるものです
  29. 多くの外れ値が存在するため
  30. この箱は見にくいですね
  31. この小さな点がこのデータの外れ値です
  32. またy軸の友達数はゼロから
  33. 最高値の5,000まで表示されています
  34. ユーザデータをすべて反映しているのです
  35. そしてこの水平線の部分が
  36. 2つの箱ひげ図の中央値となります
  37. 実際に外れ値と見なされるのはどの値でしょうか
  38. 通常は中央値の四分位数範囲(IQR)から
  39. 1.5倍のすぐ外にあるものを外れ値と考えます
  40. この図は外れ値を多く含むのでコードを調整します
  41. 次のプログラミング練習問題に取り組み
  42. コードを変更してその調整ができるか試してみましょう