< Return to Video

Mean and standard deviation versus median and IQR

  • 0:01 - 0:03
    9명으로 구성된 반이 있는
    작은 학교에서 9명이 졸업했습니다
  • 0:03 - 0:08
    9명으로 구성된 반이 있는
    작은 학교에서 9명이 졸업했습니다
  • 0:08 - 0:11
    졸업 1년 후 연봉의
    집중경향성에 대해 알아보려고 합니다
  • 0:11 - 0:14
    졸업 1년 후 연봉의
    집중경향성에 대해 알아보려고 합니다
  • 0:14 - 0:17
    또 1년 후 집중경향값으로부터
  • 0:17 - 0:20
    분포의 산포도를 알아볼 것입니다
  • 0:20 - 0:24
    이 9명은 컴퓨터에
    각자의 연봉을 넣었고
  • 0:24 - 0:26
    이 값들이 그 연봉입니다
  • 0:26 - 0:27
    천 달러를 기준으로 써져 있습니다
  • 0:27 - 0:31
    따라서 각 35000, 50000, 50000
    50000, 56000
  • 0:31 - 0:35
    2명은 60000, 1명은 75000
  • 0:35 - 0:37
    그리고 1명은 250000을 법니다
  • 0:37 - 0:41
    컴퓨터가 주어진 값들을 가지고
  • 0:41 - 0:43
    여러 수치들을
    계산해서 보여주고 있습니다
  • 0:43 - 0:47
    집중경향성을 대표하는 2개의
    값을 계산해주었는데
  • 0:47 - 0:50
    평균은 76.2 정도입니다
  • 0:50 - 0:53
    컴퓨터는 이 값을 주어진
    9개의 숫자를 더하고
  • 0:53 - 0:56
    9로 나누어 주어 구했습니다
  • 0:56 - 1:00
    그리고 중앙값은 56입니다
    중앙값은 꽤 쉽게 계산할 수 있습니다
  • 1:00 - 1:02
    크기순으로 숫자들을 나열한 후
  • 1:02 - 1:05
    중간에 있는 숫자
    56을 선택하면 됩니다
  • 1:05 - 1:08
    이 영상을 잠시 멈추고
  • 1:08 - 1:10
    이 자료 집합에 대해 중앙값과
  • 1:10 - 1:14
    평균 중에 무엇이 더
  • 1:14 - 1:19
    집중경향성을 더 잘 나타내는 지에
    대해 생각해봅시다
  • 1:19 - 1:21
    자 잠시 생각해봅시다
  • 1:21 - 1:24
    이 선에 위의 값들을 넣을 것입니다
  • 1:24 - 1:26
    값들을 선 위에 찍으므로서
  • 1:26 - 1:28
    값들을 그저 숫자로만 보지 않고
  • 1:28 - 1:31
    각 값들의 상대적인
    위치를 알 수 있도록
  • 1:31 - 1:33
    할 것입니다
  • 1:33 - 1:35
    이곳이 0이라고 합시다
  • 1:35 - 1:42
    5개의 기준선을 그려주면
  • 1:42 - 1:52
    이곳이 250 이곳이
    50, 100, 150, 200, 200이 될것입니다
  • 1:52 - 1:53
    그럼 봅시다
  • 1:53 - 1:56
    여기가 50이라면 대략적으로 여기가
  • 1:56 - 1:59
    40이 될 것입니다
  • 1:59 - 2:04
    이러한 방식으로
    60, 70, 80, 90이 될 것이고
  • 2:04 - 2:06
    이러한 방식으로
    60, 70, 80, 90이 될 것이고
  • 2:06 - 2:09
    이러한 방식으로
    60, 70, 80, 90이 될 것이고
  • 2:09 - 2:12
    좀 더 정리해 봅시다
  • 2:12 - 2:14
    여기 있는 것은
  • 2:14 - 2:18
    여기에 좀 더 가까울 것입니다
  • 2:18 - 2:22
    여기 즈음에 놓읍시다
  • 2:22 - 2:27
    여기는 40, 30, 20, 10이 될 것입니다
  • 2:27 - 2:29
    여기는 40, 30, 20, 10이 될 것입니다
  • 2:29 - 2:30
    이제 자료를 이 표로 그려봅시다
  • 2:30 - 2:36
    한 학생은 35000을 벌고
    여기 즈음 입니다
  • 2:36 - 2:38
    3명이 50000
  • 2:38 - 2:42
    따라서 하나 둘 셋
  • 2:42 - 2:44
    이렇게 놓을겁니다
  • 2:44 - 2:50
    한명이 56000을 벌고
    여기에 놓을게요
  • 2:50 - 2:53
    2명이 60000을 벌고
  • 2:53 - 2:55
    2명이 60000을 벌고
  • 2:55 - 3:00
    한명이 75000을 벌고
  • 3:00 - 3:02
    여기 즈음일 것입니다
  • 3:02 - 3:04
    1명이 250000을 법니다
  • 3:04 - 3:08
    따라서 졸업생들의 연봉은
    다 여기 즈음에 모여있습니다
  • 3:08 - 3:11
    집중경향성을 측정하는 척도로
  • 3:11 - 3:13
    평균인 76.2를 사용한다면
  • 3:13 - 3:17
    76.2는 여기 즈음에 있습니다
  • 3:17 - 3:21
    과연 이것이 중간 경향성을
    측정하는데 좋은 척도일까요?
  • 3:21 - 3:23
    그리 좋아보이지는 않습니다
  • 3:23 - 3:26
    왜냐하면 평균이 모든 1개를 제외한
  • 3:26 - 3:30
    모든 데이터들보다 위에 있습니다
  • 3:30 - 3:34
    $250000의 값 하나때문에 평균이
  • 3:34 - 3:38
    매우 치우쳐지게 되었습니다
  • 3:38 - 3:41
    나머지의 분포보다
    너무 많이 떨어져 있기 때문에
  • 3:41 - 3:45
    평균은 다른 데이터에서
    좀 치우쳐지게 되었습니다
  • 3:45 - 3:47
    이것을 일반화하면
  • 3:47 - 3:50
    대부분의 사람들은 50, 60,$70000을
    벌고 있지만
  • 3:50 - 3:53
    한 사람만 250000을 버는
    이렇게 자료가
  • 3:53 - 3:56
    치우친 상황에서는 그 치우쳐 진 값이
  • 3:56 - 4:00
    평균또한 치우치게 만들겁니다
  • 4:00 - 4:02
    모든 값을 더하고
    데이터의 개수로 나누면
  • 4:02 - 4:03
    모든 값을 더하고
    데이터의 개수로 나누면
  • 4:03 - 4:06
    다른 데이터들과는
    많이 떨어져 있는 값이
  • 4:06 - 4:10
    평균을 치우치게 만들기 때문에
    중앙값이 더 적합합니다
  • 4:10 - 4:14
    중간값은 56으로 여기에 있고
    이는 중심화 경향성을
  • 4:14 - 4:17
    더 잘 대변해 주는 것 같습니다
  • 4:17 - 4:19
    생각해봅시다
  • 4:19 - 4:22
    250000 대신에 이 값을
  • 4:22 - 4:26
    정말 엄청난 액수인 250백만 달러로
  • 4:26 - 4:29
    만들었다고 하면 이는 평균을 정말
  • 4:29 - 4:33
    엄청나게 치우치게 할 것이지만
  • 4:33 - 4:36
    중앙값은 전혀 변동이 없을 것입니다
  • 4:36 - 4:37
    왜냐하면 중간값은
    250이 얼마나 더 커지는지는
  • 4:37 - 4:39
    전혀 상관이 없기 때문입니다
  • 4:39 - 4:40
    250이라는 값이 아무리 커져도
  • 4:40 - 4:42
    몇 백배 더 커져도
  • 4:42 - 4:44
    중앙값은 그대로일 것입니다
  • 4:44 - 4:46
    따라서 중앙값은 치우쳐
    진 자료를 나타낼 때
  • 4:46 - 4:48
    더 적합한 값인 것을 알 수 있습니다
  • 4:48 - 4:52
    평균은 대칭적인 자료를 나타내거나
  • 4:52 - 4:55
    평균 근처에 값들이
    몰린 경우를 나타낼 때
  • 4:55 - 4:57
    혹은 적은 양의 값들 때문에
  • 4:57 - 5:00
    한 방향으로 크게 치우쳐 있지 않을 때
  • 5:00 - 5:01
    더 좋은 효과를 발휘합니다
  • 5:01 - 5:04
    더 좋은 효과를 발휘합니다
  • 5:04 - 5:07
    따라서 이 경우 중간값이
    집중경향성을
  • 5:07 - 5:10
    나타내기에는 더 적합합니다
  • 5:10 - 5:11
    그러면 데이터들의 분산 정도는요?
  • 5:11 - 5:14
    여러분들은 표준편차는
    평균을 기반으로 한 것이고
  • 5:14 - 5:16
    이미 평균이 이 값들을 나타내기에는 부적합하다고 했으니
  • 5:16 - 5:18
    표준편차 또한 부정확하다고
    추측할 수 있습니다
  • 5:18 - 5:22
    표준편차는 각 값들의
    평균으로부터의 거리를
  • 5:22 - 5:25
    제곱한 것을 더하고
  • 5:25 - 5:28
    데이터의 개수로 나누어 주고
  • 5:28 - 5:31
    그것에다 루트를 씌워주면
    구할 수 있습니다
  • 5:31 - 5:35
    그것에다 루트를 씌워주면
    구할 수 있습니다
  • 5:35 - 5:38
    그리고 이것은 이 자료들의
    집중경향성을
  • 5:38 - 5:41
    나타내기에 부적합한 평균을
    기반으로 한 값이기 때문에
  • 5:41 - 5:45
    표준편차 또한 치우쳐져
    부적합할 것입니다
  • 5:45 - 5:48
    이것은 실제
  • 5:48 - 5:50
    실제 값들이 퍼진 정도를
  • 5:50 - 5:53
    나타내는 값들보다 훨씬 더 큽니다
  • 5:53 - 5:57
    한개의 점이 평균으로 따지든
  • 5:57 - 6:00
    중간값으로 따지든
    멀리 떨어져 있습니다
  • 6:00 - 6:02
    하지만 데이터의 대부분은 무척이나
  • 6:02 - 6:05
    가깝게 분포해 있습니다
    따라서 이 경우 또한
  • 6:05 - 6:07
    중간값과 더불어
  • 6:07 - 6:11
    사분범위가 더 적절합니다
  • 6:11 - 6:13
    사분범위를 어떻게 계산할까요?
  • 6:13 - 6:15
    먼저 중간값을 찾아내고
  • 6:15 - 6:19
    중간값보다 작은 값들의
    중간값을 계산합니다
  • 6:19 - 6:22
    그러면 그것은 지금의 경우 50이 되고
  • 6:22 - 6:25
    이제 중간값보다
    큰 값들의 중간값을 계산합니다
  • 6:25 - 6:29
    그것은 60과 75의 평균이 될 것인데
    바로 67.5입니다
  • 6:29 - 6:31
    만약 이것이 익숙하지 않다면 사분범위
  • 6:31 - 6:33
    중간값 평균 표준편차 등을
    계산하는 여러 동영상을 게시했습니다
  • 6:33 - 6:35
    중간값 평균 표준편차 등을
    계산하는 여러 동영상을 게시했습니다
  • 6:35 - 6:36
    이것은 그저 잠깐 복습한 것입니다
  • 6:36 - 6:39
    이러면 이 두 값들의 차이는
    17.5가 됩니다
  • 6:39 - 6:43
    이 차이 17.5는
  • 6:43 - 6:45
    마지막 값이 아무리 커진다 하더라도
  • 6:45 - 6:48
    변하지 않을 것입니다
  • 6:48 - 6:52
    따라서 중간값과
    사분범위가 이 데이터들을
  • 6:52 - 6:55
    묘사하는 데에는 더 적합합니다
  • 6:56 - 6:59
    평균과 표준편차는
    대칭적인 자료들을
  • 6:59 - 7:02
    나타내거나 크게 다른 값이 없는
  • 7:02 - 7:05
    자료들을 나타내기에는 나쁘지 않고
  • 7:05 - 7:07
    평균과 표준편차가 매우 확고하고
  • 7:07 - 7:10
    괜찮게 데이터 집합을
    표현할 수 있습니다
  • 7:10 - 7:13
    하지만 소수의
    크게 다른 값들이 있다면
  • 7:13 - 7:16
    중간값과 사분범위가
    자료를 나타내기에
  • 7:16 - 7:19
    중간값은 집중경향성을
    사분범위는 집중경향성
  • 7:19 - 7:23
    주위의 분포를 나타내기에 적합합니다
  • 7:23 - 7:26
    따라서 소득 분포를 보는 경우 자주
  • 7:26 - 7:28
    중간값에 대해 이야기
    하는 것을 볼 수 있을겁니다
  • 7:28 - 7:30
    왜냐하면 소득의 경우
    특히 고소득 쪽에서 값들이
  • 7:30 - 7:32
    크게 다르기 때문입니다 집값의 경우도
  • 7:32 - 7:35
    마찬가지인데 이 또한 한 인근지역의
  • 7:35 - 7:39
    집값이 200000 혹은 300000의 범위에
  • 7:39 - 7:42
    있지만 한 대저택이 억 단위일
    수도 있어 데이터 집합이
  • 7:42 - 7:46
    있지만 한 대저택이 억 단위일
    수도 있어 자료 집합이
  • 7:46 - 7:49
    크게 편향되어 있습니다
    따라서 평균을 구하면
  • 7:49 - 7:52
    평균 또한 편향되게 되어
    그 지역의 집값의
  • 7:52 - 7:56
    집중경향성을 잘못 나타낼 것입니다
Title:
Mean and standard deviation versus median and IQR
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
07:59

Korean subtitles

Revisions