-
9명으로 구성된 반이 있는
작은 학교에서 9명이 졸업했습니다
-
9명으로 구성된 반이 있는
작은 학교에서 9명이 졸업했습니다
-
졸업 1년 후 연봉의
집중경향성에 대해 알아보려고 합니다
-
졸업 1년 후 연봉의
집중경향성에 대해 알아보려고 합니다
-
또 1년 후 집중경향값으로부터
-
분포의 산포도를 알아볼 것입니다
-
이 9명은 컴퓨터에
각자의 연봉을 넣었고
-
이 값들이 그 연봉입니다
-
천 달러를 기준으로 써져 있습니다
-
따라서 각 35000, 50000, 50000
50000, 56000
-
2명은 60000, 1명은 75000
-
그리고 1명은 250000을 법니다
-
컴퓨터가 주어진 값들을 가지고
-
여러 수치들을
계산해서 보여주고 있습니다
-
집중경향성을 대표하는 2개의
값을 계산해주었는데
-
평균은 76.2 정도입니다
-
컴퓨터는 이 값을 주어진
9개의 숫자를 더하고
-
9로 나누어 주어 구했습니다
-
그리고 중앙값은 56입니다
중앙값은 꽤 쉽게 계산할 수 있습니다
-
크기순으로 숫자들을 나열한 후
-
중간에 있는 숫자
56을 선택하면 됩니다
-
이 영상을 잠시 멈추고
-
이 자료 집합에 대해 중앙값과
-
평균 중에 무엇이 더
-
집중경향성을 더 잘 나타내는 지에
대해 생각해봅시다
-
자 잠시 생각해봅시다
-
이 선에 위의 값들을 넣을 것입니다
-
값들을 선 위에 찍으므로서
-
값들을 그저 숫자로만 보지 않고
-
각 값들의 상대적인
위치를 알 수 있도록
-
할 것입니다
-
이곳이 0이라고 합시다
-
5개의 기준선을 그려주면
-
이곳이 250 이곳이
50, 100, 150, 200, 200이 될것입니다
-
그럼 봅시다
-
여기가 50이라면 대략적으로 여기가
-
40이 될 것입니다
-
이러한 방식으로
60, 70, 80, 90이 될 것이고
-
이러한 방식으로
60, 70, 80, 90이 될 것이고
-
이러한 방식으로
60, 70, 80, 90이 될 것이고
-
좀 더 정리해 봅시다
-
여기 있는 것은
-
여기에 좀 더 가까울 것입니다
-
여기 즈음에 놓읍시다
-
여기는 40, 30, 20, 10이 될 것입니다
-
여기는 40, 30, 20, 10이 될 것입니다
-
이제 자료를 이 표로 그려봅시다
-
한 학생은 35000을 벌고
여기 즈음 입니다
-
3명이 50000
-
따라서 하나 둘 셋
-
이렇게 놓을겁니다
-
한명이 56000을 벌고
여기에 놓을게요
-
2명이 60000을 벌고
-
2명이 60000을 벌고
-
한명이 75000을 벌고
-
여기 즈음일 것입니다
-
1명이 250000을 법니다
-
따라서 졸업생들의 연봉은
다 여기 즈음에 모여있습니다
-
집중경향성을 측정하는 척도로
-
평균인 76.2를 사용한다면
-
76.2는 여기 즈음에 있습니다
-
과연 이것이 중간 경향성을
측정하는데 좋은 척도일까요?
-
그리 좋아보이지는 않습니다
-
왜냐하면 평균이 모든 1개를 제외한
-
모든 데이터들보다 위에 있습니다
-
$250000의 값 하나때문에 평균이
-
매우 치우쳐지게 되었습니다
-
나머지의 분포보다
너무 많이 떨어져 있기 때문에
-
평균은 다른 데이터에서
좀 치우쳐지게 되었습니다
-
이것을 일반화하면
-
대부분의 사람들은 50, 60,$70000을
벌고 있지만
-
한 사람만 250000을 버는
이렇게 자료가
-
치우친 상황에서는 그 치우쳐 진 값이
-
평균또한 치우치게 만들겁니다
-
모든 값을 더하고
데이터의 개수로 나누면
-
모든 값을 더하고
데이터의 개수로 나누면
-
다른 데이터들과는
많이 떨어져 있는 값이
-
평균을 치우치게 만들기 때문에
중앙값이 더 적합합니다
-
중간값은 56으로 여기에 있고
이는 중심화 경향성을
-
더 잘 대변해 주는 것 같습니다
-
생각해봅시다
-
250000 대신에 이 값을
-
정말 엄청난 액수인 250백만 달러로
-
만들었다고 하면 이는 평균을 정말
-
엄청나게 치우치게 할 것이지만
-
중앙값은 전혀 변동이 없을 것입니다
-
왜냐하면 중간값은
250이 얼마나 더 커지는지는
-
전혀 상관이 없기 때문입니다
-
250이라는 값이 아무리 커져도
-
몇 백배 더 커져도
-
중앙값은 그대로일 것입니다
-
따라서 중앙값은 치우쳐
진 자료를 나타낼 때
-
더 적합한 값인 것을 알 수 있습니다
-
평균은 대칭적인 자료를 나타내거나
-
평균 근처에 값들이
몰린 경우를 나타낼 때
-
혹은 적은 양의 값들 때문에
-
한 방향으로 크게 치우쳐 있지 않을 때
-
더 좋은 효과를 발휘합니다
-
더 좋은 효과를 발휘합니다
-
따라서 이 경우 중간값이
집중경향성을
-
나타내기에는 더 적합합니다
-
그러면 데이터들의 분산 정도는요?
-
여러분들은 표준편차는
평균을 기반으로 한 것이고
-
이미 평균이 이 값들을 나타내기에는 부적합하다고 했으니
-
표준편차 또한 부정확하다고
추측할 수 있습니다
-
표준편차는 각 값들의
평균으로부터의 거리를
-
제곱한 것을 더하고
-
데이터의 개수로 나누어 주고
-
그것에다 루트를 씌워주면
구할 수 있습니다
-
그것에다 루트를 씌워주면
구할 수 있습니다
-
그리고 이것은 이 자료들의
집중경향성을
-
나타내기에 부적합한 평균을
기반으로 한 값이기 때문에
-
표준편차 또한 치우쳐져
부적합할 것입니다
-
이것은 실제
-
실제 값들이 퍼진 정도를
-
나타내는 값들보다 훨씬 더 큽니다
-
한개의 점이 평균으로 따지든
-
중간값으로 따지든
멀리 떨어져 있습니다
-
하지만 데이터의 대부분은 무척이나
-
가깝게 분포해 있습니다
따라서 이 경우 또한
-
중간값과 더불어
-
사분범위가 더 적절합니다
-
사분범위를 어떻게 계산할까요?
-
먼저 중간값을 찾아내고
-
중간값보다 작은 값들의
중간값을 계산합니다
-
그러면 그것은 지금의 경우 50이 되고
-
이제 중간값보다
큰 값들의 중간값을 계산합니다
-
그것은 60과 75의 평균이 될 것인데
바로 67.5입니다
-
만약 이것이 익숙하지 않다면 사분범위
-
중간값 평균 표준편차 등을
계산하는 여러 동영상을 게시했습니다
-
중간값 평균 표준편차 등을
계산하는 여러 동영상을 게시했습니다
-
이것은 그저 잠깐 복습한 것입니다
-
이러면 이 두 값들의 차이는
17.5가 됩니다
-
이 차이 17.5는
-
마지막 값이 아무리 커진다 하더라도
-
변하지 않을 것입니다
-
따라서 중간값과
사분범위가 이 데이터들을
-
묘사하는 데에는 더 적합합니다
-
평균과 표준편차는
대칭적인 자료들을
-
나타내거나 크게 다른 값이 없는
-
자료들을 나타내기에는 나쁘지 않고
-
평균과 표준편차가 매우 확고하고
-
괜찮게 데이터 집합을
표현할 수 있습니다
-
하지만 소수의
크게 다른 값들이 있다면
-
중간값과 사분범위가
자료를 나타내기에
-
중간값은 집중경향성을
사분범위는 집중경향성
-
주위의 분포를 나타내기에 적합합니다
-
따라서 소득 분포를 보는 경우 자주
-
중간값에 대해 이야기
하는 것을 볼 수 있을겁니다
-
왜냐하면 소득의 경우
특히 고소득 쪽에서 값들이
-
크게 다르기 때문입니다 집값의 경우도
-
마찬가지인데 이 또한 한 인근지역의
-
집값이 200000 혹은 300000의 범위에
-
있지만 한 대저택이 억 단위일
수도 있어 데이터 집합이
-
있지만 한 대저택이 억 단위일
수도 있어 자료 집합이
-
크게 편향되어 있습니다
따라서 평균을 구하면
-
평균 또한 편향되게 되어
그 지역의 집값의
-
집중경향성을 잘못 나타낼 것입니다