-
지금부터 통계학의 세계로 빠져봅시다
-
통계는 어떤 자료를 이해하거나
이것을 통해 무엇을 알아낼 때 쓰입니다
-
통계는 자료에 대한
모든 것을 다룹니다
-
여러분이 통계학의 세계에
발을 들이게 되면
-
많은 부분을
기술통계학 관점에서 배울겁니다
-
어떤 수많은 자료값이 있는데
여기에서 정보를 보여주고 싶을 때
-
모든 자료값을 나타내지 않고
더 작은 범위의 값으로 나타낼 순 없을까요?
-
앞으로 이것에 중점을 둘 겁니다
-
기술통계의 개념을
학습하고 나면
-
자료를 추론해서 어떤 결론을 내거나
판단을 내릴 수 있습니다
-
이런 종류의 통계학이
추리통계학입니다
-
말 그대로 추리하는 것이죠
-
그럼 먼저 자료를 어떻게
기술할 수 있는지 생각해 봅시다
-
어떤 수의 집합이 있다고 합시다
이런 수는 자료라고 할 수 있어요
-
어떤 정원에 있는 식물의
키를 쟀다고 해봅시다
-
식물이 6 개체가 있고
-
키가 각각 4 인치, 3인치, 1인치,
6인치, 1인치, 7인치입니다
-
그런데 식물을 볼 수 없는
어떤 방 안에 있는 사람이
-
식물들의 키를 궁금해합니다
-
식물의 키를 한 자리
숫자로 말해줘야 합니다
-
모든 식물의 키를 대표할 수 있는
수 하나만 말할 수 있습니다
-
어떻게 해야 할까요?
-
어떻게 이 여러 수를 대표하는 값을
어떻게 찾을 수 있을까요?
-
딱 중간을 나타내는
어떤 값일 수도 있고
-
가장 자주 나오는
값일 수도 있고
-
정 가운데에 있는 값일 수도 있어요
-
이 셋 중에 하나라도 생각했다면
-
여러분은 기술통계학을
처음 만들어낸 사람들과 똑같이 생각한 거에요
-
그 사람들도 어떻게 구할지
생각해 봤을거에요
-
먼저 평균의 개념에 대해 배워봅시다
-
일상생활에서 말할 때 평균은
특정한 뜻이 있는 단어에요
-
보통 사람들이 말하는 평균은
사실 산술평균입니다
-
하지만 통계학에서 평균은
좀 더 광범위한 단어에요
-
평균을 구한다는 뜻은
어떤 대표적인 값을 구하거나
-
가운데에 있는
값을 구한다는 겁니다
-
이렇게 평균을 구한다는 것은
집중경향성 수치를 구한다는 것과 똑같습니다
-
다시 말하자면 여기 여러 수가 있고
이를 대표하는 어떤 값을 구해야 합니다
-
이것은 평균이고 여러 값을
대표하는 값이나 가운데에 있는 값을 구하는 겁니다
-
평균에는 여러 가지 종류가 있습니다
-
첫 번째는 가장 익숙한 개념입니다
-
보통 말하는 시험 평균 점수나
평균 키에서 보는 평균입니다
-
바로 산술평균입니다
-
바로 산술평균입니다
-
산술평균이 명사로 쓰일 때 Uh-rith'-me-tik 이라고 발음합니다
지금처럼 형용사일 때는 Eh'-rith-me'-tik이라고 발음합니다
-
산술평균은 모든 수의 합을
그 개수로 나눈 것입니다
-
사람이 편리하게 계산하려고 만든
유용한 개념이에요
-
모든 수의 합에
그 개수를 나누면 돼요
-
그렇다면 이 자료집합의
산술평균은 무엇일까요?
-
계산해 봅시다
-
4+3+1+6+1+7
-
4+3+1+6+1+7
여기에 개수를 나눠줘요
-
총 6개의 수가 있으니까
6으로 나눠줍시다
-
그러면 4 +3 = 7
-
7+1=8
-
8+6=14
-
14+1=15
-
15+7=22
-
다시 해봅시다
4+3+1+6+1+7=22
-
22에 6을 나눠주면
-
대분수로 쓸 수 있습니다
22안에 6이 3번 들어가고 4가 남으므로
-
3과 4/6가 되고
3과 2/3으로 약분됩니다
-
소숫점으로 나타내면 3.6이에요
6이 반복되는 반복소수죠
-
어떻게 나타내든 상관없어요
-
이 값은 위의 수들을 대표하는 값이에요
즉 집중경향성을 보여주는 값이에요
-
다시 한 번 강조하지만
이것은 인간이 만들어낸 개념입니다
-
산술평균 개념은 어떤 종교적인
자료에서 찾아낸 진리는 아닙니다
-
원주율을 알아낸 것 처럼
순수하게 발견해낸 것이 아니라는 것이죠
-
원주율은 인간이 우주를 공부하다가
우연히 알아낸 공식이니까요
-
이처럼 산술평균은
인간의 편리 때문에 만든 개념입니다
-
대표하는 값이나 가운데 값을
구하는 다른 많은 방법도 많습니다
-
또 다른 대표적인 것은
중앙값입니다
-
중앙값은 분홍색으로 표시할게요
-
중앙값은 말 그대로
가운데에 있는 값입니다
-
수를 순서대로 나열하고
가운데에 있는 값을 구하면
-
그 수가 바로 중앙값입니다
-
그렇다면 여기에서
중앙값은 무엇일까요?
-
알아봅시다
먼저 순서대로 나열하죠
-
1이 두 개, 3, 4, 6, 7이 있어요
-
위에 있는 수의 순서만 바꿨어요
-
중앙값은 어떤 것일까요?
-
수가 짝수개수 만큼 있으니까
중앙값은 한 개가 아니에요
-
중앙값은 두 개입니다
-
바로 3과 4입니다.
-
중앙값이 2개라면
두 값의 차의 1/2이 실제 중앙값입니다
-
두 중앙값의 산술평균을 구하는 것이죠
-
3과 4의 중간은 3.5예요
-
이 예제의 경우
중앙값이 3.5가 되는거에요
-
중앙값이 두 개가 있으면
두 값의 산술평균을 구하면 되고요
-
수가 홀수개수만큼 있으면
좀 더 쉽습니다
-
이번에는 다른 값들로 확인해 봅시다
-
바로 순서대로 써 볼게요
-
자료값은
0, 7, 50, 10,000, 1,000,000 입니다
-
희한한 자료집합이에요
이 경우에 중앙값은 무엇일까요?
-
수가 5개 있네요
-
홀수개만큼 있으므로
가운데를 찾기 더욱 쉽습니다
-
중앙값은 어떤 두 수 보다는 크고
다른 두 수 보다는 작은 수입니다
-
정확히 가운데에 있는 수입니다
이 경우에는 50이 되겠네요
-
세 번째로는 가장 적게 쓰이는
최빈값에 대해 배워봐요
-
최빈값은 적게 쓰여서 복잡한 개념같지만
사실은 굉장히 간단합니다
-
어떤 면에서는
가장 기초적인 개념입니다
-
최빈값은 자료집합 안에서
가장 많이 존재하는 수입니다
-
만약 모든 수가 각각 한 번씩만
등장하면 최빈값은 없습니다
-
그러면 여기서 최빈값은 무엇일까요?
4,3,6,7은 한 번 나오고 1은 두 번 나와요
-
가장 자주 나오는 숫자는 1입니다
그래서 최빈값은 1이지요
-
자료를 대표하는 값을 찾을 때
여러 방법으로 할 수 있다는 것을 알 수 있습니다
-
그리고 통계학을 공부할 때
각자 쓰임새가 다르다는 걸 배우게 될 겁니다
-
산술평균이 가장 많이 사용되고요
-
중앙값은 굉장히 큰 값 때문에
산술평균이 왜곡될 때 유용하고요
-
최빈값도 마찬가지로 똑같은 수가 여러번
등장해서 평균이 왜곡될 수 있을 때 유용합니다
-
오늘은 이만 여기서 마치기로하고
-
다음 시간에는 통계학을
더욱 자세하게 배워봅시다