지금부터 통계학의 세계로 빠져봅시다 통계는 어떤 자료를 이해하거나 이것을 통해 무엇을 알아낼 때 쓰입니다 통계는 자료에 대한 모든 것을 다룹니다 여러분이 통계학의 세계에 발을 들이게 되면 많은 부분을 기술통계학 관점에서 배울겁니다 어떤 수많은 자료값이 있는데 여기에서 정보를 보여주고 싶을 때 모든 자료값을 나타내지 않고 더 작은 범위의 값으로 나타낼 순 없을까요? 앞으로 이것에 중점을 둘 겁니다 기술통계의 개념을 학습하고 나면 자료를 추론해서 어떤 결론을 내거나 판단을 내릴 수 있습니다 이런 종류의 통계학이 추리통계학입니다 말 그대로 추리하는 것이죠 그럼 먼저 자료를 어떻게 기술할 수 있는지 생각해 봅시다 어떤 수의 집합이 있다고 합시다 이런 수는 자료라고 할 수 있어요 어떤 정원에 있는 식물의 키를 쟀다고 해봅시다 식물이 6 개체가 있고 키가 각각 4 인치, 3인치, 1인치, 6인치, 1인치, 7인치입니다 그런데 식물을 볼 수 없는 어떤 방 안에 있는 사람이 식물들의 키를 궁금해합니다 식물의 키를 한 자리 숫자로 말해줘야 합니다 모든 식물의 키를 대표할 수 있는 수 하나만 말할 수 있습니다 어떻게 해야 할까요? 어떻게 이 여러 수를 대표하는 값을 어떻게 찾을 수 있을까요? 딱 중간을 나타내는 어떤 값일 수도 있고 가장 자주 나오는 값일 수도 있고 정 가운데에 있는 값일 수도 있어요 이 셋 중에 하나라도 생각했다면 여러분은 기술통계학을 처음 만들어낸 사람들과 똑같이 생각한 거에요 그 사람들도 어떻게 구할지 생각해 봤을거에요 먼저 평균의 개념에 대해 배워봅시다 일상생활에서 말할 때 평균은 특정한 뜻이 있는 단어에요 보통 사람들이 말하는 평균은 사실 산술평균입니다 하지만 통계학에서 평균은 좀 더 광범위한 단어에요 평균을 구한다는 뜻은 어떤 대표적인 값을 구하거나 가운데에 있는 값을 구한다는 겁니다 이렇게 평균을 구한다는 것은 집중경향성 수치를 구한다는 것과 똑같습니다 다시 말하자면 여기 여러 수가 있고 이를 대표하는 어떤 값을 구해야 합니다 이것은 평균이고 여러 값을 대표하는 값이나 가운데에 있는 값을 구하는 겁니다 평균에는 여러 가지 종류가 있습니다 첫 번째는 가장 익숙한 개념입니다 보통 말하는 시험 평균 점수나 평균 키에서 보는 평균입니다 바로 산술평균입니다 바로 산술평균입니다 산술평균이 명사로 쓰일 때 Uh-rith'-me-tik 이라고 발음합니다 지금처럼 형용사일 때는 Eh'-rith-me'-tik이라고 발음합니다 산술평균은 모든 수의 합을 그 개수로 나눈 것입니다 사람이 편리하게 계산하려고 만든 유용한 개념이에요 모든 수의 합에 그 개수를 나누면 돼요 그렇다면 이 자료집합의 산술평균은 무엇일까요? 계산해 봅시다 4+3+1+6+1+7 4+3+1+6+1+7 여기에 개수를 나눠줘요 총 6개의 수가 있으니까 6으로 나눠줍시다 그러면 4 +3 = 7 7+1=8 8+6=14 14+1=15 15+7=22 다시 해봅시다 4+3+1+6+1+7=22 22에 6을 나눠주면 대분수로 쓸 수 있습니다 22안에 6이 3번 들어가고 4가 남으므로 3과 4/6가 되고 3과 2/3으로 약분됩니다 소숫점으로 나타내면 3.6이에요 6이 반복되는 반복소수죠 어떻게 나타내든 상관없어요 이 값은 위의 수들을 대표하는 값이에요 즉 집중경향성을 보여주는 값이에요 다시 한 번 강조하지만 이것은 인간이 만들어낸 개념입니다 산술평균 개념은 어떤 종교적인 자료에서 찾아낸 진리는 아닙니다 원주율을 알아낸 것 처럼 순수하게 발견해낸 것이 아니라는 것이죠 원주율은 인간이 우주를 공부하다가 우연히 알아낸 공식이니까요 이처럼 산술평균은 인간의 편리 때문에 만든 개념입니다 대표하는 값이나 가운데 값을 구하는 다른 많은 방법도 많습니다 또 다른 대표적인 것은 중앙값입니다 중앙값은 분홍색으로 표시할게요 중앙값은 말 그대로 가운데에 있는 값입니다 수를 순서대로 나열하고 가운데에 있는 값을 구하면 그 수가 바로 중앙값입니다 그렇다면 여기에서 중앙값은 무엇일까요? 알아봅시다 먼저 순서대로 나열하죠 1이 두 개, 3, 4, 6, 7이 있어요 위에 있는 수의 순서만 바꿨어요 중앙값은 어떤 것일까요? 수가 짝수개수 만큼 있으니까 중앙값은 한 개가 아니에요 중앙값은 두 개입니다 바로 3과 4입니다. 중앙값이 2개라면 두 값의 차의 1/2이 실제 중앙값입니다 두 중앙값의 산술평균을 구하는 것이죠 3과 4의 중간은 3.5예요 이 예제의 경우 중앙값이 3.5가 되는거에요 중앙값이 두 개가 있으면 두 값의 산술평균을 구하면 되고요 수가 홀수개수만큼 있으면 좀 더 쉽습니다 이번에는 다른 값들로 확인해 봅시다 바로 순서대로 써 볼게요 자료값은 0, 7, 50, 10,000, 1,000,000 입니다 희한한 자료집합이에요 이 경우에 중앙값은 무엇일까요? 수가 5개 있네요 홀수개만큼 있으므로 가운데를 찾기 더욱 쉽습니다 중앙값은 어떤 두 수 보다는 크고 다른 두 수 보다는 작은 수입니다 정확히 가운데에 있는 수입니다 이 경우에는 50이 되겠네요 세 번째로는 가장 적게 쓰이는 최빈값에 대해 배워봐요 최빈값은 적게 쓰여서 복잡한 개념같지만 사실은 굉장히 간단합니다 어떤 면에서는 가장 기초적인 개념입니다 최빈값은 자료집합 안에서 가장 많이 존재하는 수입니다 만약 모든 수가 각각 한 번씩만 등장하면 최빈값은 없습니다 그러면 여기서 최빈값은 무엇일까요? 4,3,6,7은 한 번 나오고 1은 두 번 나와요 가장 자주 나오는 숫자는 1입니다 그래서 최빈값은 1이지요 자료를 대표하는 값을 찾을 때 여러 방법으로 할 수 있다는 것을 알 수 있습니다 그리고 통계학을 공부할 때 각자 쓰임새가 다르다는 걸 배우게 될 겁니다 산술평균이 가장 많이 사용되고요 중앙값은 굉장히 큰 값 때문에 산술평균이 왜곡될 때 유용하고요 최빈값도 마찬가지로 똑같은 수가 여러번 등장해서 평균이 왜곡될 수 있을 때 유용합니다 오늘은 이만 여기서 마치기로하고 다음 시간에는 통계학을 더욱 자세하게 배워봅시다