Rozpoczniemy naszą podróż po świecie statystyki,
która jest sposobem na radzenie sobie z dużymi ilościami danych.
W statystyce wszystko kręci się wokół danych.
Na początku naszej podróży,
będziemy zajmować się głównie statystyką opisową.
Załóżmy, że mamy pokaźny zbiór danych i chcemy komuś je scharakteryzować bez pokazywania całego zbioru,
czy możemy to zrobić za pomocą mniejszego zbioru liczb?
Na tym się skupimy.
W momencie gdy skompletujemy narzędzia potrzebne w statystyce opisowej,
będziemy mogli wyciągać wnioski i podejmować decyzje na podstawie danych,
czyli będziemy mogli się zająć wnioskowaniem statystycznym.
Jak możemy opisać zbiór danych?
Załóżmy, że mamy zbiór liczb - to będą nasze dane.
Być może mierzyliśmy wysokości roślin w naszym ogrodzie.
Załóżmy, że mamy 6 roślinek i wysokości są następujące:
4 cale, 3 cale, 1 cal, 6 cali, 1 cal i 7 cali.
Powiedzmy, że ktoś będąc w sąsiednim pokoju, z którego nie widać naszego ogródka spytał:
"Hej, jak wysokie są twoje rośliny?" i chce usłyszeć tylko jedną liczbę. Jedną liczbę, która w pewien sposób charakteryzuje wszystkie rośliny.
Jak to zrobić?
Jak znaleźć taką charakterystyczną liczbę? Może środkową liczbę?
Może to będzie liczba, która pojawia się najczęściej? Lub liczbę, która będzie średnią?
Gdy zastanawiamy się nad takimi rzeczami, stajemy przed takimi samymy problemami
które stały przed twórcami statystyki opisowej.
Jak możemy coś takiego zrobić?
Zaczniemy od koncepcji średniej. Zwykle mówiąc o średniej mamy na myśli średnią arytmetyczną, którą wkrótce zobaczymy.
Ale w statystyce średnia ma ogólniejsze znaczenie,
chcemy otrzymać wartość typową lub środkową zbioru. Konkretnie chcemy uzyskać jakąś miarę tendencji centralnej.
Jeszcze raz: mamy zbiór liczb i chcemy zareprezentować go za pomocą jednej liczby, która na nasze potrzeby będzie nazywana średnią, która będzie w pewien sposób typowa, środkowa lub centralna dla naszego zbioru.
I jak zaraz zobaczymy, jest wiele różnych średnich.
Pierwsza, z którą prawdopodobnie jesteście najlepiej zaznajomieni, to średnia arytmetyczna.
Zapiszę to na żółto. Średnia arytmetyczna.
Arytmetyka to rzeczownik, przymiotnik od arytmetyki to arytmetyczny.
To jest suma wszystkich liczb, podzielona przez
- jest to skonstruowana przez nas definicja, która okazała się być przydatna -
suma wszystkich liczb podzielona przez ilość wszystkich liczb, które mamy.
Jaka jest średnia arytmetyczna naszego zbioru danych?
To jest 4+3+1+6+1+7 podzielone przez liczbę naszych wartości. Mamy 6 wartości, więc dzielimy przez 6 i otrzymujemy:
4+3=7+1=8+6=14+1=15+7=22
to wszystko podzielone przez 6, daje nam 3 i cztery szóste, co można przepisać jako 3 i dwie trzecie, co można zapisać jako 3 przecinek, 6 w okresie.
Możemy zapisać tą wartość w którymkolwiek z tych sposobów, niemniej jednak jest to reprezentatywna liczba określająca w pewien sposób tendencję centralną.
Jak już zauważyliśmy, jest to nasz ludzki wynalazek.
Nie ma żadnego świętego zwoju, gdzie objawiono nam średnią arytmetyczną.
Nie jest to również wzór na obwód okręgu, który reprezentuje zależność, którą odkryliśmy podczas poznawania Wszechświata.
Jest to ludzka konstrukcja, która okazała się przydatna do opisu zbiorów.
Są równiez inne sposoby na wytypowanie przeciętnej, typowej czy też środkowej wartości.
Innym sposobem określenia typowej wartości jest mediana, zapiszę na różowo.
Mediana oznacza dokładnie wartość środkową.
Jeżeli posortowalibyśmy wszystkie nasze liczby i wyciągnelibyśmy tą, któa znajduje się w środku ciągu, to będzie nasza mediana.
Jaka jest mediana dla naszego zbioru danych?
Posortujmy najpierw nasz zbiór.
Mamy 1, później kolejne 1, 3, 4, 6 i 7. Jaka jest środkowa liczba?
Mamy parzystą ilość liczb, nie ma żadnej środkowej liczby, mamy dwie środkowe liczby.
3 i 4.
W przypadku gdy mamy dwie środkowe liczby, za medianę uznajemy liczbę leżącą w połowie odległości między nimi,
średnią arymetyczną dwóch środkowych liczb.
Tutaj medianą jest liczba pomiędzy 3 i 4, czyli 3.5.
Jeżeli mamy parzystą ilość liczb, medianą jest średnia arytmetyczna dwóch środkowych liczb.
Jeżeli mamy nieparzystą ilość liczb, to medianę łatwiej obliczyć.
Zilustruję to przykładem.
Załóżmy, że nasz posortowany zbiór danych wygląda następująco:
0, 7, 50, 10 000, 1 000 000
Trochę szalony zbiór danych, ale w tej sytuacji, co jest naszą medianą?
Mamy 5 liczb, nieparzysta ilość, więc łatwiej jest wybrać środkową.
Środkowa wartość jest większa od dwóch początkowych liczb i mniejsza od dwóch ostatnich.
Jest dokładnie w środku, przez to naszą medianą jest 50.
Trzecią miarą tendencji centralnej, prawdopodobnie najrzadziej używana miara to dominanta (moda).
Brzmi jak coś bardzo złożonego, ale jak zobaczymy pod wieloma względami jest najprostsza z dzisiaj poznanych. Dominanta to najczęściej spotykana wartość w zbiorze danych.
Jeżeli taka liczba istnieje. Jeżeli wszystkich liczb jest po tyle samo, wtedy nie ma dominanty.
Co jest dominantą w naszym zbiorze? Mamy jedną 4, jedną 3, mamy dwie 1 oraz po jednej 6 i 7.
Najczęściej pojawiającą się liczbą jest 1. Naszą dominantą jest więc 1.
Widać, że są to różne sposoby na oszacowanie tendencji centralnej, wykorzystujące różne podejścia,
każde sprawdzające się lepiej w innych zastosowaniach.
Średnia arytmetyczna jest używana bardzo często,
mediana jest przydatna gdy w zbiorze może się nam pojawić ogromna liczba, która może zdominować nam średnią arytmetyczną.
Dominanta również może być przydatna w takich sytuacjach, szczególnie jeżeli mamy w zbiorze liczbę, która występuje wyraźnie częściej od pozostałych.
Zostawię was tutaj, w następnym filmie zagłębimy się jeszcze bardziej w świat statystyki.