-
Rozpoczniemy naszą podróż po świecie statystyki,
-
która jest sposobem na radzenie sobie z dużymi ilościami danych.
-
W statystyce wszystko kręci się wokół danych.
-
Na początku naszej podróży,
-
będziemy zajmować się głównie statystyką opisową.
-
Załóżmy, że mamy pokaźny zbiór danych i chcemy komuś je scharakteryzować bez pokazywania całego zbioru,
-
czy możemy to zrobić za pomocą mniejszego zbioru liczb?
-
Na tym się skupimy.
-
W momencie gdy skompletujemy narzędzia potrzebne w statystyce opisowej,
-
będziemy mogli wyciągać wnioski i podejmować decyzje na podstawie danych,
-
czyli będziemy mogli się zająć wnioskowaniem statystycznym.
-
Jak możemy opisać zbiór danych?
-
Załóżmy, że mamy zbiór liczb - to będą nasze dane.
-
Być może mierzyliśmy wysokości roślin w naszym ogrodzie.
-
Załóżmy, że mamy 6 roślinek i wysokości są następujące:
-
4 cale, 3 cale, 1 cal, 6 cali, 1 cal i 7 cali.
-
Powiedzmy, że ktoś będąc w sąsiednim pokoju, z którego nie widać naszego ogródka spytał:
-
"Hej, jak wysokie są twoje rośliny?" i chce usłyszeć tylko jedną liczbę. Jedną liczbę, która w pewien sposób charakteryzuje wszystkie rośliny.
-
Jak to zrobić?
-
Jak znaleźć taką charakterystyczną liczbę? Może środkową liczbę?
-
Może to będzie liczba, która pojawia się najczęściej? Lub liczbę, która będzie średnią?
-
Gdy zastanawiamy się nad takimi rzeczami, stajemy przed takimi samymy problemami
-
które stały przed twórcami statystyki opisowej.
-
Jak możemy coś takiego zrobić?
-
Zaczniemy od koncepcji średniej. Zwykle mówiąc o średniej mamy na myśli średnią arytmetyczną, którą wkrótce zobaczymy.
-
Ale w statystyce średnia ma ogólniejsze znaczenie,
-
chcemy otrzymać wartość typową lub środkową zbioru. Konkretnie chcemy uzyskać jakąś miarę tendencji centralnej.
-
Jeszcze raz: mamy zbiór liczb i chcemy zareprezentować go za pomocą jednej liczby, która na nasze potrzeby będzie nazywana średnią, która będzie w pewien sposób typowa, środkowa lub centralna dla naszego zbioru.
-
I jak zaraz zobaczymy, jest wiele różnych średnich.
-
Pierwsza, z którą prawdopodobnie jesteście najlepiej zaznajomieni, to średnia arytmetyczna.
-
Zapiszę to na żółto. Średnia arytmetyczna.
-
Arytmetyka to rzeczownik, przymiotnik od arytmetyki to arytmetyczny.
-
To jest suma wszystkich liczb, podzielona przez
-
- jest to skonstruowana przez nas definicja, która okazała się być przydatna -
-
suma wszystkich liczb podzielona przez ilość wszystkich liczb, które mamy.
-
Jaka jest średnia arytmetyczna naszego zbioru danych?
-
To jest 4+3+1+6+1+7 podzielone przez liczbę naszych wartości. Mamy 6 wartości, więc dzielimy przez 6 i otrzymujemy:
-
4+3=7+1=8+6=14+1=15+7=22
-
to wszystko podzielone przez 6, daje nam 3 i cztery szóste, co można przepisać jako 3 i dwie trzecie, co można zapisać jako 3 przecinek, 6 w okresie.
-
Możemy zapisać tą wartość w którymkolwiek z tych sposobów, niemniej jednak jest to reprezentatywna liczba określająca w pewien sposób tendencję centralną.
-
Jak już zauważyliśmy, jest to nasz ludzki wynalazek.
-
Nie ma żadnego świętego zwoju, gdzie objawiono nam średnią arytmetyczną.
-
Nie jest to również wzór na obwód okręgu, który reprezentuje zależność, którą odkryliśmy podczas poznawania Wszechświata.
-
Jest to ludzka konstrukcja, która okazała się przydatna do opisu zbiorów.
-
Są równiez inne sposoby na wytypowanie przeciętnej, typowej czy też środkowej wartości.
-
Innym sposobem określenia typowej wartości jest mediana, zapiszę na różowo.
-
Mediana oznacza dokładnie wartość środkową.
-
Jeżeli posortowalibyśmy wszystkie nasze liczby i wyciągnelibyśmy tą, któa znajduje się w środku ciągu, to będzie nasza mediana.
-
Jaka jest mediana dla naszego zbioru danych?
-
Posortujmy najpierw nasz zbiór.
-
Mamy 1, później kolejne 1, 3, 4, 6 i 7. Jaka jest środkowa liczba?
-
Mamy parzystą ilość liczb, nie ma żadnej środkowej liczby, mamy dwie środkowe liczby.
-
3 i 4.
-
W przypadku gdy mamy dwie środkowe liczby, za medianę uznajemy liczbę leżącą w połowie odległości między nimi,
-
średnią arymetyczną dwóch środkowych liczb.
-
Tutaj medianą jest liczba pomiędzy 3 i 4, czyli 3.5.
-
Jeżeli mamy parzystą ilość liczb, medianą jest średnia arytmetyczna dwóch środkowych liczb.
-
Jeżeli mamy nieparzystą ilość liczb, to medianę łatwiej obliczyć.
-
Zilustruję to przykładem.
-
Załóżmy, że nasz posortowany zbiór danych wygląda następująco:
-
0, 7, 50, 10 000, 1 000 000
-
Trochę szalony zbiór danych, ale w tej sytuacji, co jest naszą medianą?
-
Mamy 5 liczb, nieparzysta ilość, więc łatwiej jest wybrać środkową.
-
Środkowa wartość jest większa od dwóch początkowych liczb i mniejsza od dwóch ostatnich.
-
Jest dokładnie w środku, przez to naszą medianą jest 50.
-
Trzecią miarą tendencji centralnej, prawdopodobnie najrzadziej używana miara to dominanta (moda).
-
Brzmi jak coś bardzo złożonego, ale jak zobaczymy pod wieloma względami jest najprostsza z dzisiaj poznanych. Dominanta to najczęściej spotykana wartość w zbiorze danych.
-
Jeżeli taka liczba istnieje. Jeżeli wszystkich liczb jest po tyle samo, wtedy nie ma dominanty.
-
Co jest dominantą w naszym zbiorze? Mamy jedną 4, jedną 3, mamy dwie 1 oraz po jednej 6 i 7.
-
Najczęściej pojawiającą się liczbą jest 1. Naszą dominantą jest więc 1.
-
Widać, że są to różne sposoby na oszacowanie tendencji centralnej, wykorzystujące różne podejścia,
-
każde sprawdzające się lepiej w innych zastosowaniach.
-
Średnia arytmetyczna jest używana bardzo często,
-
mediana jest przydatna gdy w zbiorze może się nam pojawić ogromna liczba, która może zdominować nam średnią arytmetyczną.
-
Dominanta również może być przydatna w takich sytuacjach, szczególnie jeżeli mamy w zbiorze liczbę, która występuje wyraźnie częściej od pozostałych.
-
Zostawię was tutaj, w następnym filmie zagłębimy się jeszcze bardziej w świat statystyki.