1 00:00:00,494 --> 00:00:07,699 Rozpoczniemy naszą podróż po świecie statystyki, 2 00:00:07,699 --> 00:00:11,411 która jest sposobem na radzenie sobie z dużymi ilościami danych. 3 00:00:11,411 --> 00:00:14,531 W statystyce wszystko kręci się wokół danych. 4 00:00:14,531 --> 00:00:19,044 Na początku naszej podróży, 5 00:00:19,044 --> 00:00:23,615 będziemy zajmować się głównie statystyką opisową. 6 00:00:23,615 --> 00:00:29,728 Załóżmy, że mamy pokaźny zbiór danych i chcemy komuś je scharakteryzować bez pokazywania całego zbioru, 7 00:00:29,728 --> 00:00:34,196 czy możemy to zrobić za pomocą mniejszego zbioru liczb? 8 00:00:34,196 --> 00:00:35,692 Na tym się skupimy. 9 00:00:35,692 --> 00:00:39,096 W momencie gdy skompletujemy narzędzia potrzebne w statystyce opisowej, 10 00:00:39,096 --> 00:00:52,059 będziemy mogli wyciągać wnioski i podejmować decyzje na podstawie danych, 11 00:00:52,059 --> 00:00:55,130 czyli będziemy mogli się zająć wnioskowaniem statystycznym. 12 00:00:55,130 --> 00:00:56,760 Jak możemy opisać zbiór danych? 13 00:00:56,760 --> 00:01:03,808 Załóżmy, że mamy zbiór liczb - to będą nasze dane. 14 00:01:03,808 --> 00:01:06,379 Być może mierzyliśmy wysokości roślin w naszym ogrodzie. 15 00:01:06,379 --> 00:01:08,897 Załóżmy, że mamy 6 roślinek i wysokości są następujące: 16 00:01:08,897 --> 00:01:18,159 4 cale, 3 cale, 1 cal, 6 cali, 1 cal i 7 cali. 17 00:01:18,159 --> 00:01:23,097 Powiedzmy, że ktoś będąc w sąsiednim pokoju, z którego nie widać naszego ogródka spytał: 18 00:01:23,097 --> 00:01:33,829 "Hej, jak wysokie są twoje rośliny?" i chce usłyszeć tylko jedną liczbę. Jedną liczbę, która w pewien sposób charakteryzuje wszystkie rośliny. 19 00:01:33,829 --> 00:01:36,907 Jak to zrobić? 20 00:01:36,907 --> 00:01:44,427 Jak znaleźć taką charakterystyczną liczbę? Może środkową liczbę? 21 00:01:44,427 --> 00:01:52,712 Może to będzie liczba, która pojawia się najczęściej? Lub liczbę, która będzie średnią? 22 00:01:52,712 --> 00:01:57,194 Gdy zastanawiamy się nad takimi rzeczami, stajemy przed takimi samymy problemami 23 00:01:57,194 --> 00:01:59,113 które stały przed twórcami statystyki opisowej. 24 00:01:59,113 --> 00:02:01,048 Jak możemy coś takiego zrobić? 25 00:02:01,048 --> 00:02:15,040 Zaczniemy od koncepcji średniej. Zwykle mówiąc o średniej mamy na myśli średnią arytmetyczną, którą wkrótce zobaczymy. 26 00:02:15,040 --> 00:02:18,481 Ale w statystyce średnia ma ogólniejsze znaczenie, 27 00:02:18,481 --> 00:02:38,897 chcemy otrzymać wartość typową lub środkową zbioru. Konkretnie chcemy uzyskać jakąś miarę tendencji centralnej. 28 00:02:38,897 --> 00:02:50,664 Jeszcze raz: mamy zbiór liczb i chcemy zareprezentować go za pomocą jednej liczby, która na nasze potrzeby będzie nazywana średnią, która będzie w pewien sposób typowa, środkowa lub centralna dla naszego zbioru. 29 00:02:50,664 --> 00:02:55,095 I jak zaraz zobaczymy, jest wiele różnych średnich. 30 00:02:55,095 --> 00:03:03,865 Pierwsza, z którą prawdopodobnie jesteście najlepiej zaznajomieni, to średnia arytmetyczna. 31 00:03:03,865 --> 00:03:13,843 Zapiszę to na żółto. Średnia arytmetyczna. 32 00:03:13,843 --> 00:03:22,193 Arytmetyka to rzeczownik, przymiotnik od arytmetyki to arytmetyczny. 33 00:03:22,193 --> 00:03:26,761 To jest suma wszystkich liczb, podzielona przez 34 00:03:26,761 --> 00:03:29,756 - jest to skonstruowana przez nas definicja, która okazała się być przydatna - 35 00:03:29,756 --> 00:03:35,581 suma wszystkich liczb podzielona przez ilość wszystkich liczb, które mamy. 36 00:03:35,581 --> 00:03:39,809 Jaka jest średnia arytmetyczna naszego zbioru danych? 37 00:03:39,809 --> 00:03:56,157 To jest 4+3+1+6+1+7 podzielone przez liczbę naszych wartości. Mamy 6 wartości, więc dzielimy przez 6 i otrzymujemy: 38 00:03:56,157 --> 00:04:14,776 4+3=7+1=8+6=14+1=15+7=22 39 00:04:14,776 --> 00:04:29,606 to wszystko podzielone przez 6, daje nam 3 i cztery szóste, co można przepisać jako 3 i dwie trzecie, co można zapisać jako 3 przecinek, 6 w okresie. 40 00:04:29,606 --> 00:04:40,768 Możemy zapisać tą wartość w którymkolwiek z tych sposobów, niemniej jednak jest to reprezentatywna liczba określająca w pewien sposób tendencję centralną. 41 00:04:40,768 --> 00:04:44,043 Jak już zauważyliśmy, jest to nasz ludzki wynalazek. 42 00:04:44,043 --> 00:04:50,345 Nie ma żadnego świętego zwoju, gdzie objawiono nam średnią arytmetyczną. 43 00:04:50,345 --> 00:05:00,446 Nie jest to również wzór na obwód okręgu, który reprezentuje zależność, którą odkryliśmy podczas poznawania Wszechświata. 44 00:05:00,446 --> 00:05:04,440 Jest to ludzka konstrukcja, która okazała się przydatna do opisu zbiorów. 45 00:05:04,440 --> 00:05:10,765 Są równiez inne sposoby na wytypowanie przeciętnej, typowej czy też środkowej wartości. 46 00:05:10,765 --> 00:05:23,812 Innym sposobem określenia typowej wartości jest mediana, zapiszę na różowo. 47 00:05:23,812 --> 00:05:28,024 Mediana oznacza dokładnie wartość środkową. 48 00:05:28,024 --> 00:05:32,764 Jeżeli posortowalibyśmy wszystkie nasze liczby i wyciągnelibyśmy tą, któa znajduje się w środku ciągu, to będzie nasza mediana. 49 00:05:32,764 --> 00:05:36,543 Jaka jest mediana dla naszego zbioru danych? 50 00:05:36,543 --> 00:05:48,641 Posortujmy najpierw nasz zbiór. 51 00:05:48,641 --> 00:05:52,691 Mamy 1, później kolejne 1, 3, 4, 6 i 7. Jaka jest środkowa liczba? 52 00:05:52,691 --> 00:06:02,765 Mamy parzystą ilość liczb, nie ma żadnej środkowej liczby, mamy dwie środkowe liczby. 53 00:06:02,765 --> 00:06:04,762 3 i 4. 54 00:06:04,762 --> 00:06:10,856 W przypadku gdy mamy dwie środkowe liczby, za medianę uznajemy liczbę leżącą w połowie odległości między nimi, 55 00:06:10,856 --> 00:06:14,842 średnią arymetyczną dwóch środkowych liczb. 56 00:06:14,842 --> 00:06:25,096 Tutaj medianą jest liczba pomiędzy 3 i 4, czyli 3.5. 57 00:06:25,096 --> 00:06:31,946 Jeżeli mamy parzystą ilość liczb, medianą jest średnia arytmetyczna dwóch środkowych liczb. 58 00:06:31,946 --> 00:06:35,761 Jeżeli mamy nieparzystą ilość liczb, to medianę łatwiej obliczyć. 59 00:06:35,761 --> 00:06:38,730 Zilustruję to przykładem. 60 00:06:38,730 --> 00:06:41,829 Załóżmy, że nasz posortowany zbiór danych wygląda następująco: 61 00:06:41,829 --> 00:06:57,723 0, 7, 50, 10 000, 1 000 000 62 00:06:57,723 --> 00:07:02,945 Trochę szalony zbiór danych, ale w tej sytuacji, co jest naszą medianą? 63 00:07:02,945 --> 00:07:08,249 Mamy 5 liczb, nieparzysta ilość, więc łatwiej jest wybrać środkową. 64 00:07:08,249 --> 00:07:14,476 Środkowa wartość jest większa od dwóch początkowych liczb i mniejsza od dwóch ostatnich. 65 00:07:14,476 --> 00:07:19,481 Jest dokładnie w środku, przez to naszą medianą jest 50. 66 00:07:19,481 --> 00:07:28,629 Trzecią miarą tendencji centralnej, prawdopodobnie najrzadziej używana miara to dominanta (moda). 67 00:07:28,629 --> 00:07:43,712 Brzmi jak coś bardzo złożonego, ale jak zobaczymy pod wieloma względami jest najprostsza z dzisiaj poznanych. Dominanta to najczęściej spotykana wartość w zbiorze danych. 68 00:07:43,712 --> 00:07:47,879 Jeżeli taka liczba istnieje. Jeżeli wszystkich liczb jest po tyle samo, wtedy nie ma dominanty. 69 00:07:47,879 --> 00:08:05,280 Co jest dominantą w naszym zbiorze? Mamy jedną 4, jedną 3, mamy dwie 1 oraz po jednej 6 i 7. 70 00:08:05,280 --> 00:08:17,690 Najczęściej pojawiającą się liczbą jest 1. Naszą dominantą jest więc 1. 71 00:08:17,690 --> 00:08:28,307 Widać, że są to różne sposoby na oszacowanie tendencji centralnej, wykorzystujące różne podejścia, 72 00:08:28,307 --> 00:08:31,012 każde sprawdzające się lepiej w innych zastosowaniach. 73 00:08:31,012 --> 00:08:33,508 Średnia arytmetyczna jest używana bardzo często, 74 00:08:33,508 --> 00:08:38,146 mediana jest przydatna gdy w zbiorze może się nam pojawić ogromna liczba, która może zdominować nam średnią arytmetyczną. 75 00:08:38,146 --> 00:08:45,647 Dominanta również może być przydatna w takich sytuacjach, szczególnie jeżeli mamy w zbiorze liczbę, która występuje wyraźnie częściej od pozostałych. 76 00:08:45,647 --> 00:08:52,700 Zostawię was tutaj, w następnym filmie zagłębimy się jeszcze bardziej w świat statystyki.