< Return to Video

Central Limit Theorem

  • 0:00 - 0:03
    W tym filmie chciałbym opowiedzieć o jednej
  • 0:03 - 0:07
    z najbardziej fundamentalnych i głębokich koncepcji w statystyce
  • 0:07 - 0:09
    i prawdopodobnie całej matematyce.
  • 0:09 - 0:10
    Chodzi o centralne twierdzenie graniczne.
  • 0:17 - 0:19
    Mówi nam o tym, że możemy wystartować z dowolnym
  • 0:19 - 0:22
    rozkładem, który posiada dobrze zdefiniowaną wartość oczekiwaną i wariancję.
  • 0:22 - 0:24
    Jeżeli posiada dobrze zdefiniowaną wariancję, to posiada również
  • 0:24 - 0:25
    dobrze zdefiniowane odchylenie standardowe.
  • 0:25 - 0:28
    I może to być rozkład ciągły lub dyskretny.
  • 0:28 - 0:30
    Narysuję dyskretny, ponieważ łatwiej go sobie wyobrazić,
  • 0:30 - 0:33
    przynajmniej na potrzeby tego filmu.
  • 0:33 - 0:35
    Załóżmy, że mam dyskretną funkcję określającą
  • 0:35 - 0:37
    rozkład prawdopodobieństwa.
  • 0:37 - 0:40
    Będę pilnował, żeby nie przypominała w żaden sposób
  • 0:40 - 0:42
    rozkładu normalnego, ponieważ chcę pokazać wam
  • 0:42 - 0:44
    potęgę centralnego twierdzenia granicznego.
  • 0:44 - 0:45
    Załóżmy, że mamy rozkład.
  • 0:45 - 0:47
    Załóżmy, że może przyjmować wartości od 1 do 6.
  • 0:47 - 0:51
    1, 2, 3, 4, 5, 6.
  • 0:51 - 0:53
    Jest to coś w rodzaju szalonej kostki.
  • 0:53 - 0:55
    Ma wysokie prawdopodobieństwo wypadnięcia 1,
  • 0:55 - 0:58
    krzywo narysowałem, poprawię -- mamy bardzo dużą szansę,
  • 0:58 - 1:01
    uzyskania 1, załóżmy że niemożliwym jest uzyskanie 2,
  • 1:01 - 1:03
    załóżmy że uzyskanie 3 lub 4 jest całkiem prawdopodobne.
  • 1:03 - 1:05
    Niemożliwa do uzyskania jest 5.
  • 1:05 - 1:08
    I załóżmy, że bardzo prawdopodobne jest uzyskanie 6.
  • 1:08 - 1:10
    To jest moja funkcja gęstości prawdopodobieństwa.
  • 1:10 - 1:13
    Jeżeli chciałbym zaznaczyć tutaj średnią, rozklad jest symetryczny,
  • 1:13 - 1:15
    więc średnia znajdowałaby się tutaj.
  • 1:15 - 1:16
    W połowie.
  • 1:16 - 1:18
    Tutaj znajdowałaby się moja średnia.
  • 1:18 - 1:20
    Odchylenie standardowe sięgałoby być może,
  • 1:20 - 1:23
    tak daleko w jedną i drugą stronę średniej.
  • 1:23 - 1:25
    To jest moja funkcja będąca rozkładem
  • 1:25 - 1:26
    gęstości prawdopodobieństwa.
  • 1:26 - 1:29
    Teraz, to co robię to zamiast tylko pobierać kolejne wartości
  • 1:29 - 1:33
    tej zmiennej losowej opisanej przez ten rozkład gęstości
  • 1:33 - 1:36
    prawdopodobieństwa. Będę pobierał kolejne wartości.
  • 1:36 - 1:39
    Ale będę uśredniał te wartości i później będę
  • 1:39 - 1:42
    obserwował częstotliwość wartości średnich, które będę uzyskiwał.
  • 1:42 - 1:43
    I gdy mówię o wartości średniej mam na myśli średnią arytmetyczną.
  • 1:43 - 1:46
    Zdefiniujmy najpierw parę rzeczy --
  • 1:46 - 1:49
    załóżmy, że moja próba będzie miała rozmiar, mogę wybrać tutaj dowolną liczbę,
  • 1:49 - 1:58
    ale powiedzmy, że spróbujemy z próbą wielkości 4.
  • 1:58 - 1:59
    Oznacza to, że za każdym razem będę wyciągał
  • 1:59 - 2:00
    4 wartości z tego rozkładu.
  • 2:00 - 2:03
    Załóżmy, że za pierwszym razem,
  • 2:03 - 2:04
    gdy wyciągam 4 wartości
  • 2:04 - 2:08
    uzyskuję 1, kolejną 1,
  • 2:08 - 2:11
    3 i 6.
  • 2:11 - 2:15
    Proszę bardzo, oto nasza pierwsza próbka o rozmiarze próby 4.
  • 2:15 - 2:17
    Rozumiem, że terminologia może zacząć się trochę mieszać,
  • 2:17 - 2:20
    ponieważ tutaj jest próba składająca się z 4 pojedynczych próbek.
  • 2:20 - 2:23
    Ale gdy mówimy o średniej z próby i procesie
  • 2:23 - 2:26
    próbkowania rozkładu o pewnej wartości średniej, o czym opowiemy sobie więcej
  • 2:26 - 2:30
    w kilku następnych filmach, to normalnie termin
  • 2:30 - 2:33
    próba tyczy się zbioru wartości pobranych z rozkładu.
  • 2:33 - 2:36
    A rozmiar próby mówi nam ile wartości
  • 2:36 - 2:37
    pobraliśmy z naszego rozkładu.
  • 2:37 - 2:40
    Można się łatwo zaplątać w terminologii,
  • 2:40 - 2:42
    ponieważ każda z tych wartości może być potrakowana jako jakaś próbka rozkładu.
  • 2:42 - 2:44
    Wyciągamy 4 wartości z rozkładu.
  • 2:44 - 2:46
    Mamy próbę wielkości 4.
  • 2:46 - 2:48
    Chcę teraz uśrednić te wartości.
  • 2:48 - 2:51
    Średnia pierwszej próbki
  • 2:51 - 2:55
    o wielkości 4 jest równa?
  • 2:55 - 2:56
    1 + 1 daje 2
  • 2:56 - 2:58
    2 + 3 daje 5.
  • 2:58 - 3:00
    5 + 6 daje 11.
  • 3:00 - 3:06
    11 podzielone przez 4 daje 2.75.
  • 3:06 - 3:11
    To jest średnia z naszej pierwszej próby rozmiaru 4.
  • 3:11 - 3:12
    Stwórzmy kolejną.
  • 3:12 - 3:14
    Moja kolejna próba wielkości 4.
  • 3:14 - 3:21
    Powiedzmy, że uzyskałem 3,4,kolejną 3
  • 3:21 - 3:22
    i na koniec 1.
  • 3:22 - 3:23
    Po prostu tym razem nie wylosowałem żadnej 6.
  • 3:23 - 3:25
    Zauważcie, że nie mogę uzyskać ani 2 ani 5.
  • 3:25 - 3:27
    Jest to niemożliwe w tym rozkładzie.
  • 3:27 - 3:29
    Szansa uzyskania 2 lub 5 jest równa zero.
  • 3:29 - 3:31
    Więc nie mogę mieć również i tutaj żadnej 2 i 5.
  • 3:31 - 3:38
    Dla drugiej próby wielkości 4,
  • 3:38 - 3:42
    średnia będzie równa 3 + 4 co daje 7,
  • 3:42 - 3:46
    7 + 3 co daje 10, + 1 daje 11.
  • 3:46 - 3:50
    11 podzielone przez 4 po raz kolejny daje 2.75.
  • 3:50 - 3:52
    Pozwólcie, że wezmę jeszcze jedną próbkę, chcę żeby było to jasne,
  • 3:52 - 3:53
    co tak naprawdę tutaj robimy.
  • 3:53 - 3:55
    Zrobię jeszcze jedną próbkę -- tak naprawdę powinniśmy powtarzać tą procedurę z miliard razy więcej,
  • 3:55 - 3:57
    ale pozwólcie że zrobię jeszcze jeden przykład bardziej szczegółowo.
  • 3:57 - 4:01
    Załóżmy, że moja trzecia próbka wielkości 4,
  • 4:01 - 4:03
    wyciągnę z rozkładu 4 wartości.
  • 4:03 - 4:06
    Czyli moja próba będzie złożona z 4 wartości pochodzących
  • 4:06 - 4:08
    z tej oryginalnej, nieco dziwacznej dystrybucji.
  • 4:08 - 4:13
    Załóżmy, że uzyskałem 1,1, 6 i 6.
  • 4:13 - 4:19
    Średnia z mojej trzeciej próbki będzie równa: 1 + 1 daje 2.
  • 4:19 - 4:20
    2 + 6 daje 8.
  • 4:20 - 4:22
    8 + 6 daje 14.
  • 4:22 - 4:27
    14 podzielone przez 4 daje 3.5
  • 4:30 - 4:33
    Udało mi się obliczyć średnią z każdej z próbek --
  • 4:33 - 4:37
    czyli dla każdej z moich prób wielkości 4 obliczyłem średnią --
  • 4:37 - 4:40
    każdą taką średnią próbki rozpiszę na rozkładzie częstości.
  • 4:40 - 4:44
    I zaskoczy to was w ciągu kilku sekund.
  • 4:44 - 4:46
    Zapiszę to wszystko na rozkładzie częstotliwości występowania.
  • 4:46 - 4:49
    W porządku, w mojej pierwszej próbie
  • 4:49 - 4:52
    średnia próby wynosiła 2.75.
  • 4:52 - 4:55
    Będę rysował na wykresie częstotliwość występowania poszczególnych średnich,
  • 4:55 - 4:56
    jakie uzyskam dla każdej z prób.
  • 4:56 - 4:59
    Za pierwszym razem uzyskałem 2.75.
  • 4:59 - 5:00
    Czyli zaznaczę tutaj na wykresie.
  • 5:00 - 5:02
    Wartość pochodzi z tej pierwszej próbki.
  • 5:02 - 5:05
    W następnej próbce również uzyskałem 2.75.
  • 5:05 - 5:07
    Więc 2.75 tutaj.
  • 5:07 - 5:08
    Uzyskaliśmy tą wartość dwukrotnie.
  • 5:08 - 5:10
    Dorysuję kolejne wystąpienie tutaj.
  • 5:10 - 5:11
    Następnie uzyskaliśmy 3.5.
  • 5:11 - 5:14
    Dorysuję tutaj wszystkie możliwe wartości. Mógłbym uzyskać 3,
  • 5:14 - 5:17
    3.25, 3.5.
  • 5:17 - 5:20
    Następnie uzyskałem 3.5, więc zaznaczę tutaj.
  • 5:20 - 5:21
    Będę kontynuował
  • 5:21 - 5:23
    pobieranie próbek.
  • 5:23 - 5:25
    Być może pozbieram ich 10 000.
  • 5:25 - 5:27
    Czyli będę dalej pobierał kolejne próby.
  • 5:27 - 5:30
    Aż uzbieram ich łącznie 10 000.
  • 5:30 - 5:31
    Czyli po prostu namnożę tych przykładów.
  • 5:31 - 5:34
    Jak to zacznie wyglądać z czasem?
  • 5:34 - 5:37
    Każdy z tych pojedynczych przykładów zaznaczę jako kropkę, inaczej musiałbym oddalić ekran.
  • 5:37 - 5:41
    Jeżeli przyglądalibyśmy się dalej temu wykresowi, to z czasem,
  • 5:41 - 5:43
    oczywiście nadal wartości przyjmowane przez kolejne próby będą w tym samym przedziale,
  • 5:43 - 5:45
    czyli 2.75 może być tutaj.
  • 5:45 - 5:49
    Czyli pierwsza kropka będzie znajdowała sie tutaj,
  • 5:49 - 5:52
    druga z kolei kropka będzie znajdowała się tutaj,
  • 5:52 - 5:57
    wartość z 3.5 będzie znajdowała się tutaj.
  • 5:57 - 5:58
    Ale ja chcę to powtórzyć 10 000 razy,
  • 5:58 - 5:59
    czyli będę miał 10 000 kropek.
  • 5:59 - 6:00
    I powiedzmy, że w miarę pobierania kolejnych próbek,
  • 6:00 - 6:02
    będziemy na tym wykresie dorysowywali kolejne kropki.
  • 6:02 - 6:04
    Będziemy uzupełniali częstotliwości występowania poszczególnych średnich.
  • 6:04 - 6:07
    I będziemy je ciągle dopisywać
  • 6:07 - 6:08
    na wykresie.
  • 6:08 - 6:10
    Zauważycie, że w miarę gdy zacznę wybierać coraz więcej
  • 6:10 - 6:13
    próbek wielkości 4,
  • 6:13 - 6:15
    zacznie się wyłaniać tutaj kształt
  • 6:15 - 6:18
    przybliżający krzywą rozkładu normalnego.
  • 6:18 - 6:22
    Każda z tych kropek reprezentuje pojawienie się konkretnej średniej z kolejnej próbki.
  • 6:22 - 6:25
    Więc jeżeli zwiększam wysokość tej kolumny,
  • 6:25 - 6:28
    to znaczy że kolejne losowane przez mnie próby mają średnią wartość 2.75.
  • 6:28 - 6:30
    Z czasem powstanie nam coś co zacznie
  • 6:30 - 6:33
    przybliżać rozkład normalny.
  • 6:33 - 6:36
    I to jest miła rzecz dotycząca centralnego twierdzenia granicznego.
  • 6:36 - 6:39
    Centralną granicą -- badaną dla --
  • 6:39 - 6:42
    na pomarańczowo, badaną dla n = 4.
  • 6:42 - 6:45
    To jest dla wielkości próbki równej 4.
  • 6:45 - 6:50
    Jeżeli zrobiłbym to samo dla wielkości próbki, powiedzmy 20.
  • 6:50 - 6:52
    W tym przypadku zamiast brać 4 wartości z pierwotnego,
  • 6:52 - 6:57
    nieco dziwacznego rozkładu, za każdym razem biorę
  • 6:57 - 7:00
    20 wartości i je uśredniam,
  • 7:00 - 7:03
    po czym zapisuję średnią na tym wykresie.
  • 7:03 - 7:05
    W tym przypadku uzyskamy rozkład, który będzie wyglądał
  • 7:05 - 7:07
    następująco.
  • 7:07 - 7:09
    Opowiemy o tym więcej w kolejnych filmach.
  • 7:09 - 7:13
    Ale jak się okazuje, jeżeli teraz narysuję 10 000 średnich z prób,
  • 7:13 - 7:15
    uzyskam kształt, który po pierwsze
  • 7:15 - 7:18
    będzie jeszcze lepiej przybliżał rozkład
  • 7:18 - 7:19
    normalny.
  • 7:19 - 7:20
    I zobaczymy w przyszłych filmach,
  • 7:20 - 7:24
    że będzie miał mniejszą -- zaznaczę to wyraźnie -- będzie
  • 7:24 - 7:26
    miał taką samą średnią.
  • 7:26 - 7:27
    To będzie średnia.
  • 7:27 - 7:29
    Będzie miał taką samą średnią.
  • 7:29 - 7:31
    Ale będzie miał mniejsze odchylenie standardowe.
  • 7:31 - 7:34
    Powinienem rysować te punkty od dołu do góry,
  • 7:34 - 7:34
    ponieważ w ten sposób tworzy się ta krzywa, poprzez dopisywanie kolejnych kropek nad poprzednimi.
  • 7:34 - 7:37
    Najpierw jedna, później kolejne nad nią.
  • 7:37 - 7:39
    Ten kształt będzie jednak przybliżał coraz bardziej
  • 7:39 - 7:40
    rozkład normalny.
  • 7:40 - 7:44
    W rzeczywistości -- i to jest genialne
  • 7:44 - 7:53
    w centralnym twierdzeniu granicznym -- w miarę gdy rozmiar próby rośnie coraz bardziej,
  • 7:53 - 7:55
    możemy nawet powiedzieć, że w miarę jak zbliża się do nieskończoności,
  • 7:55 - 7:58
    ale nie ma potrzeby zbliżać się zbytnio do nieskończoności
  • 7:58 - 7:59
    by dojść bardzo blisko do rozkładu normalnego.
  • 7:59 - 8:02
    Nawet dla próbek wielkości 10 lub 20,
  • 8:02 - 8:04
    będziemy uzyskiwać coś co będzie bardzo zbliżone do rozkładu normalnego.
  • 8:04 - 8:06
    W zasadzie podobne na tyle, że gołym okiem
  • 8:06 - 8:07
    ciężko będzie odróżnić od rozkładu normalnego.
  • 8:07 - 8:10
    Świetne jest to, że wystartowaliśmy od jakiegoś
  • 8:10 - 8:11
    szalonego rozkładu, prawda?
  • 8:11 - 8:14
    Który w żaden sposó nie przypomina rozkładu normalnego.
  • 8:14 - 8:16
    Ale jeżeli weźmiemy próbę wielkości -- to było dla n = 4 --
  • 8:16 - 8:20
    ale jeżeli weźmiemy próbę wielkości 10 lub nawet 100,
  • 8:20 - 8:23
    to znaczy będziemy wybierać po 100 wartości zamiast 4 i je będziemy uśredniać,
  • 8:23 - 8:25
    i na wykresie będziemy przedstawiać częstość ich występowania.
  • 8:25 - 8:27
    Następnie weźmiemy kolejną 100 elementową próbkę i wyciągniemy
  • 8:27 - 8:28
    z niej średnią i dopiszemy do wykresu.
  • 8:28 - 8:31
    I jeżeli powtórzylibyśmy to wielokrotnie... w zasadzie
  • 8:31 - 8:33
    jeżeli robilibyśmy to nieskończoną ilość razy --
  • 8:33 - 8:35
    szczególnie jeżeli mielibyśmy próbę o nieskończonej wielkości --
  • 8:35 - 8:38
    uzyskalibyśmy idealny rozkład normalny.
  • 8:38 - 8:39
    Szaleństwo :)
  • 8:39 - 8:42
    Nie stosuje się to tylko do średniej z próby.
  • 8:42 - 8:45
    Tutaj akurat bierzemy pod uwagę średnią z próby,
  • 8:45 - 8:47
    ale równie dobrze moglibyśmy brać pod uwagę zwykłą sumę wartości z próby.
  • 8:47 - 8:49
    Centralne twierdzenie graniczne nadal pozostawałoby w mocy.
  • 8:49 - 8:51
    I to właśnie jest superużyteczne w tym twierdzeniu.
  • 8:51 - 8:54
    Poneiważ w życiu jest cała masa procesów, gdzie
  • 8:54 - 8:57
    białka zderzają się ze sobą, ludzie robią różne dziwne rzeczy,
  • 8:57 - 9:01
    ludzie wchodzący między sobą w najdziwniejsze interakcje.
  • 9:01 - 9:03
    I nie wiemy jakie są rozkłady prawdopodobieństwa,
  • 9:03 - 9:04
    tych zjawisk czy też procesów.
  • 9:04 - 9:07
    Ale to o czym mówi nam centralne twierdzenie graniczne,
  • 9:07 - 9:10
    to jeżeli dodamy do siebie wiele różnych akcji,
  • 9:10 - 9:13
    zakładając, że są generowane z tego samego rozkładu lub jeżeli
  • 9:13 - 9:15
    uśrednimy te akcje i będziemy notować na wykresie
  • 9:15 - 9:18
    częstotliwość występowania poszczególnych średnich to uzyskamy
  • 9:18 - 9:19
    rozkład normalny.
  • 9:19 - 9:22
    Dlatego właśnie rozkład normalny tak często
  • 9:22 - 9:27
    przewija się w statystyce i jest dosyć dobrym przybliżeniem
  • 9:27 - 9:30
    sumy lub średniej wielu
  • 9:30 - 9:31
    procesów.
  • 9:31 - 9:34
    Rozkład normalny.
  • 9:34 - 9:36
    W następnym filmie pokażę,
  • 9:36 - 9:38
    że rzeczywistość właśnie w ten sposób się zachowuje.
  • 9:38 - 9:41
    Że jeżeli zwiększamy rozmiar próby,
  • 9:41 - 9:43
    zwiększamy nasze n i wyciągamy duże ilości średnich
  • 9:43 - 9:46
    otrzymamy wykres na któym częstotliwości występowania średnich
  • 9:46 - 9:48
    będą układać się w rozkład normalny.
Title:
Central Limit Theorem
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
09:49

Polish subtitles

Revisions