-
W tym filmie chciałbym opowiedzieć o jednej
-
z najbardziej fundamentalnych i głębokich koncepcji w statystyce
-
i prawdopodobnie całej matematyce.
-
Chodzi o centralne twierdzenie graniczne.
-
Mówi nam o tym, że możemy wystartować z dowolnym
-
rozkładem, który posiada dobrze zdefiniowaną wartość oczekiwaną i wariancję.
-
Jeżeli posiada dobrze zdefiniowaną wariancję, to posiada również
-
dobrze zdefiniowane odchylenie standardowe.
-
I może to być rozkład ciągły lub dyskretny.
-
Narysuję dyskretny, ponieważ łatwiej go sobie wyobrazić,
-
przynajmniej na potrzeby tego filmu.
-
Załóżmy, że mam dyskretną funkcję określającą
-
rozkład prawdopodobieństwa.
-
Będę pilnował, żeby nie przypominała w żaden sposób
-
rozkładu normalnego, ponieważ chcę pokazać wam
-
potęgę centralnego twierdzenia granicznego.
-
Załóżmy, że mamy rozkład.
-
Załóżmy, że może przyjmować wartości od 1 do 6.
-
1, 2, 3, 4, 5, 6.
-
Jest to coś w rodzaju szalonej kostki.
-
Ma wysokie prawdopodobieństwo wypadnięcia 1,
-
krzywo narysowałem, poprawię -- mamy bardzo dużą szansę,
-
uzyskania 1, załóżmy że niemożliwym jest uzyskanie 2,
-
załóżmy że uzyskanie 3 lub 4 jest całkiem prawdopodobne.
-
Niemożliwa do uzyskania jest 5.
-
I załóżmy, że bardzo prawdopodobne jest uzyskanie 6.
-
To jest moja funkcja gęstości prawdopodobieństwa.
-
Jeżeli chciałbym zaznaczyć tutaj średnią, rozklad jest symetryczny,
-
więc średnia znajdowałaby się tutaj.
-
W połowie.
-
Tutaj znajdowałaby się moja średnia.
-
Odchylenie standardowe sięgałoby być może,
-
tak daleko w jedną i drugą stronę średniej.
-
To jest moja funkcja będąca rozkładem
-
gęstości prawdopodobieństwa.
-
Teraz, to co robię to zamiast tylko pobierać kolejne wartości
-
tej zmiennej losowej opisanej przez ten rozkład gęstości
-
prawdopodobieństwa. Będę pobierał kolejne wartości.
-
Ale będę uśredniał te wartości i później będę
-
obserwował częstotliwość wartości średnich, które będę uzyskiwał.
-
I gdy mówię o wartości średniej mam na myśli średnią arytmetyczną.
-
Zdefiniujmy najpierw parę rzeczy --
-
załóżmy, że moja próba będzie miała rozmiar, mogę wybrać tutaj dowolną liczbę,
-
ale powiedzmy, że spróbujemy z próbą wielkości 4.
-
Oznacza to, że za każdym razem będę wyciągał
-
4 wartości z tego rozkładu.
-
Załóżmy, że za pierwszym razem,
-
gdy wyciągam 4 wartości
-
uzyskuję 1, kolejną 1,
-
3 i 6.
-
Proszę bardzo, oto nasza pierwsza próbka o rozmiarze próby 4.
-
Rozumiem, że terminologia może zacząć się trochę mieszać,
-
ponieważ tutaj jest próba składająca się z 4 pojedynczych próbek.
-
Ale gdy mówimy o średniej z próby i procesie
-
próbkowania rozkładu o pewnej wartości średniej, o czym opowiemy sobie więcej
-
w kilku następnych filmach, to normalnie termin
-
próba tyczy się zbioru wartości pobranych z rozkładu.
-
A rozmiar próby mówi nam ile wartości
-
pobraliśmy z naszego rozkładu.
-
Można się łatwo zaplątać w terminologii,
-
ponieważ każda z tych wartości może być potrakowana jako jakaś próbka rozkładu.
-
Wyciągamy 4 wartości z rozkładu.
-
Mamy próbę wielkości 4.
-
Chcę teraz uśrednić te wartości.
-
Średnia pierwszej próbki
-
o wielkości 4 jest równa?
-
1 + 1 daje 2
-
2 + 3 daje 5.
-
5 + 6 daje 11.
-
11 podzielone przez 4 daje 2.75.
-
To jest średnia z naszej pierwszej próby rozmiaru 4.
-
Stwórzmy kolejną.
-
Moja kolejna próba wielkości 4.
-
Powiedzmy, że uzyskałem 3,4,kolejną 3
-
i na koniec 1.
-
Po prostu tym razem nie wylosowałem żadnej 6.
-
Zauważcie, że nie mogę uzyskać ani 2 ani 5.
-
Jest to niemożliwe w tym rozkładzie.
-
Szansa uzyskania 2 lub 5 jest równa zero.
-
Więc nie mogę mieć również i tutaj żadnej 2 i 5.
-
Dla drugiej próby wielkości 4,
-
średnia będzie równa 3 + 4 co daje 7,
-
7 + 3 co daje 10, + 1 daje 11.
-
11 podzielone przez 4 po raz kolejny daje 2.75.
-
Pozwólcie, że wezmę jeszcze jedną próbkę, chcę żeby było to jasne,
-
co tak naprawdę tutaj robimy.
-
Zrobię jeszcze jedną próbkę -- tak naprawdę powinniśmy powtarzać tą procedurę z miliard razy więcej,
-
ale pozwólcie że zrobię jeszcze jeden przykład bardziej szczegółowo.
-
Załóżmy, że moja trzecia próbka wielkości 4,
-
wyciągnę z rozkładu 4 wartości.
-
Czyli moja próba będzie złożona z 4 wartości pochodzących
-
z tej oryginalnej, nieco dziwacznej dystrybucji.
-
Załóżmy, że uzyskałem 1,1, 6 i 6.
-
Średnia z mojej trzeciej próbki będzie równa: 1 + 1 daje 2.
-
2 + 6 daje 8.
-
8 + 6 daje 14.
-
14 podzielone przez 4 daje 3.5
-
Udało mi się obliczyć średnią z każdej z próbek --
-
czyli dla każdej z moich prób wielkości 4 obliczyłem średnią --
-
każdą taką średnią próbki rozpiszę na rozkładzie częstości.
-
I zaskoczy to was w ciągu kilku sekund.
-
Zapiszę to wszystko na rozkładzie częstotliwości występowania.
-
W porządku, w mojej pierwszej próbie
-
średnia próby wynosiła 2.75.
-
Będę rysował na wykresie częstotliwość występowania poszczególnych średnich,
-
jakie uzyskam dla każdej z prób.
-
Za pierwszym razem uzyskałem 2.75.
-
Czyli zaznaczę tutaj na wykresie.
-
Wartość pochodzi z tej pierwszej próbki.
-
W następnej próbce również uzyskałem 2.75.
-
Więc 2.75 tutaj.
-
Uzyskaliśmy tą wartość dwukrotnie.
-
Dorysuję kolejne wystąpienie tutaj.
-
Następnie uzyskaliśmy 3.5.
-
Dorysuję tutaj wszystkie możliwe wartości. Mógłbym uzyskać 3,
-
3.25, 3.5.
-
Następnie uzyskałem 3.5, więc zaznaczę tutaj.
-
Będę kontynuował
-
pobieranie próbek.
-
Być może pozbieram ich 10 000.
-
Czyli będę dalej pobierał kolejne próby.
-
Aż uzbieram ich łącznie 10 000.
-
Czyli po prostu namnożę tych przykładów.
-
Jak to zacznie wyglądać z czasem?
-
Każdy z tych pojedynczych przykładów zaznaczę jako kropkę, inaczej musiałbym oddalić ekran.
-
Jeżeli przyglądalibyśmy się dalej temu wykresowi, to z czasem,
-
oczywiście nadal wartości przyjmowane przez kolejne próby będą w tym samym przedziale,
-
czyli 2.75 może być tutaj.
-
Czyli pierwsza kropka będzie znajdowała sie tutaj,
-
druga z kolei kropka będzie znajdowała się tutaj,
-
wartość z 3.5 będzie znajdowała się tutaj.
-
Ale ja chcę to powtórzyć 10 000 razy,
-
czyli będę miał 10 000 kropek.
-
I powiedzmy, że w miarę pobierania kolejnych próbek,
-
będziemy na tym wykresie dorysowywali kolejne kropki.
-
Będziemy uzupełniali częstotliwości występowania poszczególnych średnich.
-
I będziemy je ciągle dopisywać
-
na wykresie.
-
Zauważycie, że w miarę gdy zacznę wybierać coraz więcej
-
próbek wielkości 4,
-
zacznie się wyłaniać tutaj kształt
-
przybliżający krzywą rozkładu normalnego.
-
Każda z tych kropek reprezentuje pojawienie się konkretnej średniej z kolejnej próbki.
-
Więc jeżeli zwiększam wysokość tej kolumny,
-
to znaczy że kolejne losowane przez mnie próby mają średnią wartość 2.75.
-
Z czasem powstanie nam coś co zacznie
-
przybliżać rozkład normalny.
-
I to jest miła rzecz dotycząca centralnego twierdzenia granicznego.
-
Centralną granicą -- badaną dla --
-
na pomarańczowo, badaną dla n = 4.
-
To jest dla wielkości próbki równej 4.
-
Jeżeli zrobiłbym to samo dla wielkości próbki, powiedzmy 20.
-
W tym przypadku zamiast brać 4 wartości z pierwotnego,
-
nieco dziwacznego rozkładu, za każdym razem biorę
-
20 wartości i je uśredniam,
-
po czym zapisuję średnią na tym wykresie.
-
W tym przypadku uzyskamy rozkład, który będzie wyglądał
-
następująco.
-
Opowiemy o tym więcej w kolejnych filmach.
-
Ale jak się okazuje, jeżeli teraz narysuję 10 000 średnich z prób,
-
uzyskam kształt, który po pierwsze
-
będzie jeszcze lepiej przybliżał rozkład
-
normalny.
-
I zobaczymy w przyszłych filmach,
-
że będzie miał mniejszą -- zaznaczę to wyraźnie -- będzie
-
miał taką samą średnią.
-
To będzie średnia.
-
Będzie miał taką samą średnią.
-
Ale będzie miał mniejsze odchylenie standardowe.
-
Powinienem rysować te punkty od dołu do góry,
-
ponieważ w ten sposób tworzy się ta krzywa, poprzez dopisywanie kolejnych kropek nad poprzednimi.
-
Najpierw jedna, później kolejne nad nią.
-
Ten kształt będzie jednak przybliżał coraz bardziej
-
rozkład normalny.
-
W rzeczywistości -- i to jest genialne
-
w centralnym twierdzeniu granicznym -- w miarę gdy rozmiar próby rośnie coraz bardziej,
-
możemy nawet powiedzieć, że w miarę jak zbliża się do nieskończoności,
-
ale nie ma potrzeby zbliżać się zbytnio do nieskończoności
-
by dojść bardzo blisko do rozkładu normalnego.
-
Nawet dla próbek wielkości 10 lub 20,
-
będziemy uzyskiwać coś co będzie bardzo zbliżone do rozkładu normalnego.
-
W zasadzie podobne na tyle, że gołym okiem
-
ciężko będzie odróżnić od rozkładu normalnego.
-
Świetne jest to, że wystartowaliśmy od jakiegoś
-
szalonego rozkładu, prawda?
-
Który w żaden sposó nie przypomina rozkładu normalnego.
-
Ale jeżeli weźmiemy próbę wielkości -- to było dla n = 4 --
-
ale jeżeli weźmiemy próbę wielkości 10 lub nawet 100,
-
to znaczy będziemy wybierać po 100 wartości zamiast 4 i je będziemy uśredniać,
-
i na wykresie będziemy przedstawiać częstość ich występowania.
-
Następnie weźmiemy kolejną 100 elementową próbkę i wyciągniemy
-
z niej średnią i dopiszemy do wykresu.
-
I jeżeli powtórzylibyśmy to wielokrotnie... w zasadzie
-
jeżeli robilibyśmy to nieskończoną ilość razy --
-
szczególnie jeżeli mielibyśmy próbę o nieskończonej wielkości --
-
uzyskalibyśmy idealny rozkład normalny.
-
Szaleństwo :)
-
Nie stosuje się to tylko do średniej z próby.
-
Tutaj akurat bierzemy pod uwagę średnią z próby,
-
ale równie dobrze moglibyśmy brać pod uwagę zwykłą sumę wartości z próby.
-
Centralne twierdzenie graniczne nadal pozostawałoby w mocy.
-
I to właśnie jest superużyteczne w tym twierdzeniu.
-
Poneiważ w życiu jest cała masa procesów, gdzie
-
białka zderzają się ze sobą, ludzie robią różne dziwne rzeczy,
-
ludzie wchodzący między sobą w najdziwniejsze interakcje.
-
I nie wiemy jakie są rozkłady prawdopodobieństwa,
-
tych zjawisk czy też procesów.
-
Ale to o czym mówi nam centralne twierdzenie graniczne,
-
to jeżeli dodamy do siebie wiele różnych akcji,
-
zakładając, że są generowane z tego samego rozkładu lub jeżeli
-
uśrednimy te akcje i będziemy notować na wykresie
-
częstotliwość występowania poszczególnych średnich to uzyskamy
-
rozkład normalny.
-
Dlatego właśnie rozkład normalny tak często
-
przewija się w statystyce i jest dosyć dobrym przybliżeniem
-
sumy lub średniej wielu
-
procesów.
-
Rozkład normalny.
-
W następnym filmie pokażę,
-
że rzeczywistość właśnie w ten sposób się zachowuje.
-
Że jeżeli zwiększamy rozmiar próby,
-
zwiększamy nasze n i wyciągamy duże ilości średnich
-
otrzymamy wykres na któym częstotliwości występowania średnich
-
będą układać się w rozkład normalny.