-
trong video này, mình muốn nói về
-
khái nhiệm đơn giản nhưng ý nghĩa nhất trong thống kê
-
và có thể là trong toán học
-
đó là định lí giới hạn trung tâm
-
nó cho biết ta có thể
-
bắt đầu với bất kì sự phân phối nào có trung bình
-
và phương sai rõ ràng-- và
-
đô lệch tiêu chuẩn rõ ràng
-
nó có thể là phân phối liên tục hoặc rời rạc
-
mình vẽ phân phối rời rạc vì nó dễ hơn
-
ít nhất cho video này
-
mình có hàm phân phối
-
rời rạc
-
mình phải cẩn thận không làm
-
cho nó nhìn giống phân phối tiêu chuẩn
-
vì mình muốn cho bạn thấy tiềm năng của định lí
-
giới hạn trung tâm
-
mình có phân phối
-
nó có giá trị từ 1 tới 6
-
1,2,3,4,5,6
-
đó là xúc xắc
-
có khả năng được 1
-
để mình
-
vẽ đường thẳng
-
bạn có khả năng được 1 cao
-
không thể nào được 2
-
có khả năng sẽ được 3 hoặc 4
-
không thể nào được 5
-
khả năng được 6 sẽ rất cao
-
đó là hàm phân phối xác suất
-
còn trung bình
-
sẽ nhìn giống vầy
-
giữa đoạn
-
đó sẽ là trung bình
-
độ lệch tiêu chuẩn có thể
-
nhìn giống vầy-- nó sẽ cách trung bình
-
cỡ nhiêu đó trên và dưới
-
đó là hàm phân phối
-
rời rạc
-
giờ mình sẽ, thay vì lấy mẫu
-
của biến ngẫu nhiên
-
được mô tả bởi hàm phân phối xác suất này,
-
mình sẽ lấy mẫu của nó
-
nhưng tính trung bình của mẫu
-
rồi nhìn các mẫu này và xem
-
tần số của trung bình
-
khi mình nói trung bình, ý mình là trung bình
-
hãy định nghĩa vài thứ nào
-
kích thước mẫu-- mình chọn bất kì số nào ở đây
-
nhưng đầu tiên ta thử kích thước mẫu với n bằng 4
-
nó có nghĩa là mình sẽ lấy 4 mẫu
-
lần đầu tiên mình lấy 4 mẫu
-
vậy kích thước mẫu là 4-- mình được 1
-
thêm 1 nữa
-
được 3
-
được 6
-
đó là mẫu đầu tiên có kích thước là 4
-
mình biết tên gọi có thể hơi rối
-
vì đây là mẫu gồm 4 mẫu
-
nhưng khi ta nói về trung bình mẫu và phân phối
-
xác suất của trung bình mẫu,
-
ta sẽ nói nhiều hơn trong video sau,
-
thường thì mẫu sẽ đề cập đến tập hợp mẫu
-
từ phân phối của bạn
-
và kích thước mẫu cho bạn biết bạn lấy
-
bao nhiêu từ phân phối
-
nhưng thuật ngữ có thể hơi rối
-
vì bạn có thể coi cái này là mẫu
-
nhưng ta sẽ lấy 4 mẫu từ đó
-
mẫu kích thước là 4
-
mình sẽ tính trung bình của chúng
-
mình phải cẩn thận khi
-
nói trung bình
-
trung bình của mẫu kích cỡ 4 này là gì?
-
1 cộng 1 là2
-
2 cộng 3 là 5
-
5 cộng 6 là 11
-
11 chia 4 bằng 2,75
-
đó là trung bình mẫu đầu tiên
-
làm cái tiếp theo
-
mẫu thứ 2 có kích thước là 4, mình được 3, 4
-
mình được thêm 3 nữa
-
rồi được 1
-
mình không được 6 lần đó
-
và để ý mình không thể được 2 hoặc 5
-
không thể đối với phân phối này
-
khả năng được 2 hoặc 5 là 0
-
mình không thể được 2 hoặc 5 nào
-
cho mẫu kích thước là 4 thứ 2
-
trung bình mẫu sẽ bằng 3 cộng 4 là 7
-
cộng 3 là 10 cộng 1 là 11
-
chia 4 là 2,75
-
mình muốn làm rõ
-
ta đang làm gì
-
mình làm thêm nữa
-
ta sẽ làm thêm tỉ tỉ lần
-
nhưng mình sẽ làm chi tiết thêm 1 cái nữa
-
mẫu thứ 3 có kích thước là 4--
-
mình lấy 4 mẫu
-
4 mẫu
-
từ phân phối kì dị này
-
được 1, 1, 6 và 6
-
vậy trung bình sẽ bằng 1 cộng 1 là 2
-
cộng 6 là 8
-
cộng 6 là 14
-
14 chia 4 bằng 3 1/2
-
khi tính mỗi trung bình này
-
cho mỗi mẫu có kích thước là 4 này,
-
mình tính trung bình
-
mình sẽ biểu diễn chúng
-
trên biểu đồ phân phối xác suất
-
bạn sẽ ngạc nhiên liền
-
biểu diễn tất cả
-
với mẫu đầu tiên,
-
trung bình mẫu là 2,75
-
vậy mình vẽ tần số mẫu thực của trung bình mẫu
-
cho mỗi mẫu
-
2,75. được 1 lần
-
biểu diễn ở đây
-
đó
-
rồi tiếp theo, mình có 2,75
-
đó là 2,75
-
2 lần
-
mình biểu diễn tần số ở đó
-
rồi được 3 và 1/2
-
vậy với các giá trị này, mình có 3
-
mình có thể có 3,25, có 3 và 1/2
-
rồi có 3 và 1/2, biểu diễn ngay đây
-
và chắc chắn mình sẽ
-
tiếp tục lẫy mẫu này
-
có thể mình sẽ lấy 10000
-
tiếp tục lấy mẫu
-
lên tới 10000
-
làm 1 loạt
-
và dần dần, nó sẽ nhìn giống
-
mình sẽ biến nó thành chấm, vì mình
-
phải phóng to ra
-
dần dần-- nó vẫn
-
có tất cả các giá trị có thể có
-
2,75 có thể ở đây
-
chấm đầu tiên này sẽ là--
-
cái này sẽ ở ngay đây
-
và cái thứ 2 sẽ ở đây
-
rồi cái đó ở 3,5 sẽ nhìn như vầy
-
nhưng mình sẽ làm 10000 lần
-
vì mình có 10000 chấm
-
cho là khi mình làm, mình cứ tiếp tục biểu diễn
-
mấy tần số này
-
tiếp tục biểu diễn chúng
-
nữa và nữa
-
và bạn sẽ thấy
-
khi mình lấy nhiều mẫu kích cỡ 4, mình
-
sẽ có cái mà ước tính
-
phân phối tiêu chuẩn
-
vậy mỗi chấm này biểu diễn 1 trung bình mẫu
-
khi mình tiếp tục thêm vào cột này,
-
nghĩa là mình tiếp tục được trung bình mẫu là 2,75
-
dần dần
-
mình sẽ có cái
-
nhìn giống phân phối trung bình
-
và nó là cái hay của định lý giới hạn trung tâm
-
vậy màu cam là n bằng 4
-
đó là kích thước mẫu bằng 4
-
nếu mình làm tương tự với
-
mẫu kích cỡ 20-- thay vì chỉ lấy 4 mẫu
-
từ phân phối kì dị này, mỗi mẫu
-
mình lấy 20 biến ngẫu nhiên
-
và tính trung bình của 20 biến đó
-
rồi mình biểu diễn trung bình mẫu
-
mình sẽ có
-
phân phối nhìn giống vầy
-
và ta sẽ bàn luận về nó trong các video sau
-
nhưng hoá ra nếu mình vẽ 10000 trung bình
-
mẫu, mình sẽ có
-
2 cái-- nó sẽ gần giống với
-
phân phối tiêu chuẩn
-
và ta sẽ thấy trong video sau
-
để mình
-
làm rõ
-
nó sẽ có cùng trung bình
-
đó là trung bình
-
nó sẽ có cùng trung bình
-
nó sẽ có độ lệch tiêu chuẩn nhỏ hơn
-
mình nên vẽ từ dưới lên
-
vì bạn sẽ chồng chất nó
-
được 1, rồi được 1 số khác
-
nhưng cái này sẽ giống
-
phân phối tiêu chuẩn
-
đây là cái hay của định lý giới hạn
-
trung tâm
-
khi mẫu của bạn lớn hơn--
-
hoặc nó tiến tới vô cực
-
nhưng bạn không cần phải tiến tới
-
gần vô cực để được gần giống phân phối tiêu chuẩn
-
kể cả khi bạn có mẫu 10 hoặc 20,
-
bạn sẽ được gần giống phân phối tiêu chuẩn
-
thực ra là gần giống
-
với cái ta thấy mỗi ngày
-
nhưng cái hay là ta có thể bắt đầu với phân phối kì dị
-
nó không liên quan gì tới phân phối tiêu chuẩn
-
cái này có n bằng 4, nhưng nếu mình có mẫu kích thước n
-
bằng 10 hoặc 100,
-
ta sẽ sẽ lấy 100, thay vì 4,
-
và tính trung bình rồi biểu diễn chúng
-
tần số, rồi lấy 100 lần nữa, tính trung bình
-
biểu diễn lần nữa, và nếu ta
-
làm 1 loạt, thực ra
-
nếu ta làm vô hạn lần,
-
ta sẽ thấy
-
nhất là đối với mẫu có kích thước vô hạn
-
ta được phân phối tiêu chuẩn hoàn hảo
-
đó là cái hay
-
nó không chỉ áp dụng với mỗi việc lấy trung bình mẫu
-
ở đây ta lấy trung bình mẫu
-
nhưng bạn cũng có thể lấy tổng của mẫu
-
định lý giới hạn trung tâm vẫn dùng được
-
đó là cái hay của nó
-
trong đời sống, có nhiều loại quá trình,
-
protein va chạm nhau,
-
người ta làm chuyện điên khùng, con người tương tác kì lạ với nhau
-
và bạn không biết hàm phân phối xác suất
-
cho mấy chuyện này
-
định lý giới hạn trung tâm
-
cho ta biết nếu ta cộng 1 đống các hành động
-
này với nhau, giả sử chúng đều có cùng phân phối
-
hoặc nếu ta lấy trung bình của mấy hoạt động đó
-
nếu ta biểu diễn tần số của trung bình,
-
ta sẽ được phân phối tiêu chuẩn
-
đó là lí do phân phối tiêu chuẩn xuất hiện
-
nhiều trong thống kê và lí do nó
-
là sự ước tính tốt cho tổng
-
hoặc trung bình của rất nhiều quá trình
-
phân phối tiêu chuẩn
-
trong video sau, mình sẽ cho bạn thấy
-
khi bạn tăng
-
kích thước mẫu, khi tăng n,
-
và khi bạn lấy trung bình mẫu nhiều
-
bạn sẽ được tần số nhìn rất giống với
-
phân phối tiêu chuẩn