-
Trong vài video trước, ta đã tính tổng biến thiên của 9 điểm dữ liệu
-
và được 30, đó là tổng bình phương. Rồi ta tự hỏi
-
bao nhiêu biến thiên là do sự biến thiên trong mỗi nhóm với bao nhiêu biến thiên giữa các nhóm?
-
sự biến thiên trong các nhóm ta có tổng biến thiên trong các nhóm
-
và ta có 6
-
rồi cân bằng, 30, cân bằng của sự biến thiên này,
-
xuất hiện từ sự biến thiên giữa các nhóm và ta đã tính được
-
nó bằng 24
-
trong video này, mình muốn dùng thông tin đó
-
để suy luận thống kê
-
để đưa ra 1 vài kết luận hoặc không
-
mình sẽ đặt các nhóm này vào ngữ cảnh
-
ta đã xử lí chúng một cách trừu tượng, nhưng bạn có thể coi chúng
-
là kết quả thí nghiệm
-
cho là mình có 3 loại thuốc khác nhau hoặc 3 loại đồ ăn khác nhau để kiểm tra
-
và đây là điểm của bài kiểm tra
-
đây là đồ ăn 1, đồ ăn 2, rồi đồ ăn 3
-
và mình muốn tính liệu loại thức ăn có ảnh hưởng tới điểm của họ hay không
-
nếu bạn nhìn vào trung bình, có vẻ họ làm tốt nhất trong nhóm 3 hơn nhóm 2 hoặc 1
-
nhưng đó chỉ là sự khác biệt ngẫu nhiên phải không?
-
hoặc ta có chắc chắn đó là tại vì sự khác nhau
-
trong trung bình của tổng thể, của tất cả những người ăn loại đồ ăn 3 với 2 với 1 không?
-
câu hỏi là, các trung bình và trung bình thực của tổng thể có bằng nhau không?
-
đây là trung bình của 3 mẫu. nhưng nếu mình biết trung bình thực của tổng thể--
-
câu hỏi là: liệu trung bình của tổng thể của những người ăn đồ ăn 1 có bằng trung bình của loại đồ ăn 2 không?
-
rõ ràng là mình sẽ không thể đưa đồ ăn đó cho mỗi người
-
từng đang sống rồi bắt họ làm kiểm tra được
-
nhưng có trung bình thực, không chỉ là có thể đo được
-
câu hỏi là: "cái này" bằng "cái này" bằng trung bình là 3, trung bình tổng thể là 3
-
và câu hỏi là, chúng có bằng nhau không?
-
vì chúng không bằng nhau, nghĩa là loại đồ ăn có tác động tới
-
người ta làm bài tốt trên bài kiểm tra
-
vậy hãy kiểm tra giả thuyết. Đây là giả thuyết không
-
là trung bình đều bằng nhau. đồ ăn không ảnh hưởng
-
"đồ ăn không ảnh hưởng"
-
và giả thuyết thay thế là nó có ảnh hưởng. "có ảnh hưởng"
-
và cách nghĩ theo số lượng
-
là nếu nó không ảnh hưởng,
-
trung bình thực của tổng thể của các nhóm sẽ bằng nhau
-
trung bình thực của tổng thể của nhóm mà ăn loại đồ ăn 1 sẽ bằng
-
với nhóm ăn loại đồ ăn 2, bằng với nhóm ăn loại đồ ăn 3
-
nếu giả thuyết thay thế là đúng, mấy trung bình này sẽ không bằng nhau
-
ta kiểm tra bằng cách nào?
-
ta sẽ giả sử giả thuyết không, là cái ta luôn làm khi
-
kiểm tra giả thuyết
-
ta sẽ giả sử giả thuyết không
-
rồi tính khả năng được
-
số liệu lớn như vầy?
-
và mình chưa định nghĩa số liệu đó là gì
-
ta sẽ giả sử giả thuyết không
-
rồi tính số liệu gọi là số F
-
số F
-
sẽ có phân phối F-- và ta sẽ không đi chi tiết
-
về phân phối F, nhưng bạn có thể coi nó
-
là tỉ lệ của hai phân phối chi bình mà có hoặc không có mức độ tự do khác nhau
-
số liệu F sẽ bằng tỉ lệ của tổng bình phương giữa các mẫu--
-
tổng bình phương giữa
-
chia cho, mức độ tự do giữa
-
và thỉnh thoảng cái này được gọi là MSB,
-
chia cho tổng bình phương trong
-
vậy đó là SSW viết bằng màu xanh
-
chia cho SSW
-
chia cho mức độ tự do của SSW
-
bằng m(n-1), giờ hãy xét cái này đang làm gì
-
nếu số này, tử số, cao hơn mẫu số rất nhiều,
-
thì ta biết sự biến thiên trong dữ liệu này sẽ chủ yếu là vì
-
sự khác nhau giữa trung bình thực
-
và không phải vì sự biến thiên giữa các trung bình
-
nếu tử số này cao hơn mẫu số
-
ta nên tin là có sự khác biệt
-
trong trung bình thực của tổng thể
-
nếu số này rất lớn,
-
nó cho ta biết xác suất mà
-
giả thuyết không là đúng sẽ thấp hơn
-
nếu số này rất nhỏ và mẫu số lớn hơn,
-
nghĩa là sự biến thiên trong mỗi mẫu
-
dẫn đến phần lớn tổng sự biến thiên nhiều hơn là
-
sự biến thiên giữa các mẫu. nghĩa là sự biến thiên
-
giữa mỗi mẫu sẽ là tỉ lệ phần trăm tổng biến thiên
-
với biến thiên giữa các mẫu lớn hơn
-
ta sẽ tin là, bất kì sự khác biệt nào
-
giữa các trung bình đều chỉ là ngẫu nhiên
-
và như vậy thì sẽ khó loại giả thuyết không hơn
-
hãy tính nào
-
trong bài này, số SSB là 24
-
và ta có mức độ tự do là 2
-
và SSW là 6 và mức độ tự do là
-
6
-
cái này sẽ bằng 24/2 bằng 12, chia 1
-
số liệu F mà ta đã tính bằng 12
-
F nghĩa là Fischer - một nhà sinh học và số liệu học người đã nghĩ ra nó
-
vậy số liệu F bằng 12
-
ta sẽ thấy số này sẽ hơi lớn
-
mình quên đề cập là, với bất kì bài kiểm tra giả thuyết nào
-
ta sẽ cần mức độ quan trọng
-
cho là mức độ quan trọng
-
cho kiểm tra giả thuyết này là 10%
-
0,10 nghĩa là
-
nếu ta giả sử giả thuyết không, có
-
10% ít khả năng được kết quả mà ta có hơn,
-
được số liệu F này
-
khi đó ta sẽ loại giả thuyết không
-
vậy ta sẽ phải tính số liệu F
-
mà được giá trị lớn như vậy hoặc hơn nữa, là 10%
-
và nếu cái này lớn hơn #giá trị F quan trọng,
-
ta sẽ loại giả thuyết không,
-
nếu nó nhỏ hơn, ta không thể loại giả thuyết không
-
mình sẽ tính số liệu F,
-
nhưng ta phải hiểu là mỗi tổng bình phương
-
có phân phối chi bình. "cái này" có phân phối chi bình
-
và "cái này" có phân phối chi bình khác
-
đây là phân phối chi bình với mức độ tự do là 2,
-
đây là phân phối chi bình
-
với mức độ tự do là 6,
-
vậy phân phối F thực ra là tỉ lệ của 2 phân phối chi bình
-
đây là hình chụp từ 1 khoá học ở UCLA,
-
mình cần phải tìm bảng F để nhìn
-
phân phối F sẽ nhìn giống vầy
-
rõ ràng là nó khác
-
dựa trên mức độ tự do của tử số và mẫu số
-
có 2 mức độ tự do
-
mức độ tự do của tử và mức độ tự do của mẫu
-
hãy tính số liệu F
-
cho alpha bằng 0,10
-
và bạn sẽ thấy bảng F khác cho mỗi số alpha khác nhau,
-
mà mức độ tự do của tử số là 2, và mức độ tự do của mẫu số là 6
-
vậy bảng này là cho alpha 10%
-
hoặc 0,1, và mức độ tự do của tử số là 2 và mẫu số
-
là 6. vậy giá trị F quan trọng là 3,46
-
là giá trị này
-
giá trị ta có dựa vào dữ liệu lớn hơn rất nhiều,
-
rất nhiều. nó sẽ có giá tri p rất nhỏ
-
xác suất được một số lớn như vầy,
-
ngẫu nhiên, dựa theo giả thuyết không,
-
sẽ rất nhỏ. nó nhỏ hơn số liệu F quan trọng với
-
mức độ quan trọng là 10%
-
vì vậy, ta có thể loại giả thuyết không
-
nên, ta sẽ tin là
-
có sự khác nhau trong trung bình của tổng thể
-
có sự khác nhau trong phần làm bài
-
nếu bạn đưa họ các loại đồ ăn khác nhau