< Return to Video

ANOVA 3-Hypothesis Test with F-Statistic

  • 0:00 - 0:06
    Trong vài video trước, ta đã tính tổng biến thiên của 9 điểm dữ liệu
  • 0:06 - 0:12
    và được 30, đó là tổng bình phương. Rồi ta tự hỏi
  • 0:12 - 0:20
    bao nhiêu biến thiên là do sự biến thiên trong mỗi nhóm với bao nhiêu biến thiên giữa các nhóm?
  • 0:20 - 0:25
    sự biến thiên trong các nhóm ta có tổng biến thiên trong các nhóm
  • 0:25 - 0:27
    và ta có 6
  • 0:27 - 0:33
    rồi cân bằng, 30, cân bằng của sự biến thiên này,
  • 0:33 - 0:36
    xuất hiện từ sự biến thiên giữa các nhóm và ta đã tính được
  • 0:36 - 0:40
    nó bằng 24
  • 0:40 - 0:44
    trong video này, mình muốn dùng thông tin đó
  • 0:44 - 0:49
    để suy luận thống kê
  • 0:49 - 0:53
    để đưa ra 1 vài kết luận hoặc không
  • 0:53 - 0:57
    mình sẽ đặt các nhóm này vào ngữ cảnh
  • 0:57 - 1:00
    ta đã xử lí chúng một cách trừu tượng, nhưng bạn có thể coi chúng
  • 1:00 - 1:03
    là kết quả thí nghiệm
  • 1:03 - 1:12
    cho là mình có 3 loại thuốc khác nhau hoặc 3 loại đồ ăn khác nhau để kiểm tra
  • 1:12 - 1:14
    và đây là điểm của bài kiểm tra
  • 1:14 - 1:25
    đây là đồ ăn 1, đồ ăn 2, rồi đồ ăn 3
  • 1:25 - 1:33
    và mình muốn tính liệu loại thức ăn có ảnh hưởng tới điểm của họ hay không
  • 1:33 - 1:40
    nếu bạn nhìn vào trung bình, có vẻ họ làm tốt nhất trong nhóm 3 hơn nhóm 2 hoặc 1
  • 1:40 - 1:45
    nhưng đó chỉ là sự khác biệt ngẫu nhiên phải không?
  • 1:45 - 1:51
    hoặc ta có chắc chắn đó là tại vì sự khác nhau
  • 1:51 - 1:57
    trong trung bình của tổng thể, của tất cả những người ăn loại đồ ăn 3 với 2 với 1 không?
  • 1:57 - 2:04
    câu hỏi là, các trung bình và trung bình thực của tổng thể có bằng nhau không?
  • 2:04 - 2:10
    đây là trung bình của 3 mẫu. nhưng nếu mình biết trung bình thực của tổng thể--
  • 2:10 - 2:18
    câu hỏi là: liệu trung bình của tổng thể của những người ăn đồ ăn 1 có bằng trung bình của loại đồ ăn 2 không?
  • 2:18 - 2:22
    rõ ràng là mình sẽ không thể đưa đồ ăn đó cho mỗi người
  • 2:22 - 2:26
    từng đang sống rồi bắt họ làm kiểm tra được
  • 2:26 - 2:30
    nhưng có trung bình thực, không chỉ là có thể đo được
  • 2:30 - 2:36
    câu hỏi là: "cái này" bằng "cái này" bằng trung bình là 3, trung bình tổng thể là 3
  • 2:36 - 2:39
    và câu hỏi là, chúng có bằng nhau không?
  • 2:39 - 2:48
    vì chúng không bằng nhau, nghĩa là loại đồ ăn có tác động tới
  • 2:48 - 2:50
    người ta làm bài tốt trên bài kiểm tra
  • 2:50 - 2:55
    vậy hãy kiểm tra giả thuyết. Đây là giả thuyết không
  • 2:55 - 3:01
    là trung bình đều bằng nhau. đồ ăn không ảnh hưởng
  • 3:01 - 3:07
    "đồ ăn không ảnh hưởng"
  • 3:07 - 3:17
    và giả thuyết thay thế là nó có ảnh hưởng. "có ảnh hưởng"
  • 3:17 - 3:19
    và cách nghĩ theo số lượng
  • 3:19 - 3:21
    là nếu nó không ảnh hưởng,
  • 3:21 - 3:24
    trung bình thực của tổng thể của các nhóm sẽ bằng nhau
  • 3:24 - 3:29
    trung bình thực của tổng thể của nhóm mà ăn loại đồ ăn 1 sẽ bằng
  • 3:29 - 3:35
    với nhóm ăn loại đồ ăn 2, bằng với nhóm ăn loại đồ ăn 3
  • 3:35 - 3:41
    nếu giả thuyết thay thế là đúng, mấy trung bình này sẽ không bằng nhau
  • 3:41 - 3:43
    ta kiểm tra bằng cách nào?
  • 3:43 - 3:47
    ta sẽ giả sử giả thuyết không, là cái ta luôn làm khi
  • 3:47 - 3:50
    kiểm tra giả thuyết
  • 3:50 - 3:53
    ta sẽ giả sử giả thuyết không
  • 3:53 - 3:56
    rồi tính khả năng được
  • 3:56 - 3:59
    số liệu lớn như vầy?
  • 3:59 - 4:01
    và mình chưa định nghĩa số liệu đó là gì
  • 4:01 - 4:05
    ta sẽ giả sử giả thuyết không
  • 4:05 - 4:09
    rồi tính số liệu gọi là số F
  • 4:09 - 4:12
    số F
  • 4:12 - 4:17
    sẽ có phân phối F-- và ta sẽ không đi chi tiết
  • 4:17 - 4:19
    về phân phối F, nhưng bạn có thể coi nó
  • 4:19 - 4:24
    là tỉ lệ của hai phân phối chi bình mà có hoặc không có mức độ tự do khác nhau
  • 4:24 - 4:32
    số liệu F sẽ bằng tỉ lệ của tổng bình phương giữa các mẫu--
  • 4:32 - 4:37
    tổng bình phương giữa
  • 4:37 - 4:42
    chia cho, mức độ tự do giữa
  • 4:42 - 4:46
    và thỉnh thoảng cái này được gọi là MSB,
  • 4:46 - 4:52
    chia cho tổng bình phương trong
  • 4:52 - 4:57
    vậy đó là SSW viết bằng màu xanh
  • 4:57 - 5:01
    chia cho SSW
  • 5:01 - 5:08
    chia cho mức độ tự do của SSW
  • 5:08 - 5:12
    bằng m(n-1), giờ hãy xét cái này đang làm gì
  • 5:12 - 5:18
    nếu số này, tử số, cao hơn mẫu số rất nhiều,
  • 5:18 - 5:27
    thì ta biết sự biến thiên trong dữ liệu này sẽ chủ yếu là vì
  • 5:27 - 5:32
    sự khác nhau giữa trung bình thực
  • 5:32 - 5:36
    và không phải vì sự biến thiên giữa các trung bình
  • 5:36 - 5:41
    nếu tử số này cao hơn mẫu số
  • 5:41 - 5:46
    ta nên tin là có sự khác biệt
  • 5:46 - 5:47
    trong trung bình thực của tổng thể
  • 5:47 - 5:49
    nếu số này rất lớn,
  • 5:49 - 5:51
    nó cho ta biết xác suất mà
  • 5:51 - 5:54
    giả thuyết không là đúng sẽ thấp hơn
  • 5:54 - 5:59
    nếu số này rất nhỏ và mẫu số lớn hơn,
  • 5:59 - 6:02
    nghĩa là sự biến thiên trong mỗi mẫu
  • 6:02 - 6:05
    dẫn đến phần lớn tổng sự biến thiên nhiều hơn là
  • 6:05 - 6:07
    sự biến thiên giữa các mẫu. nghĩa là sự biến thiên
  • 6:07 - 6:13
    giữa mỗi mẫu sẽ là tỉ lệ phần trăm tổng biến thiên
  • 6:13 - 6:15
    với biến thiên giữa các mẫu lớn hơn
  • 6:15 - 6:18
    ta sẽ tin là, bất kì sự khác biệt nào
  • 6:18 - 6:21
    giữa các trung bình đều chỉ là ngẫu nhiên
  • 6:21 - 6:24
    và như vậy thì sẽ khó loại giả thuyết không hơn
  • 6:24 - 6:27
    hãy tính nào
  • 6:27 - 6:34
    trong bài này, số SSB là 24
  • 6:34 - 6:38
    và ta có mức độ tự do là 2
  • 6:38 - 6:50
    và SSW là 6 và mức độ tự do là
  • 6:50 - 6:53
    6
  • 6:53 - 6:59
    cái này sẽ bằng 24/2 bằng 12, chia 1
  • 6:59 - 7:06
    số liệu F mà ta đã tính bằng 12
  • 7:06 - 7:11
    F nghĩa là Fischer - một nhà sinh học và số liệu học người đã nghĩ ra nó
  • 7:11 - 7:15
    vậy số liệu F bằng 12
  • 7:15 - 7:18
    ta sẽ thấy số này sẽ hơi lớn
  • 7:18 - 7:20
    mình quên đề cập là, với bất kì bài kiểm tra giả thuyết nào
  • 7:20 - 7:22
    ta sẽ cần mức độ quan trọng
  • 7:22 - 7:25
    cho là mức độ quan trọng
  • 7:25 - 7:28
    cho kiểm tra giả thuyết này là 10%
  • 7:28 - 7:32
    0,10 nghĩa là
  • 7:32 - 7:36
    nếu ta giả sử giả thuyết không, có
  • 7:36 - 7:40
    10% ít khả năng được kết quả mà ta có hơn,
  • 7:40 - 7:42
    được số liệu F này
  • 7:42 - 7:45
    khi đó ta sẽ loại giả thuyết không
  • 7:45 - 7:49
    vậy ta sẽ phải tính số liệu F
  • 7:49 - 7:54
    mà được giá trị lớn như vậy hoặc hơn nữa, là 10%
  • 7:54 - 7:57
    và nếu cái này lớn hơn #giá trị F quan trọng,
  • 7:57 - 8:00
    ta sẽ loại giả thuyết không,
  • 8:00 - 8:01
    nếu nó nhỏ hơn, ta không thể loại giả thuyết không
  • 8:01 - 8:06
    mình sẽ tính số liệu F,
  • 8:06 - 8:09
    nhưng ta phải hiểu là mỗi tổng bình phương
  • 8:09 - 8:13
    có phân phối chi bình. "cái này" có phân phối chi bình
  • 8:13 - 8:15
    và "cái này" có phân phối chi bình khác
  • 8:15 - 8:18
    đây là phân phối chi bình với mức độ tự do là 2,
  • 8:18 - 8:21
    đây là phân phối chi bình
  • 8:21 - 8:24
    với mức độ tự do là 6,
  • 8:24 - 8:30
    vậy phân phối F thực ra là tỉ lệ của 2 phân phối chi bình
  • 8:30 - 8:35
    đây là hình chụp từ 1 khoá học ở UCLA,
  • 8:35 - 8:39
    mình cần phải tìm bảng F để nhìn
  • 8:39 - 8:42
    phân phối F sẽ nhìn giống vầy
  • 8:42 - 8:43
    rõ ràng là nó khác
  • 8:43 - 8:47
    dựa trên mức độ tự do của tử số và mẫu số
  • 8:47 - 8:49
    có 2 mức độ tự do
  • 8:49 - 8:53
    mức độ tự do của tử và mức độ tự do của mẫu
  • 8:53 - 8:57
    hãy tính số liệu F
  • 8:57 - 9:03
    cho alpha bằng 0,10
  • 9:03 - 9:07
    và bạn sẽ thấy bảng F khác cho mỗi số alpha khác nhau,
  • 9:07 - 9:12
    mà mức độ tự do của tử số là 2, và mức độ tự do của mẫu số là 6
  • 9:12 - 9:17
    vậy bảng này là cho alpha 10%
  • 9:17 - 9:24
    hoặc 0,1, và mức độ tự do của tử số là 2 và mẫu số
  • 9:24 - 9:30
    là 6. vậy giá trị F quan trọng là 3,46
  • 9:30 - 9:40
    là giá trị này
  • 9:40 - 9:44
    giá trị ta có dựa vào dữ liệu lớn hơn rất nhiều,
  • 9:44 - 9:46
    rất nhiều. nó sẽ có giá tri p rất nhỏ
  • 9:46 - 9:48
    xác suất được một số lớn như vầy,
  • 9:48 - 9:51
    ngẫu nhiên, dựa theo giả thuyết không,
  • 9:51 - 9:55
    sẽ rất nhỏ. nó nhỏ hơn số liệu F quan trọng với
  • 9:55 - 9:57
    mức độ quan trọng là 10%
  • 9:57 - 10:02
    vì vậy, ta có thể loại giả thuyết không
  • 10:02 - 10:04
    nên, ta sẽ tin là
  • 10:04 - 10:07
    có sự khác nhau trong trung bình của tổng thể
  • 10:07 - 10:10
    có sự khác nhau trong phần làm bài
  • 10:10 - 10:13
    nếu bạn đưa họ các loại đồ ăn khác nhau
Title:
ANOVA 3-Hypothesis Test with F-Statistic
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
10:14

Vietnamese subtitles

Incomplete

Revisions Compare revisions