WEBVTT 00:00:00.000 --> 00:00:06.400 Trong vài video trước, ta đã tính tổng biến thiên của 9 điểm dữ liệu 00:00:06.400 --> 00:00:11.533 và được 30, đó là tổng bình phương. Rồi ta tự hỏi 00:00:11.533 --> 00:00:19.533 bao nhiêu biến thiên là do sự biến thiên trong mỗi nhóm với bao nhiêu biến thiên giữa các nhóm? 00:00:19.533 --> 00:00:24.933 sự biến thiên trong các nhóm ta có tổng biến thiên trong các nhóm 00:00:24.933 --> 00:00:26.933 và ta có 6 00:00:26.933 --> 00:00:32.533 rồi cân bằng, 30, cân bằng của sự biến thiên này, 00:00:32.533 --> 00:00:36.333 xuất hiện từ sự biến thiên giữa các nhóm và ta đã tính được 00:00:36.333 --> 00:00:39.867 nó bằng 24 00:00:39.867 --> 00:00:43.600 trong video này, mình muốn dùng thông tin đó 00:00:43.600 --> 00:00:49.267 để suy luận thống kê 00:00:49.267 --> 00:00:53.200 để đưa ra 1 vài kết luận hoặc không 00:00:53.200 --> 00:00:56.867 mình sẽ đặt các nhóm này vào ngữ cảnh 00:00:56.867 --> 00:01:00.267 ta đã xử lí chúng một cách trừu tượng, nhưng bạn có thể coi chúng 00:01:00.267 --> 00:01:03.133 là kết quả thí nghiệm 00:01:03.133 --> 00:01:11.867 cho là mình có 3 loại thuốc khác nhau hoặc 3 loại đồ ăn khác nhau để kiểm tra 00:01:11.867 --> 00:01:13.933 và đây là điểm của bài kiểm tra 00:01:13.933 --> 00:01:25.333 đây là đồ ăn 1, đồ ăn 2, rồi đồ ăn 3 00:01:25.333 --> 00:01:33.400 và mình muốn tính liệu loại thức ăn có ảnh hưởng tới điểm của họ hay không 00:01:33.400 --> 00:01:40.267 nếu bạn nhìn vào trung bình, có vẻ họ làm tốt nhất trong nhóm 3 hơn nhóm 2 hoặc 1 00:01:40.267 --> 00:01:44.733 nhưng đó chỉ là sự khác biệt ngẫu nhiên phải không? 00:01:44.733 --> 00:01:50.600 hoặc ta có chắc chắn đó là tại vì sự khác nhau 00:01:50.600 --> 00:01:56.867 trong trung bình của tổng thể, của tất cả những người ăn loại đồ ăn 3 với 2 với 1 không? 00:01:56.867 --> 00:02:03.733 câu hỏi là, các trung bình và trung bình thực của tổng thể có bằng nhau không? 00:02:03.733 --> 00:02:10.333 đây là trung bình của 3 mẫu. nhưng nếu mình biết trung bình thực của tổng thể-- 00:02:10.333 --> 00:02:17.800 câu hỏi là: liệu trung bình của tổng thể của những người ăn đồ ăn 1 có bằng trung bình của loại đồ ăn 2 không? 00:02:17.800 --> 00:02:22.000 rõ ràng là mình sẽ không thể đưa đồ ăn đó cho mỗi người 00:02:22.000 --> 00:02:25.667 từng đang sống rồi bắt họ làm kiểm tra được 00:02:25.667 --> 00:02:30.000 nhưng có trung bình thực, không chỉ là có thể đo được 00:02:30.000 --> 00:02:35.667 câu hỏi là: "cái này" bằng "cái này" bằng trung bình là 3, trung bình tổng thể là 3 00:02:35.667 --> 00:02:38.933 và câu hỏi là, chúng có bằng nhau không? 00:02:38.933 --> 00:02:47.800 vì chúng không bằng nhau, nghĩa là loại đồ ăn có tác động tới 00:02:47.800 --> 00:02:50.067 người ta làm bài tốt trên bài kiểm tra 00:02:50.067 --> 00:02:55.000 vậy hãy kiểm tra giả thuyết. Đây là giả thuyết không 00:02:55.000 --> 00:03:01.267 là trung bình đều bằng nhau. đồ ăn không ảnh hưởng 00:03:01.267 --> 00:03:07.200 "đồ ăn không ảnh hưởng" 00:03:07.200 --> 00:03:17.000 và giả thuyết thay thế là nó có ảnh hưởng. "có ảnh hưởng" 00:03:17.000 --> 00:03:19.000 và cách nghĩ theo số lượng 00:03:19.000 --> 00:03:20.933 là nếu nó không ảnh hưởng, 00:03:20.933 --> 00:03:24.000 trung bình thực của tổng thể của các nhóm sẽ bằng nhau 00:03:24.000 --> 00:03:28.733 trung bình thực của tổng thể của nhóm mà ăn loại đồ ăn 1 sẽ bằng 00:03:28.733 --> 00:03:35.400 với nhóm ăn loại đồ ăn 2, bằng với nhóm ăn loại đồ ăn 3 00:03:35.400 --> 00:03:40.867 nếu giả thuyết thay thế là đúng, mấy trung bình này sẽ không bằng nhau 00:03:40.867 --> 00:03:43.067 ta kiểm tra bằng cách nào? 00:03:43.067 --> 00:03:47.200 ta sẽ giả sử giả thuyết không, là cái ta luôn làm khi 00:03:47.200 --> 00:03:49.800 kiểm tra giả thuyết 00:03:49.800 --> 00:03:52.600 ta sẽ giả sử giả thuyết không 00:03:52.600 --> 00:03:56.267 rồi tính khả năng được 00:03:56.267 --> 00:03:59.267 số liệu lớn như vầy? 00:03:59.267 --> 00:04:01.200 và mình chưa định nghĩa số liệu đó là gì 00:04:01.200 --> 00:04:05.267 ta sẽ giả sử giả thuyết không 00:04:05.267 --> 00:04:08.667 rồi tính số liệu gọi là số F 00:04:08.667 --> 00:04:11.933 số F 00:04:11.933 --> 00:04:16.600 sẽ có phân phối F-- và ta sẽ không đi chi tiết 00:04:16.600 --> 00:04:19.067 về phân phối F, nhưng bạn có thể coi nó 00:04:19.067 --> 00:04:23.800 là tỉ lệ của hai phân phối chi bình mà có hoặc không có mức độ tự do khác nhau 00:04:23.800 --> 00:04:31.933 số liệu F sẽ bằng tỉ lệ của tổng bình phương giữa các mẫu-- 00:04:31.933 --> 00:04:37.067 tổng bình phương giữa 00:04:37.067 --> 00:04:41.733 chia cho, mức độ tự do giữa 00:04:41.733 --> 00:04:46.333 và thỉnh thoảng cái này được gọi là MSB, 00:04:46.333 --> 00:04:52.333 chia cho tổng bình phương trong 00:04:52.333 --> 00:04:56.533 vậy đó là SSW viết bằng màu xanh 00:04:56.533 --> 00:05:01.133 chia cho SSW 00:05:01.133 --> 00:05:07.800 chia cho mức độ tự do của SSW 00:05:07.800 --> 00:05:12.267 bằng m(n-1), giờ hãy xét cái này đang làm gì 00:05:12.267 --> 00:05:18.333 nếu số này, tử số, cao hơn mẫu số rất nhiều, 00:05:18.333 --> 00:05:27.333 thì ta biết sự biến thiên trong dữ liệu này sẽ chủ yếu là vì 00:05:27.333 --> 00:05:31.600 sự khác nhau giữa trung bình thực 00:05:31.600 --> 00:05:35.933 và không phải vì sự biến thiên giữa các trung bình 00:05:35.933 --> 00:05:40.867 nếu tử số này cao hơn mẫu số 00:05:40.867 --> 00:05:45.733 ta nên tin là có sự khác biệt 00:05:45.733 --> 00:05:47.200 trong trung bình thực của tổng thể 00:05:47.200 --> 00:05:48.733 nếu số này rất lớn, 00:05:48.733 --> 00:05:51.333 nó cho ta biết xác suất mà 00:05:51.333 --> 00:05:53.600 giả thuyết không là đúng sẽ thấp hơn 00:05:53.600 --> 00:05:58.533 nếu số này rất nhỏ và mẫu số lớn hơn, 00:05:58.533 --> 00:06:02.067 nghĩa là sự biến thiên trong mỗi mẫu 00:06:02.067 --> 00:06:05.467 dẫn đến phần lớn tổng sự biến thiên nhiều hơn là 00:06:05.467 --> 00:06:07.333 sự biến thiên giữa các mẫu. nghĩa là sự biến thiên 00:06:07.333 --> 00:06:12.733 giữa mỗi mẫu sẽ là tỉ lệ phần trăm tổng biến thiên 00:06:12.733 --> 00:06:15.200 với biến thiên giữa các mẫu lớn hơn 00:06:15.200 --> 00:06:17.800 ta sẽ tin là, bất kì sự khác biệt nào 00:06:17.800 --> 00:06:21.000 giữa các trung bình đều chỉ là ngẫu nhiên 00:06:21.000 --> 00:06:24.400 và như vậy thì sẽ khó loại giả thuyết không hơn 00:06:24.400 --> 00:06:26.867 hãy tính nào 00:06:26.867 --> 00:06:34.200 trong bài này, số SSB là 24 00:06:34.200 --> 00:06:37.933 và ta có mức độ tự do là 2 00:06:37.933 --> 00:06:49.800 và SSW là 6 và mức độ tự do là 00:06:49.800 --> 00:06:52.667 6 00:06:52.667 --> 00:06:58.600 cái này sẽ bằng 24/2 bằng 12, chia 1 00:06:58.600 --> 00:07:05.867 số liệu F mà ta đã tính bằng 12 00:07:05.867 --> 00:07:10.867 F nghĩa là Fischer - một nhà sinh học và số liệu học người đã nghĩ ra nó 00:07:10.867 --> 00:07:15.267 vậy số liệu F bằng 12 00:07:15.267 --> 00:07:18.067 ta sẽ thấy số này sẽ hơi lớn 00:07:18.067 --> 00:07:19.800 mình quên đề cập là, với bất kì bài kiểm tra giả thuyết nào 00:07:19.800 --> 00:07:22.267 ta sẽ cần mức độ quan trọng 00:07:22.267 --> 00:07:24.733 cho là mức độ quan trọng 00:07:24.733 --> 00:07:28.333 cho kiểm tra giả thuyết này là 10% 00:07:28.333 --> 00:07:32.267 0,10 nghĩa là 00:07:32.267 --> 00:07:36.200 nếu ta giả sử giả thuyết không, có 00:07:36.200 --> 00:07:40.067 10% ít khả năng được kết quả mà ta có hơn, 00:07:40.067 --> 00:07:41.667 được số liệu F này 00:07:41.667 --> 00:07:44.800 khi đó ta sẽ loại giả thuyết không 00:07:44.800 --> 00:07:48.667 vậy ta sẽ phải tính số liệu F 00:07:48.667 --> 00:07:54.000 mà được giá trị lớn như vậy hoặc hơn nữa, là 10% 00:07:54.000 --> 00:07:57.133 và nếu cái này lớn hơn #giá trị F quan trọng, 00:07:57.133 --> 00:07:59.533 ta sẽ loại giả thuyết không, 00:07:59.533 --> 00:08:01.400 nếu nó nhỏ hơn, ta không thể loại giả thuyết không 00:08:01.400 --> 00:08:06.267 mình sẽ tính số liệu F, 00:08:06.267 --> 00:08:09.067 nhưng ta phải hiểu là mỗi tổng bình phương 00:08:09.067 --> 00:08:12.533 có phân phối chi bình. "cái này" có phân phối chi bình 00:08:12.533 --> 00:08:15.200 và "cái này" có phân phối chi bình khác 00:08:15.200 --> 00:08:17.533 đây là phân phối chi bình với mức độ tự do là 2, 00:08:17.533 --> 00:08:21.333 đây là phân phối chi bình 00:08:21.333 --> 00:08:24.067 với mức độ tự do là 6, 00:08:24.067 --> 00:08:29.800 vậy phân phối F thực ra là tỉ lệ của 2 phân phối chi bình 00:08:29.800 --> 00:08:34.933 đây là hình chụp từ 1 khoá học ở UCLA, 00:08:34.933 --> 00:08:38.533 mình cần phải tìm bảng F để nhìn 00:08:38.533 --> 00:08:41.800 phân phối F sẽ nhìn giống vầy 00:08:41.800 --> 00:08:43.267 rõ ràng là nó khác 00:08:43.267 --> 00:08:46.600 dựa trên mức độ tự do của tử số và mẫu số 00:08:46.600 --> 00:08:49.200 có 2 mức độ tự do 00:08:49.200 --> 00:08:52.533 mức độ tự do của tử và mức độ tự do của mẫu 00:08:52.533 --> 00:08:56.933 hãy tính số liệu F 00:08:56.933 --> 00:09:02.867 cho alpha bằng 0,10 00:09:02.867 --> 00:09:06.533 và bạn sẽ thấy bảng F khác cho mỗi số alpha khác nhau, 00:09:06.533 --> 00:09:11.933 mà mức độ tự do của tử số là 2, và mức độ tự do của mẫu số là 6 00:09:11.933 --> 00:09:17.400 vậy bảng này là cho alpha 10% 00:09:17.400 --> 00:09:23.733 hoặc 0,1, và mức độ tự do của tử số là 2 và mẫu số 00:09:23.733 --> 00:09:30.133 là 6. vậy giá trị F quan trọng là 3,46 00:09:30.133 --> 00:09:40.000 là giá trị này 00:09:40.000 --> 00:09:43.533 giá trị ta có dựa vào dữ liệu lớn hơn rất nhiều, 00:09:43.533 --> 00:09:46.267 rất nhiều. nó sẽ có giá tri p rất nhỏ 00:09:46.267 --> 00:09:48.000 xác suất được một số lớn như vầy, 00:09:48.000 --> 00:09:50.667 ngẫu nhiên, dựa theo giả thuyết không, 00:09:50.667 --> 00:09:54.733 sẽ rất nhỏ. nó nhỏ hơn số liệu F quan trọng với 00:09:54.733 --> 00:09:56.933 mức độ quan trọng là 10% 00:09:56.933 --> 00:10:01.733 vì vậy, ta có thể loại giả thuyết không 00:10:01.733 --> 00:10:04.400 nên, ta sẽ tin là 00:10:04.400 --> 00:10:06.600 có sự khác nhau trong trung bình của tổng thể 00:10:06.600 --> 00:10:09.600 có sự khác nhau trong phần làm bài 00:10:09.600 --> 00:10:13.467 nếu bạn đưa họ các loại đồ ăn khác nhau