1 00:00:00,550 --> 00:00:07,507 Chúng mình có tất cả 9 trong một khoá từ một ngôi trường nhỏ. Và 9 học sinh này vừa tốt nghiệp. 2 00:00:07,507 --> 00:00:07,757 3 00:00:07,757 --> 00:00:10,843 và đề bài muốn chúng mình tìm xu hướng trung tâm 4 00:00:10,843 --> 00:00:14,297 của tiền lương một năm sau khi tốt nghiệp. 5 00:00:14,297 --> 00:00:19,526 Và họ muốn biết về độ lan toả xu hướng trung tâm một năm sau khi tốt nghiệp. 6 00:00:19,526 --> 00:00:19,776 7 00:00:19,776 --> 00:00:23,445 Vì vậy họ sẽ ghi tất cả những tiền lương của 9 học sinh đó vào máy tính. 8 00:00:23,445 --> 00:00:25,380 Và đây chính là tiền lương của 9 học sinh. 9 00:00:25,380 --> 00:00:26,852 Và nó được đo bằng hàng nghìn nhé. 10 00:00:26,852 --> 00:00:30,377 Đây là 35,000; 50000; 50000; 50000; 56000 11 00:00:30,377 --> 00:00:36,728 2 người làm được 60,000; một người làm được 75,000 và một người làm được 250000. 12 00:00:36,728 --> 00:00:37,048 13 00:00:37,048 --> 00:00:40,583 Và rồi máy tính cho chúng mình các tham số ngay đây 14 00:00:40,583 --> 00:00:42,583 dựa vào những dữ liệu này. 15 00:00:43,441 --> 00:00:47,230 Và máy tính cho chúng mình 2 tham số điển hình của xu hướng trung tâm. 16 00:00:47,230 --> 00:00:49,824 Trung bình sẽ là khoảng 76.2. 17 00:00:49,824 --> 00:00:53,812 Máy vi tính sẽ tính trung bình bằng cách cộng 9 số này lại. 18 00:00:53,812 --> 00:00:55,849 Và rồi chia cho 9. 19 00:00:55,849 --> 00:00:59,646 Mình còn biết được trung vị là 56, và trung vị khá là dễ để tính. 20 00:00:59,646 --> 00:01:02,160 Bạn cần sắp xếp các số theo thứ tự từ bé đến lớn 21 00:01:02,160 --> 00:01:05,873 và số ngay chính giữa trong trường hợp này là 56 sẽ là trung vị. 22 00:01:05,873 --> 00:01:08,021 Và mình muốn các bạn thử dừng video này lại, 23 00:01:08,021 --> 00:01:10,085 và đối với tập dữ liệu này, 24 00:01:10,085 --> 00:01:13,854 đối với tổng thể các mức lương này, 25 00:01:13,854 --> 00:01:19,242 số đo nào của xu hướng trung tâm sẽ là số đo tốt hơn? 26 00:01:19,242 --> 00:01:21,172 Hãy cùng nghĩ về nó nhé! 27 00:01:21,172 --> 00:01:23,407 Mình sẽ vẽ nó lên đường thẳng ngay đây. 28 00:01:23,407 --> 00:01:25,574 Mình sẽ vẽ các dữ liệu lên biểu đồ này 29 00:01:25,574 --> 00:01:28,977 Mình không muốn các bạn chỉ xem đây là những con số, 30 00:01:28,977 --> 00:01:32,383 mà mình muốn bạn có thể thấy các con số này ở cạnh nhau 31 00:01:32,383 --> 00:01:32,633 32 00:01:32,633 --> 00:01:35,438 Mình sẽ cho ở đây là 0 nhé, 33 00:01:36,328 --> 00:01:39,575 và đây là 1, 2, 3, 4, 5 34 00:01:42,051 --> 00:01:50,116 Vậy ngay đây là 250, 50, 100, 150, 200, 35 00:01:51,384 --> 00:01:52,898 Để mình xem nào, 36 00:01:52,898 --> 00:01:56,370 nếu khoảng này là 50, 37 00:01:56,370 --> 00:01:58,984 thì 40 sẽ ở đây, mình đang ước chừng thôi nhé. 38 00:01:58,984 --> 00:02:03,244 Ngay đây sẽ là 60, 70, 80, 90. 39 00:02:03,244 --> 00:02:05,441 Mình có thể vẽ nó chính xác hơn một chút, 40 00:02:05,441 --> 00:02:08,208 60, 70, 80, 90. 41 00:02:08,953 --> 00:02:12,437 Để mình vẽ lại điểm ngay đây cho chính xác hơn luôn nhé, 42 00:02:12,437 --> 00:02:14,023 mình vẽ lại điểm 40 này, 43 00:02:14,023 --> 00:02:16,690 mình sẽ dời nó gần 50 hơn. 44 00:02:18,416 --> 00:02:22,049 Mình sẽ để nó ở đây nhé. 45 00:02:22,049 --> 00:02:27,081 Vậy là 40, và cái này sẽ là 30, 20, 10. 46 00:02:27,081 --> 00:02:28,516 Nó khá là chính xác rồi đấy. 47 00:02:28,516 --> 00:02:30,648 Hãy cùng đưa dữ liệu này vào biểu đồ nào! 48 00:02:30,648 --> 00:02:34,915 Có một học sinh kiếm được 35000, vậy là sẽ nằm ngay đây. 49 00:02:35,567 --> 00:02:38,411 Có 3 học sinh kiếm được 50000, 50 00:02:38,411 --> 00:02:41,958 Vậy là 1, 2, 3. 51 00:02:41,958 --> 00:02:43,770 Mình sẽ để như vậy. 52 00:02:43,770 --> 00:02:49,897 Có một học sinh kiếm được 56000, vậy là mình sẽ để ngay đây. 53 00:02:49,897 --> 00:02:54,204 Có 2 học sinh kiếm được 60000 và mình sẽ vẽ như vậy. 54 00:02:54,204 --> 00:02:54,454 55 00:02:54,454 --> 00:03:01,858 Có một học sinh kiếm được 75000, vậy là 60, 70, 75000 sẽ khoảng ngay đây. 56 00:03:01,858 --> 00:03:02,108 57 00:03:02,108 --> 00:03:04,173 Và có một học sinh kiếm được 250000, 58 00:03:04,173 --> 00:03:07,669 vậy là mình sẽ vẽ nó tận trên này. 59 00:03:07,669 --> 00:03:11,022 Và khi mình tính trung bình tức là 76,2. 60 00:03:11,022 --> 00:03:13,328 Nó là số đo xu hướng trung tâm của mình. 61 00:03:13,328 --> 00:03:16,646 Và 76,2 sẽ nằm ở ngay đây. 62 00:03:16,646 --> 00:03:20,847 Vậy liệu đây có phải là số đo thích hợp cho xu hướng trung tâm trong trường hợp này? 63 00:03:20,847 --> 00:03:22,567 Đối với mình, nó không thích hợp lắm. 64 00:03:22,567 --> 00:03:25,787 Bởi vì số đo này (trung bình - mean) của xu hướng trung tâm 65 00:03:25,787 --> 00:03:29,172 cao hơn so với tất cả các điểm dữ liệu ngoại trừ một điểm. 66 00:03:29,172 --> 00:03:33,920 Và lý do là vì dữ liệu của chúng mình bị nghiêng khá nhiều 67 00:03:33,920 --> 00:03:38,508 tại vì điểm dữ liệu ngay đây, điểm 250000. 68 00:03:38,508 --> 00:03:41,288 Điểm này quá xa so với phần còn lại của phân phối. 69 00:03:41,288 --> 00:03:45,574 Nó quá xa so với các dữ liệu còn lại, vì vậy điểm này làm nghiêng trung bình của chúng mình. 70 00:03:45,574 --> 00:03:46,894 Và 71 00:03:46,894 --> 00:03:50,426 Nếu bạn có dữ liệu bị nghiêng và đặt biệt với các dữ liệu về tiền lương, 72 00:03:50,426 --> 00:03:53,470 phần lớn mọi người kiếm được 50, 60, $70000. 73 00:03:53,470 --> 00:03:56,820 Nhưng lại có một người nào đó kiếm được 2,000,000 đô. 74 00:03:56,820 --> 00:04:02,751 Và điều đó sẽ làm nghiên trung bình, khi bạn cộng tất cả dữ liệu lại và chia cho số điểm dữ liệu mà bạn có. 75 00:04:02,751 --> 00:04:03,001 76 00:04:03,001 --> 00:04:03,251 77 00:04:03,251 --> 00:04:06,721 Và trong trường hợp này, đặt biệt khi bạn có dữ liệu mà làm nghiên trung bình, 78 00:04:06,721 --> 00:04:10,396 thì trung vị sẽ là số đo chuẩn xác hơn cho xu hướng trung tâm. 79 00:04:10,396 --> 00:04:13,492 Và trung vị là 56, sẽ nằm ở ngay đây, 80 00:04:13,492 --> 00:04:17,451 và trung vị sẽ biểu thị xu hướng trung tâm tốt hơn trong trường hợp này. 81 00:04:17,451 --> 00:04:18,743 Hãy nghĩ về nó nhé. 82 00:04:18,743 --> 00:04:21,579 Ngay cả khi thay đổi số tiền lương ngay đây, 83 00:04:21,579 --> 00:04:25,805 mình sẽ thêm 3 số 0 sau 250000 nữa, 84 00:04:25,805 --> 00:04:29,137 vậy sẽ là 250 triệu đô la, tức là sẽ rất nhiều tiền. 85 00:04:29,137 --> 00:04:32,402 Nó sẽ làm trung bình nghiên đi rất nhiều, 86 00:04:32,402 --> 00:04:35,530 nhưng nó không ảnh hưởng đến trung vị nên trung vị sẽ không thay đổi. 87 00:04:35,530 --> 00:04:36,938 Vì đối với trung vị, 88 00:04:36,938 --> 00:04:39,684 mình không cần quan tâm là số ngay đây tăng lên bao nhiêu, 89 00:04:39,684 --> 00:04:39,934 90 00:04:39,934 --> 00:04:41,529 nó có thể là 1 tỷ đô. 91 00:04:41,529 --> 00:04:43,263 Và trung vị vẫn sẽ không đổi. 92 00:04:43,263 --> 00:04:47,898 Vì thế, trung vị sẽ là số đo chuẩn hơn vì nó đỡ bị ảnh hưởng khi bạn có một tập dữ liệu bị nghiêng. 93 00:04:47,898 --> 00:04:48,148 94 00:04:48,148 --> 00:04:51,838 Và trung bình (mean) sẽ hợp lý hơn khi bạn có một tập dữ liệu đối xứng. 95 00:04:51,838 --> 00:04:56,306 Hoặc là bạn có một tập dữ liệu mà các số nằm xấp xỉ trên và dưới trung bình. 96 00:04:56,306 --> 00:04:56,556 97 00:04:56,556 --> 00:05:00,404 Hoặc là một tập dữ liệu mà các số không bị quá nghiêng về một hướng. 98 00:05:00,404 --> 00:05:00,654 99 00:05:00,654 --> 00:05:04,299 Và trong trường hợp này, tập dữ liệu đã bị nghiên quá nhiều vì số 250000 ngay đây. 100 00:05:04,299 --> 00:05:09,562 Vậy trong trường hợp này, sẽ tốt hơn rất nhiều khi bạn sử dụng trung vị làm số đo của xu hướng trung tâm. 101 00:05:09,562 --> 00:05:09,812 102 00:05:09,812 --> 00:05:11,660 Vậy còn đối với độ lan toả thì sao? 103 00:05:11,660 --> 00:05:13,508 Có thể bạn đã nghe mình nói rằng: 104 00:05:13,508 --> 00:05:16,375 "trung bình không tốt lắm" 105 00:05:16,375 --> 00:05:18,496 Và độ lệch chuẩn thì dựa vào trung bình. 106 00:05:18,496 --> 00:05:22,640 Mình lấy mỗi điểm dữ liệu, tìm khoảng cách từ trung bình, và bình phương nó lên. 107 00:05:22,640 --> 00:05:25,581 Mình làm như vậy với mỗi điểm dữ liệu và rồi cộng hết chúng lại. 108 00:05:25,581 --> 00:05:29,635 Rồi chia cho số điểm dữ liệu nếu mình đang tìm độ lệch chuẩn tổng thể 109 00:05:29,635 --> 00:05:34,306 và rồi mình căn bậc 2 tất cả những gì mình vừa tìm được. 110 00:05:34,306 --> 00:05:34,556 111 00:05:34,556 --> 00:05:36,909 Bởi vì độ lệch chuẩn dựa vào trung bình, 112 00:05:36,909 --> 00:05:41,402 và trung bình không phải là một số đo tốt cho xu hướng trung tâm trong trường hợp này, 113 00:05:41,402 --> 00:05:45,329 và điểm dữ liệu ngay đây, 250000 đô la sẽ làm nghiêng độ lệch chuẩn. 114 00:05:45,329 --> 00:05:47,938 Và vì vậy độ lệch chuẩn sẽ lớn hơn rất nhiều. 115 00:05:47,938 --> 00:05:49,842 Và khi bạn nhìn vào thực tế, 116 00:05:49,842 --> 00:05:53,448 khi bạn nhìn vào độ lan toả trên biểu đồ này, 117 00:05:53,448 --> 00:05:56,138 thì có một điểm dữ liệu cách rất xa 118 00:05:56,138 --> 00:06:00,364 trung bình hay trung vị tuỳ theo cách mà bạn nghĩ về nó. 119 00:06:00,364 --> 00:06:03,100 Tuy nhiên, các điểm dữ liệu còn lại có vẽ như rất gần, 120 00:06:03,100 --> 00:06:04,665 và trong trường hợp đó, 121 00:06:04,665 --> 00:06:07,113 mình không chỉ sử dụng trung vị, 122 00:06:07,113 --> 00:06:11,528 mà mình còn có thể sử dụng khoảng tứ phân vị vì nó ít bị ảnh hưởng khi tập dữ liệu bị nghiêng. 123 00:06:11,528 --> 00:06:13,056 Và mình tìm nó như thế nào? 124 00:06:13,056 --> 00:06:15,325 Mình sẽ lấy trung vị của cả tập dữ liệu, 125 00:06:15,325 --> 00:06:18,978 và rồi mình lấy các số của nhóm dưới và tìm trung vị của chúng. 126 00:06:18,978 --> 00:06:20,837 Vậy nó sẽ là 50 ngay đây. 127 00:06:20,837 --> 00:06:24,880 Và rồi bạn lấy các số của nhóm trên, 128 00:06:24,880 --> 00:06:28,931 và trung vị ở đây, bằng 60 cộng 75 và chia cho 2, vậy là bằng 67,5. 129 00:06:28,931 --> 00:06:30,914 Nếu bạn thấy cái này hơi khó hiểu 130 00:06:30,914 --> 00:06:32,828 thì bạn có thể xem lại các video về khoảng tứ phân vị, 131 00:06:32,828 --> 00:06:35,460 tính độ lệch chuẩn, trung vị và trung bình. 132 00:06:35,460 --> 00:06:35,710 133 00:06:35,710 --> 00:06:38,818 Và khoảng tứ trung vị sẽ bằng hiệu của 2 cái này, tức là bằng 17.5. 134 00:06:38,818 --> 00:06:42,965 Bạn có thể thấy, khoảng cách giữa 2 cái này là 17,5. 135 00:06:42,965 --> 00:06:44,908 khoảng tứ phân vị này sẽ không thay đổi 136 00:06:44,908 --> 00:06:48,203 kể cả khi 250.000 này tăng lên thành 250 tỉ đô. 137 00:06:48,203 --> 00:06:51,972 Và một lần nữa, trung vị và khoảng tứ phân vị, 138 00:06:51,972 --> 00:06:56,064 sẽ chính xác hơn vì nó đỡ bị ảnh hưởng khi chúng mình có tập dữ liệu bị nghiêng. 139 00:06:56,064 --> 00:06:58,640 Và điều quan trọng bạn cần ghi nhớ đó là, 140 00:06:58,640 --> 00:07:02,232 bạn có thể dùng trung bình và độ lệch chuẩn làm số đo 141 00:07:02,232 --> 00:07:04,320 nếu như bạn có một tập dữ liệu đối xứng 142 00:07:04,320 --> 00:07:07,193 và không có giá trị ngoại lai nào quá lớn làm nghiêng cả tập dữ liệu. 143 00:07:07,193 --> 00:07:10,278 Trong trường hợp đó, trung bình và độ lệch chuẩn có thể khá là đúng. 144 00:07:10,278 --> 00:07:13,845 Nhưng nếu bạn có một tập dữ liệu bị nghiêng do các điểm dữ liệu, 145 00:07:13,845 --> 00:07:18,840 bạn nên sử dụng trung vị làm số đo của xu hướng trung tâm, 146 00:07:18,840 --> 00:07:19,090 147 00:07:19,090 --> 00:07:23,249 và bạn nên sử dụng khoảng tứ phân vị cho độ lan toả xung quanh xu hướng trung tâm. 148 00:07:23,249 --> 00:07:27,085 Vì vậy bạn sẽ thấy khi làm về tiền lương thì mọi người thường hay nói đến trung vị. 149 00:07:27,085 --> 00:07:27,335 150 00:07:27,335 --> 00:07:30,262 Bởi vì tiền lương có thể bị nghiêng đặc biệt là ở phía trên. 151 00:07:30,262 --> 00:07:32,407 Và khi có tập dữ liệu về giá nhà, 152 00:07:32,407 --> 00:07:35,674 thì bạn sẽ thấy mọi người thường sử dụng trung vị hơn là trung bình. 153 00:07:35,674 --> 00:07:40,568 Bởi vì nhiều nhà trong khu phố, hoặc nhà trong thành phố giá của chúng 154 00:07:40,568 --> 00:07:42,986 sẽ ở trong phạm vi 200.000, 300.000. 155 00:07:42,986 --> 00:07:43,236 156 00:07:43,236 --> 00:07:48,174 Và có thể sẽ có một căn biệt thự to lớn nào đó có giá 100 triệu đô, 157 00:07:48,174 --> 00:07:51,450 và khi bạn tính trung bình, nó sẽ bị nghiêng và bạn sẽ có một cái nhìn thiếu chính xác 158 00:07:51,450 --> 00:07:55,767 về trung bình, hay xu hướng trung tâm của giá nhà ở trong thành phố.