WEBVTT 00:00:00.550 --> 00:00:07.507 Chúng mình có tất cả 9 sinh viên ở trong một niên khoá ở một ngôi trường nhỏ. Và 9 sinh viên này vừa tốt nghiệp. 00:00:07.507 --> 00:00:07.757 00:00:07.757 --> 00:00:13.667 Và họ muốn tìm xu hướng trung tâm của tiền lương của 9 bạn sinh viên đó một năm sau khi tốt nghiệp. 00:00:13.667 --> 00:00:13.917 00:00:13.917 --> 00:00:19.766 Và họ cũng muốn tìm hiểu về độ lan toả xung quanh xu hướng trung tâm của tiền lương một năm sau khi tốt nghiệp. 00:00:19.766 --> 00:00:20.016 00:00:20.016 --> 00:00:23.445 Vì vậy họ sẽ ghi tất cả những tiền lương của 9 học sinh đó vào máy tính. 00:00:23.445 --> 00:00:25.380 Và đây chính là tiền lương của 9 học sinh. 00:00:25.380 --> 00:00:26.852 Và nó được đo bằng hàng nghìn nhé. 00:00:26.852 --> 00:00:30.377 Đây là 35 nghìn; 50 nghìn; 50 nghìn; 50 nghìn; 56 ngìn 00:00:30.377 --> 00:00:36.728 2 người làm được 60 nghìn; một người làm được 75 nghìn và một người làm được 250 nghìn. 00:00:36.728 --> 00:00:37.048 00:00:37.048 --> 00:00:40.583 Và rồi máy tính cho chúng mình các tham số ngay đây 00:00:40.583 --> 00:00:42.583 dựa vào những dữ liệu này. 00:00:43.441 --> 00:00:47.230 Và máy tính cho chúng mình 2 số đo điển hình của xu hướng trung tâm. 00:00:47.230 --> 00:00:49.824 Trung bình sẽ là khoảng 76.2. 00:00:49.824 --> 00:00:53.812 Máy vi tính sẽ tính trung bình bằng cách cộng 9 số này lại. 00:00:53.812 --> 00:00:55.849 Và rồi chia cho 9. 00:00:55.849 --> 00:00:59.646 Mình còn biết được trung vị là 56, và trung vị khá là dễ để tính. 00:00:59.646 --> 00:01:02.040 Bạn cần sắp xếp các số theo thứ tự 00:01:02.040 --> 00:01:05.873 và số ngay chính giữa trong trường hợp này là 56 sẽ là trung vị. 00:01:05.873 --> 00:01:08.021 Và mình muốn các bạn thử dừng video này lại, 00:01:08.021 --> 00:01:10.085 và đối với tập dữ liệu này, 00:01:10.085 --> 00:01:13.854 đối với tổng thể của các mức lương này, 00:01:13.854 --> 00:01:19.242 số đo nào của xu hướng trung tâm sẽ là số đo tốt hơn? 00:01:19.242 --> 00:01:21.172 Hãy cùng nghĩ về nó nhé! 00:01:21.172 --> 00:01:23.407 Mình sẽ vẽ nó lên đường thẳng ngay đây. 00:01:23.407 --> 00:01:25.574 Mình sẽ vẽ các dữ liệu lên biểu đồ này 00:01:25.574 --> 00:01:28.797 Mình không muốn các bạn chỉ xem đây là những con số, 00:01:28.797 --> 00:01:32.383 mà mình muốn bạn có thể thấy vị trí của các số này nằm ở đâu trên biểu đồ. 00:01:32.383 --> 00:01:32.633 00:01:32.633 --> 00:01:35.438 Mình sẽ cho ở đây là 0 nhé, 00:01:36.328 --> 00:01:41.545 và đây là 1, 2, 3, 4, 5 00:01:41.545 --> 00:01:51.384 Vậy ngay đây là 250, 50, 100, 150, 200, 00:01:51.384 --> 00:01:52.898 Để mình xem nào, 00:01:52.898 --> 00:01:56.370 nếu khoảng này là 50, 00:01:56.370 --> 00:01:58.984 thì 40 sẽ ở đây, mình đang ước chừng thôi nhé. 00:01:58.984 --> 00:02:03.244 Ngay đây sẽ là 60, 70, 80, 90. 00:02:03.244 --> 00:02:05.441 Mình có thể vẽ nó chính xác hơn một chút, 00:02:05.441 --> 00:02:08.208 60, 70, 80, 90. 00:02:08.953 --> 00:02:12.437 Để mình vẽ lại điểm ngay đây cho chính xác hơn luôn nhé, 00:02:12.437 --> 00:02:14.023 mình vẽ lại điểm 40 này, 00:02:14.023 --> 00:02:16.690 mình sẽ dời nó gần 50 hơn. 00:02:18.416 --> 00:02:22.049 Mình sẽ để nó ở đây nhé. 00:02:22.049 --> 00:02:23.571 Vậy là 40, 00:02:23.571 --> 00:02:27.081 và cái này sẽ là 30, 20, 10. 00:02:27.081 --> 00:02:28.516 Nó khá là chính xác rồi đấy. 00:02:28.516 --> 00:02:30.648 Hãy cùng đưa dữ liệu này vào biểu đồ nào! 00:02:30.648 --> 00:02:34.915 Có một học sinh kiếm được 35000, vậy là sẽ nằm ngay đây. 00:02:35.567 --> 00:02:38.411 Có 3 học sinh kiếm được 50000, 00:02:38.411 --> 00:02:41.958 Vậy là 1, 2, 3. 00:02:41.958 --> 00:02:43.770 Mình sẽ để như vậy. 00:02:43.770 --> 00:02:49.897 Có một học sinh kiếm được 56000, vậy là mình sẽ để ngay đây. 00:02:49.897 --> 00:02:54.204 Có 2 học sinh kiếm được 60000 và mình sẽ vẽ như vậy. 00:02:54.204 --> 00:02:54.454 00:02:54.454 --> 00:03:01.858 Có một học sinh kiếm được 75000, vậy là 60, 70, 75000 sẽ khoảng ngay đây. 00:03:01.858 --> 00:03:02.108 00:03:02.108 --> 00:03:04.173 Và có một học sinh kiếm được 250000, 00:03:04.173 --> 00:03:07.669 vậy là mình sẽ vẽ nó tận trên này. 00:03:07.669 --> 00:03:11.022 Và khi mình tính trung bình tức mình được 76,2. 00:03:11.022 --> 00:03:13.328 Nó là số đo xu hướng trung tâm của mình. 00:03:13.328 --> 00:03:16.646 Và 76,2 sẽ nằm ở ngay đây. 00:03:16.646 --> 00:03:20.847 Vậy liệu trung bình có phải là số đo thích hợp cho xu hướng trung tâm trong trường hợp này? 00:03:20.847 --> 00:03:23.027 Đối với mình, nó không thích hợp lắm. 00:03:23.027 --> 00:03:26.227 Nếu mình dùng trung bình làm số đo của xu hướng trung tâm 00:03:26.227 --> 00:03:29.172 thì nó sẽ cao hơn so với tất cả các điểm dữ liệu ngoại trừ một điểm. 00:03:29.172 --> 00:03:33.920 Và lý do là vì dữ liệu của chúng mình bị nghiêng khá nhiều 00:03:33.920 --> 00:03:38.138 tại vì điểm dữ liệu ngay đây, điểm 250 nghìn. 00:03:38.138 --> 00:03:41.108 Điểm này quá xa so với phần còn lại của phân phối. 00:03:41.108 --> 00:03:44.944 Nó quá xa so với các dữ liệu còn lại, vì vậy điểm này làm nghiêng trung bình của chúng mình. 00:03:44.944 --> 00:03:47.104 Và bạn sẽ thấy điều này ở dạng tổng quát. 00:03:47.104 --> 00:03:50.756 Nếu bạn có dữ liệu bị nghiêng và đặt biệt với các dữ liệu về tiền lương, 00:03:50.756 --> 00:03:53.470 phần lớn mọi người kiếm được 50, 60, 70 nghìn đô la. 00:03:53.470 --> 00:03:56.820 Nhưng lại có một người nào đó kiếm được 2 triệu đô la. 00:03:56.820 --> 00:04:02.751 Và điều đó sẽ làm trung bình bị nghiêng, khi bạn cộng tất cả dữ liệu lại và chia cho số điểm dữ liệu mà bạn có. 00:04:02.751 --> 00:04:03.001 00:04:03.001 --> 00:04:03.251 00:04:03.251 --> 00:04:07.551 Và trong trường hợp này, đặt biệt khi bạn có điểm dữ liệu mà làm trung bình bị nghiêng 00:04:07.551 --> 00:04:10.616 thì trung vị sẽ là số đo chuẩn xác hơn cho xu hướng trung tâm. 00:04:10.616 --> 00:04:13.492 Và trung vị là 56, sẽ nằm ở ngay đây, 00:04:13.492 --> 00:04:17.451 và trung vị sẽ biểu thị xu hướng trung tâm tốt hơn trong trường hợp này. 00:04:17.451 --> 00:04:18.743 Hãy nghĩ về nó nhé. 00:04:18.743 --> 00:04:21.579 Ngay cả khi thay đổi số tiền lương ngay đây, 00:04:21.579 --> 00:04:25.805 mình sẽ thêm 3 số 0 sau 250 nghìn đô la nữa, 00:04:25.805 --> 00:04:29.137 vậy sẽ là 250 triệu đô la, tức là sẽ rất nhiều tiền. 00:04:29.137 --> 00:04:32.402 Nó sẽ làm trung bình nghiêng đi rất nhiều, 00:04:32.402 --> 00:04:35.530 nhưng nó không ảnh hưởng đến trung vị nên trung vị sẽ không thay đổi. 00:04:35.530 --> 00:04:36.938 Vì đối với trung vị, 00:04:36.938 --> 00:04:39.684 mình không cần quan tâm là số ngay đây tăng lên bao nhiêu, 00:04:39.684 --> 00:04:39.934 00:04:39.934 --> 00:04:41.529 nó có thể là 1 tỷ đô. 00:04:41.529 --> 00:04:43.263 Và trung vị vẫn sẽ không đổi. 00:04:43.263 --> 00:04:47.898 Vì thế, trung vị sẽ là số đo chuẩn hơn vì nó đỡ bị ảnh hưởng khi bạn có một tập dữ liệu bị nghiêng. 00:04:47.898 --> 00:04:48.148 00:04:48.148 --> 00:04:51.838 Và sử dụng trung bình sẽ hợp lý hơn khi bạn có một tập dữ liệu đối xứng. 00:04:51.838 --> 00:04:56.306 Hoặc là bạn có một tập dữ liệu mà các số nằm xấp xỉ trên và dưới trung bình. 00:04:56.306 --> 00:04:56.556 00:04:56.556 --> 00:05:00.404 Hoặc là một tập dữ liệu mà không bị nghiêng quá nhiều về một hướng. 00:05:00.404 --> 00:05:00.654 00:05:00.654 --> 00:05:04.299 Như trong trường hợp này, tập dữ liệu đã bị nghiêng quá nhiều vì số 250 nghìn ngay đây. 00:05:04.299 --> 00:05:09.562 Vậy trong trường hợp này, sẽ tốt hơn rất nhiều khi bạn sử dụng trung vị làm số đo của xu hướng trung tâm. 00:05:09.562 --> 00:05:09.812 00:05:09.812 --> 00:05:11.660 Vậy còn đối với độ lan toả thì sao? 00:05:11.660 --> 00:05:13.508 Có thể bạn đã nghe mình nói rằng: 00:05:13.508 --> 00:05:16.375 "trung bình không tốt lắm trong trường hợp này" 00:05:16.375 --> 00:05:18.496 Và độ lệch chuẩn thì dựa vào trung bình. 00:05:18.496 --> 00:05:22.640 Mình lấy mỗi điểm dữ liệu, tìm khoảng cách từ trung bình, và bình phương nó lên. 00:05:22.640 --> 00:05:25.581 Mình làm như vậy với mỗi điểm dữ liệu và rồi cộng hết chúng lại. 00:05:25.581 --> 00:05:29.635 Rồi chia cho số điểm dữ liệu nếu mình đang tìm độ lệch chuẩn tổng thể 00:05:29.635 --> 00:05:34.306 và rồi mình căn bậc 2 tất cả những gì mình vừa tìm được. 00:05:34.306 --> 00:05:34.556 00:05:34.556 --> 00:05:36.909 Bởi vì độ lệch chuẩn dựa vào trung bình, 00:05:36.909 --> 00:05:41.162 và trung bình không phải là một số đo tốt cho xu hướng trung tâm trong trường hợp này, 00:05:41.162 --> 00:05:45.329 và điểm dữ liệu ngay đây, 250 nghìn đô la cũng sẽ làm nghiêng độ lệch chuẩn. 00:05:45.329 --> 00:05:48.682 Và vì vậy độ lệch chuẩn hay số đo độ lan toả trên biểu đồ này 00:05:48.682 --> 00:05:48.932 00:05:48.932 --> 00:05:53.448 sẽ lớn hơn rất nhiều so với khi bạn nhìn vào độ lan toả thực tế trên biểu đồ 00:05:53.448 --> 00:05:56.138 Sẽ có một điểm dữ liệu cách rất xa 00:05:56.138 --> 00:06:00.364 nó cách xa trung bình hay trung vị tuỳ theo cách mà bạn nghĩ về nó. 00:06:00.364 --> 00:06:03.100 Tuy nhiên, các điểm dữ liệu còn lại có vẽ như rất gần, 00:06:03.100 --> 00:06:04.665 và trong trường hợp đó, 00:06:04.665 --> 00:06:07.113 mình không chỉ sử dụng trung vị, 00:06:07.113 --> 00:06:11.528 mà mình còn có thể sử dụng khoảng tứ phân vị vì nó ít bị ảnh hưởng khi tập dữ liệu bị nghiêng. 00:06:11.528 --> 00:06:13.056 Và mình tìm nó như thế nào? 00:06:13.056 --> 00:06:15.325 Mình sẽ lấy trung vị của cả tập dữ liệu, 00:06:15.325 --> 00:06:18.978 và rồi mình lấy các số của nhóm dưới và tìm trung vị của chúng. 00:06:18.978 --> 00:06:20.837 Vậy nó sẽ là 50 ngay đây. 00:06:20.837 --> 00:06:24.880 Và rồi bạn lấy các số của nhóm trên, 00:06:24.880 --> 00:06:28.661 và trung vị ở đây, bằng 60 cộng 75 và chia cho 2, vậy là bằng 67,5. 00:06:28.661 --> 00:06:30.604 Nếu bạn thấy cái này hơi khó hiểu 00:06:30.604 --> 00:06:35.210 thì bạn có thể xem lại các video về khoảng tứ phân vị, tính độ lệch chuẩn, trung vị và trung bình. 00:06:35.210 --> 00:06:35.460 00:06:35.460 --> 00:06:35.710 00:06:35.710 --> 00:06:38.818 Và khoảng tứ trung vị sẽ bằng hiệu của 2 cái này, tức là bằng 17.5. 00:06:38.818 --> 00:06:42.965 Bạn có thể thấy, khoảng cách giữa 2 cái này là 17,5. 00:06:42.965 --> 00:06:44.908 khoảng tứ phân vị này sẽ không thay đổi 00:06:44.908 --> 00:06:48.203 kể cả khi 250.000 này tăng lên thành 250 tỉ đô. 00:06:48.203 --> 00:06:51.972 Và một lần nữa, trung vị và khoảng tứ phân vị, 00:06:51.972 --> 00:06:56.064 sẽ chính xác hơn vì nó đỡ bị ảnh hưởng khi chúng mình có tập dữ liệu bị nghiêng. 00:06:56.064 --> 00:06:58.640 Và điều quan trọng bạn cần ghi nhớ đó là, 00:06:58.640 --> 00:07:01.772 bạn có thể dùng trung bình và độ lệch chuẩn làm số đo 00:07:01.772 --> 00:07:04.100 nếu như bạn có một tập dữ liệu đối xứng 00:07:04.100 --> 00:07:06.963 và không có giá trị ngoại lai nào quá lớn làm nghiêng cả tập dữ liệu. 00:07:06.963 --> 00:07:10.508 Trong trường hợp đó, bạn hoàn toàn có thể sử dụng trung bình và độ lệch chuẩn. 00:07:10.508 --> 00:07:14.295 Nhưng nếu bạn có một tập dữ liệu bị nghiêng do các điểm dữ liệu, 00:07:14.295 --> 00:07:18.840 bạn nên sử dụng trung vị làm số đo của xu hướng trung tâm, 00:07:18.840 --> 00:07:19.090 00:07:19.090 --> 00:07:23.249 và bạn nên sử dụng khoảng tứ phân vị cho độ lan toả xung quanh xu hướng trung tâm. 00:07:23.249 --> 00:07:27.085 Vì vậy bạn sẽ thấy khi làm về tiền lương thì mọi người thường hay nói đến trung vị. 00:07:27.085 --> 00:07:27.335 00:07:27.335 --> 00:07:30.262 Bởi vì tiền lương có thể bị nghiêng đặc biệt là ở phía trên. 00:07:30.262 --> 00:07:32.407 Và khi có tập dữ liệu về giá nhà, 00:07:32.407 --> 00:07:35.674 thì bạn sẽ thấy mọi người thường sử dụng trung vị hơn là trung bình. 00:07:35.674 --> 00:07:40.568 Bởi vì nhiều nhà trong khu phố, hoặc nhà trong thành phố giá của chúng 00:07:40.568 --> 00:07:44.086 sẽ ở trong phạm vi 200 nghìn đô la, hay 300 nghìn đô la 00:07:44.086 --> 00:07:44.336 00:07:44.336 --> 00:07:48.174 Và có thể sẽ có một căn biệt thự to lớn nào đó có giá 100 triệu đô, 00:07:48.174 --> 00:07:51.450 và khi bạn tính trung bình, nó sẽ bị nghiêng và bạn sẽ có một cái nhìn thiếu chính xác 00:07:51.450 --> 00:07:55.767 về trung bình, hay xu hướng trung tâm của giá nhà ở trong thành phố.