-
Chúng mình có tất cả 9 sinh viên ở trong một niên khoá ở một ngôi trường nhỏ. Và 9 sinh viên này vừa tốt nghiệp.
-
-
Và họ muốn tìm xu hướng trung tâm của tiền lương của 9 bạn sinh viên đó một năm sau khi tốt nghiệp.
-
-
Và họ cũng muốn tìm hiểu về độ lan toả xung quanh xu hướng trung tâm của tiền lương một năm sau khi tốt nghiệp.
-
-
Vì vậy họ sẽ ghi tất cả những tiền lương của 9 học sinh đó vào máy tính.
-
Và đây chính là tiền lương của 9 học sinh.
-
Và nó được đo bằng hàng nghìn nhé.
-
Đây là 35 nghìn; 50 nghìn; 50 nghìn; 50 nghìn; 56 ngìn
-
2 người làm được 60 nghìn; một người làm được 75 nghìn và một người làm được 250 nghìn.
-
-
Và rồi máy tính cho chúng mình các tham số ngay đây
-
dựa vào những dữ liệu này.
-
Và máy tính cho chúng mình 2 số đo điển hình của xu hướng trung tâm.
-
Trung bình sẽ là khoảng 76.2.
-
Máy vi tính sẽ tính trung bình bằng cách cộng 9 số này lại.
-
Và rồi chia cho 9.
-
Mình còn biết được trung vị là 56, và trung vị khá là dễ để tính.
-
Bạn cần sắp xếp các số theo thứ tự
-
và số ngay chính giữa trong trường hợp này là 56 sẽ là trung vị.
-
Và mình muốn các bạn thử dừng video này lại,
-
và đối với tập dữ liệu này,
-
đối với tổng thể của các mức lương này,
-
số đo nào của xu hướng trung tâm sẽ là số đo tốt hơn?
-
Hãy cùng nghĩ về nó nhé!
-
Mình sẽ vẽ nó lên đường thẳng ngay đây.
-
Mình sẽ vẽ các dữ liệu lên biểu đồ này
-
Mình không muốn các bạn chỉ xem đây là những con số,
-
mà mình muốn bạn có thể thấy vị trí của các số này nằm ở đâu trên biểu đồ.
-
-
Mình sẽ cho ở đây là 0 nhé,
-
và đây là 1, 2, 3, 4, 5
-
Vậy ngay đây là 250, 50, 100, 150, 200,
-
Để mình xem nào,
-
nếu khoảng này là 50,
-
thì 40 sẽ ở đây, mình đang ước chừng thôi nhé.
-
Ngay đây sẽ là 60, 70, 80, 90.
-
Mình có thể vẽ nó chính xác hơn một chút,
-
60, 70, 80, 90.
-
Để mình vẽ lại điểm ngay đây cho chính xác hơn luôn nhé,
-
mình vẽ lại điểm 40 này,
-
mình sẽ dời nó gần 50 hơn.
-
Mình sẽ để nó ở đây nhé.
-
Vậy là 40,
-
và cái này sẽ là 30, 20, 10.
-
Nó khá là chính xác rồi đấy.
-
Hãy cùng đưa dữ liệu này vào biểu đồ nào!
-
Có một học sinh kiếm được 35000, vậy là sẽ nằm ngay đây.
-
Có 3 học sinh kiếm được 50000,
-
Vậy là 1, 2, 3.
-
Mình sẽ để như vậy.
-
Có một học sinh kiếm được 56000, vậy là mình sẽ để ngay đây.
-
Có 2 học sinh kiếm được 60000 và mình sẽ vẽ như vậy.
-
-
Có một học sinh kiếm được 75000, vậy là 60, 70, 75000 sẽ khoảng ngay đây.
-
-
Và có một học sinh kiếm được 250000,
-
vậy là mình sẽ vẽ nó tận trên này.
-
Và khi mình tính trung bình tức mình được 76,2.
-
Nó là số đo xu hướng trung tâm của mình.
-
Và 76,2 sẽ nằm ở ngay đây.
-
Vậy liệu trung bình có phải là số đo thích hợp cho xu hướng trung tâm trong trường hợp này?
-
Đối với mình, nó không thích hợp lắm.
-
Nếu mình dùng trung bình làm số đo của xu hướng trung tâm
-
thì nó sẽ cao hơn so với tất cả các điểm dữ liệu ngoại trừ một điểm.
-
Và lý do là vì dữ liệu của chúng mình bị nghiêng khá nhiều
-
tại vì điểm dữ liệu ngay đây, điểm 250 nghìn.
-
Điểm này quá xa so với phần còn lại của phân phối.
-
Nó quá xa so với các dữ liệu còn lại, vì vậy điểm này làm nghiêng trung bình của chúng mình.
-
Và bạn sẽ thấy điều này ở dạng tổng quát.
-
Nếu bạn có dữ liệu bị nghiêng và đặt biệt với các dữ liệu về tiền lương,
-
phần lớn mọi người kiếm được 50, 60, 70 nghìn đô la.
-
Nhưng lại có một người nào đó kiếm được 2 triệu đô la.
-
Và điều đó sẽ làm trung bình bị nghiêng, khi bạn cộng tất cả dữ liệu lại và chia cho số điểm dữ liệu mà bạn có.
-
-
-
Và trong trường hợp này, đặt biệt khi bạn có điểm dữ liệu mà làm trung bình bị nghiêng
-
thì trung vị sẽ là số đo chuẩn xác hơn cho xu hướng trung tâm.
-
Và trung vị là 56, sẽ nằm ở ngay đây,
-
và trung vị sẽ biểu thị xu hướng trung tâm tốt hơn trong trường hợp này.
-
Hãy nghĩ về nó nhé.
-
Ngay cả khi thay đổi số tiền lương ngay đây,
-
mình sẽ thêm 3 số 0 sau 250 nghìn đô la nữa,
-
vậy sẽ là 250 triệu đô la, tức là sẽ rất nhiều tiền.
-
Nó sẽ làm trung bình nghiêng đi rất nhiều,
-
nhưng nó không ảnh hưởng đến trung vị nên trung vị sẽ không thay đổi.
-
Vì đối với trung vị,
-
mình không cần quan tâm là số ngay đây tăng lên bao nhiêu,
-
-
nó có thể là 1 tỷ đô.
-
Và trung vị vẫn sẽ không đổi.
-
Vì thế, trung vị sẽ là số đo chuẩn hơn vì nó đỡ bị ảnh hưởng khi bạn có một tập dữ liệu bị nghiêng.
-
-
Và sử dụng trung bình sẽ hợp lý hơn khi bạn có một tập dữ liệu đối xứng.
-
Hoặc là bạn có một tập dữ liệu mà các số nằm xấp xỉ trên và dưới trung bình.
-
-
Hoặc là một tập dữ liệu mà không bị nghiêng quá nhiều về một hướng.
-
-
Như trong trường hợp này, tập dữ liệu đã bị nghiêng quá nhiều vì số 250 nghìn ngay đây.
-
Vậy trong trường hợp này, sẽ tốt hơn rất nhiều khi bạn sử dụng trung vị làm số đo của xu hướng trung tâm.
-
-
Vậy còn đối với độ lan toả thì sao?
-
Có thể bạn đã nghe mình nói rằng:
-
"trung bình không tốt lắm trong trường hợp này"
-
Và độ lệch chuẩn thì dựa vào trung bình.
-
Mình lấy mỗi điểm dữ liệu, tìm khoảng cách từ trung bình, và bình phương nó lên.
-
Mình làm như vậy với mỗi điểm dữ liệu và rồi cộng hết chúng lại.
-
Rồi chia cho số điểm dữ liệu nếu mình đang tìm độ lệch chuẩn tổng thể
-
và rồi mình căn bậc 2 tất cả những gì mình vừa tìm được.
-
-
Bởi vì độ lệch chuẩn dựa vào trung bình,
-
và trung bình không phải là một số đo tốt cho xu hướng trung tâm trong trường hợp này,
-
và điểm dữ liệu ngay đây, 250 nghìn đô la cũng sẽ làm nghiêng độ lệch chuẩn.
-
Và vì vậy độ lệch chuẩn hay số đo độ lan toả trên biểu đồ này
-
-
sẽ lớn hơn rất nhiều so với khi bạn nhìn vào độ lan toả thực tế trên biểu đồ
-
Sẽ có một điểm dữ liệu cách rất xa
-
nó cách xa trung bình hay trung vị tuỳ theo cách mà bạn nghĩ về nó.
-
Tuy nhiên, các điểm dữ liệu còn lại có vẽ như rất gần,
-
và trong trường hợp đó,
-
mình không chỉ sử dụng trung vị,
-
mà mình còn có thể sử dụng khoảng tứ phân vị vì nó ít bị ảnh hưởng khi tập dữ liệu bị nghiêng.
-
Và mình tìm nó như thế nào?
-
Mình sẽ lấy trung vị của cả tập dữ liệu,
-
và rồi mình lấy các số của nhóm dưới và tìm trung vị của chúng.
-
Vậy nó sẽ là 50 ngay đây.
-
Và rồi bạn lấy các số của nhóm trên,
-
và trung vị ở đây, bằng 60 cộng 75 và chia cho 2, vậy là bằng 67,5.
-
Nếu bạn thấy cái này hơi khó hiểu
-
thì bạn có thể xem lại các video về khoảng tứ phân vị, tính độ lệch chuẩn, trung vị và trung bình.
-
-
-
Và khoảng tứ trung vị sẽ bằng hiệu của 2 cái này, tức là bằng 17.5.
-
Bạn có thể thấy, khoảng cách giữa 2 cái này là 17,5.
-
khoảng tứ phân vị này sẽ không thay đổi
-
kể cả khi 250.000 này tăng lên thành 250 tỉ đô.
-
Và một lần nữa, trung vị và khoảng tứ phân vị,
-
sẽ chính xác hơn vì nó đỡ bị ảnh hưởng khi chúng mình có tập dữ liệu bị nghiêng.
-
Và điều quan trọng bạn cần ghi nhớ đó là,
-
bạn có thể dùng trung bình và độ lệch chuẩn làm số đo
-
nếu như bạn có một tập dữ liệu đối xứng
-
và không có giá trị ngoại lai nào quá lớn làm nghiêng cả tập dữ liệu.
-
Trong trường hợp đó, bạn hoàn toàn có thể sử dụng trung bình và độ lệch chuẩn.
-
Nhưng nếu bạn có một tập dữ liệu bị nghiêng do các điểm dữ liệu,
-
bạn nên sử dụng trung vị làm số đo của xu hướng trung tâm,
-
-
và bạn nên sử dụng khoảng tứ phân vị cho độ lan toả xung quanh xu hướng trung tâm.
-
Vì vậy bạn sẽ thấy khi làm về tiền lương thì mọi người thường hay nói đến trung vị.
-
-
Bởi vì tiền lương có thể bị nghiêng đặc biệt là ở phía trên.
-
Và khi có tập dữ liệu về giá nhà,
-
thì bạn sẽ thấy mọi người thường sử dụng trung vị hơn là trung bình.
-
Bởi vì nhiều nhà trong khu phố, hoặc nhà trong thành phố giá của chúng
-
sẽ ở trong phạm vi 200 nghìn đô la, hay 300 nghìn đô la
-
-
Và có thể sẽ có một căn biệt thự to lớn nào đó có giá 100 triệu đô,
-
và khi bạn tính trung bình, nó sẽ bị nghiêng và bạn sẽ có một cái nhìn thiếu chính xác
-
về trung bình, hay xu hướng trung tâm của giá nhà ở trong thành phố.