Chúng mình có tất cả 9 sinh viên ở trong một niên khoá ở một ngôi trường nhỏ. Và 9 sinh viên này vừa tốt nghiệp.
Và họ muốn tìm xu hướng trung tâm của tiền lương của 9 bạn sinh viên đó một năm sau khi tốt nghiệp.
Và họ cũng muốn tìm hiểu về độ lan toả xung quanh xu hướng trung tâm của tiền lương một năm sau khi tốt nghiệp.
Vì vậy họ sẽ ghi tất cả những tiền lương của 9 học sinh đó vào máy tính.
Và đây chính là tiền lương của 9 học sinh.
Và nó được đo bằng hàng nghìn nhé.
Đây là 35 nghìn; 50 nghìn; 50 nghìn; 50 nghìn; 56 ngìn
2 người làm được 60 nghìn; một người làm được 75 nghìn và một người làm được 250 nghìn.
Và rồi máy tính cho chúng mình các tham số ngay đây
dựa vào những dữ liệu này.
Và máy tính cho chúng mình 2 số đo điển hình của xu hướng trung tâm.
Trung bình sẽ là khoảng 76.2.
Máy vi tính sẽ tính trung bình bằng cách cộng 9 số này lại.
Và rồi chia cho 9.
Mình còn biết được trung vị là 56, và trung vị khá là dễ để tính.
Bạn cần sắp xếp các số theo thứ tự
và số ngay chính giữa trong trường hợp này là 56 sẽ là trung vị.
Và mình muốn các bạn thử dừng video này lại,
và đối với tập dữ liệu này,
đối với tổng thể của các mức lương này,
số đo nào của xu hướng trung tâm sẽ là số đo tốt hơn?
Hãy cùng nghĩ về nó nhé!
Mình sẽ vẽ nó lên đường thẳng ngay đây.
Mình sẽ vẽ các dữ liệu lên biểu đồ này
Mình không muốn các bạn chỉ xem đây là những con số,
mà mình muốn bạn có thể thấy vị trí của các số này nằm ở đâu trên biểu đồ.
Mình sẽ cho ở đây là 0 nhé,
và đây là 1, 2, 3, 4, 5
Vậy ngay đây là 250, 50, 100, 150, 200,
Để mình xem nào,
nếu khoảng này là 50,
thì 40 sẽ ở đây, mình đang ước chừng thôi nhé.
Ngay đây sẽ là 60, 70, 80, 90.
Mình có thể vẽ nó chính xác hơn một chút,
60, 70, 80, 90.
Để mình vẽ lại điểm ngay đây cho chính xác hơn luôn nhé,
mình vẽ lại điểm 40 này,
mình sẽ dời nó gần 50 hơn.
Mình sẽ để nó ở đây nhé.
Vậy là 40,
và cái này sẽ là 30, 20, 10.
Nó khá là chính xác rồi đấy.
Hãy cùng đưa dữ liệu này vào biểu đồ nào!
Có một học sinh kiếm được 35000, vậy là sẽ nằm ngay đây.
Có 3 học sinh kiếm được 50000,
Vậy là 1, 2, 3.
Mình sẽ để như vậy.
Có một học sinh kiếm được 56000, vậy là mình sẽ để ngay đây.
Có 2 học sinh kiếm được 60000 và mình sẽ vẽ như vậy.
Có một học sinh kiếm được 75000, vậy là 60, 70, 75000 sẽ khoảng ngay đây.
Và có một học sinh kiếm được 250000,
vậy là mình sẽ vẽ nó tận trên này.
Và khi mình tính trung bình tức mình được 76,2.
Nó là số đo xu hướng trung tâm của mình.
Và 76,2 sẽ nằm ở ngay đây.
Vậy liệu trung bình có phải là số đo thích hợp cho xu hướng trung tâm trong trường hợp này?
Đối với mình, nó không thích hợp lắm.
Nếu mình dùng trung bình làm số đo của xu hướng trung tâm
thì nó sẽ cao hơn so với tất cả các điểm dữ liệu ngoại trừ một điểm.
Và lý do là vì dữ liệu của chúng mình bị nghiêng khá nhiều
tại vì điểm dữ liệu ngay đây, điểm 250 nghìn.
Điểm này quá xa so với phần còn lại của phân phối.
Nó quá xa so với các dữ liệu còn lại, vì vậy điểm này làm nghiêng trung bình của chúng mình.
Và bạn sẽ thấy điều này ở dạng tổng quát.
Nếu bạn có dữ liệu bị nghiêng và đặt biệt với các dữ liệu về tiền lương,
phần lớn mọi người kiếm được 50, 60, 70 nghìn đô la.
Nhưng lại có một người nào đó kiếm được 2 triệu đô la.
Và điều đó sẽ làm trung bình bị nghiêng, khi bạn cộng tất cả dữ liệu lại và chia cho số điểm dữ liệu mà bạn có.
Và trong trường hợp này, đặt biệt khi bạn có điểm dữ liệu mà làm trung bình bị nghiêng
thì trung vị sẽ là số đo chuẩn xác hơn cho xu hướng trung tâm.
Và trung vị là 56, sẽ nằm ở ngay đây,
và trung vị sẽ biểu thị xu hướng trung tâm tốt hơn trong trường hợp này.
Hãy nghĩ về nó nhé.
Ngay cả khi thay đổi số tiền lương ngay đây,
mình sẽ thêm 3 số 0 sau 250 nghìn đô la nữa,
vậy sẽ là 250 triệu đô la, tức là sẽ rất nhiều tiền.
Nó sẽ làm trung bình nghiêng đi rất nhiều,
nhưng nó không ảnh hưởng đến trung vị nên trung vị sẽ không thay đổi.
Vì đối với trung vị,
mình không cần quan tâm là số ngay đây tăng lên bao nhiêu,
nó có thể là 1 tỷ đô.
Và trung vị vẫn sẽ không đổi.
Vì thế, trung vị sẽ là số đo chuẩn hơn vì nó đỡ bị ảnh hưởng khi bạn có một tập dữ liệu bị nghiêng.
Và sử dụng trung bình sẽ hợp lý hơn khi bạn có một tập dữ liệu đối xứng.
Hoặc là bạn có một tập dữ liệu mà các số nằm xấp xỉ trên và dưới trung bình.
Hoặc là một tập dữ liệu mà không bị nghiêng quá nhiều về một hướng.
Như trong trường hợp này, tập dữ liệu đã bị nghiêng quá nhiều vì số 250 nghìn ngay đây.
Vậy trong trường hợp này, sẽ tốt hơn rất nhiều khi bạn sử dụng trung vị làm số đo của xu hướng trung tâm.
Vậy còn đối với độ lan toả thì sao?
Có thể bạn đã nghe mình nói rằng:
"trung bình không tốt lắm trong trường hợp này"
Và độ lệch chuẩn thì dựa vào trung bình.
Mình lấy mỗi điểm dữ liệu, tìm khoảng cách từ trung bình, và bình phương nó lên.
Mình làm như vậy với mỗi điểm dữ liệu và rồi cộng hết chúng lại.
Rồi chia cho số điểm dữ liệu nếu mình đang tìm độ lệch chuẩn tổng thể
và rồi mình căn bậc 2 tất cả những gì mình vừa tìm được.
Bởi vì độ lệch chuẩn dựa vào trung bình,
và trung bình không phải là một số đo tốt cho xu hướng trung tâm trong trường hợp này,
và điểm dữ liệu ngay đây, 250 nghìn đô la cũng sẽ làm nghiêng độ lệch chuẩn.
Và vì vậy độ lệch chuẩn hay số đo độ lan toả trên biểu đồ này
sẽ lớn hơn rất nhiều so với khi bạn nhìn vào độ lan toả thực tế trên biểu đồ
Sẽ có một điểm dữ liệu cách rất xa
nó cách xa trung bình hay trung vị tuỳ theo cách mà bạn nghĩ về nó.
Tuy nhiên, các điểm dữ liệu còn lại có vẽ như rất gần,
và trong trường hợp đó,
mình không chỉ sử dụng trung vị,
mà mình còn có thể sử dụng khoảng tứ phân vị vì nó ít bị ảnh hưởng khi tập dữ liệu bị nghiêng.
Và mình tìm nó như thế nào?
Mình sẽ lấy trung vị của cả tập dữ liệu,
và rồi mình lấy các số của nhóm dưới và tìm trung vị của chúng.
Vậy nó sẽ là 50 ngay đây.
Và rồi bạn lấy các số của nhóm trên,
và trung vị ở đây, bằng 60 cộng 75 và chia cho 2, vậy là bằng 67,5.
Nếu bạn thấy cái này hơi khó hiểu
thì bạn có thể xem lại các video về khoảng tứ phân vị, tính độ lệch chuẩn, trung vị và trung bình.
Và khoảng tứ trung vị sẽ bằng hiệu của 2 cái này, tức là bằng 17.5.
Bạn có thể thấy, khoảng cách giữa 2 cái này là 17,5.
khoảng tứ phân vị này sẽ không thay đổi
kể cả khi 250.000 này tăng lên thành 250 tỉ đô.
Và một lần nữa, trung vị và khoảng tứ phân vị,
sẽ chính xác hơn vì nó đỡ bị ảnh hưởng khi chúng mình có tập dữ liệu bị nghiêng.
Và điều quan trọng bạn cần ghi nhớ đó là,
bạn có thể dùng trung bình và độ lệch chuẩn làm số đo
nếu như bạn có một tập dữ liệu đối xứng
và không có giá trị ngoại lai nào quá lớn làm nghiêng cả tập dữ liệu.
Trong trường hợp đó, bạn hoàn toàn có thể sử dụng trung bình và độ lệch chuẩn.
Nhưng nếu bạn có một tập dữ liệu bị nghiêng do các điểm dữ liệu,
bạn nên sử dụng trung vị làm số đo của xu hướng trung tâm,
và bạn nên sử dụng khoảng tứ phân vị cho độ lan toả xung quanh xu hướng trung tâm.
Vì vậy bạn sẽ thấy khi làm về tiền lương thì mọi người thường hay nói đến trung vị.
Bởi vì tiền lương có thể bị nghiêng đặc biệt là ở phía trên.
Và khi có tập dữ liệu về giá nhà,
thì bạn sẽ thấy mọi người thường sử dụng trung vị hơn là trung bình.
Bởi vì nhiều nhà trong khu phố, hoặc nhà trong thành phố giá của chúng
sẽ ở trong phạm vi 200 nghìn đô la, hay 300 nghìn đô la
Và có thể sẽ có một căn biệt thự to lớn nào đó có giá 100 triệu đô,
và khi bạn tính trung bình, nó sẽ bị nghiêng và bạn sẽ có một cái nhìn thiếu chính xác
về trung bình, hay xu hướng trung tâm của giá nhà ở trong thành phố.