< Return to Video

Trung bình và độ lệch chuẩn so với trung vị và khoảng tứ phân vị |Xác Suất Thống Kê| Khan Academy

  • 0:01 - 0:08
    Chúng mình có tất cả 9 sinh viên ở trong một niên khoá ở một ngôi trường nhỏ. Và 9 sinh viên này vừa tốt nghiệp.
  • 0:08 - 0:08
  • 0:08 - 0:14
    Và họ muốn tìm xu hướng trung tâm của tiền lương của 9 bạn sinh viên đó một năm sau khi tốt nghiệp.
  • 0:14 - 0:14
  • 0:14 - 0:20
    Và họ cũng muốn tìm hiểu về độ lan toả xung quanh xu hướng trung tâm của tiền lương một năm sau khi tốt nghiệp.
  • 0:20 - 0:20
  • 0:20 - 0:23
    Vì vậy họ sẽ ghi tất cả những tiền lương của 9 học sinh đó vào máy tính.
  • 0:23 - 0:25
    Và đây chính là tiền lương của 9 học sinh.
  • 0:25 - 0:27
    Và nó được đo bằng hàng nghìn nhé.
  • 0:27 - 0:30
    Đây là 35 nghìn; 50 nghìn; 50 nghìn; 50 nghìn; 56 ngìn
  • 0:30 - 0:37
    2 người làm được 60 nghìn; một người làm được 75 nghìn và một người làm được 250 nghìn.
  • 0:37 - 0:37
  • 0:37 - 0:41
    Và rồi máy tính cho chúng mình các tham số ngay đây
  • 0:41 - 0:43
    dựa vào những dữ liệu này.
  • 0:43 - 0:47
    Và máy tính cho chúng mình 2 số đo điển hình của xu hướng trung tâm.
  • 0:47 - 0:50
    Trung bình sẽ là khoảng 76.2.
  • 0:50 - 0:54
    Máy vi tính sẽ tính trung bình bằng cách cộng 9 số này lại.
  • 0:54 - 0:56
    Và rồi chia cho 9.
  • 0:56 - 1:00
    Mình còn biết được trung vị là 56, và trung vị khá là dễ để tính.
  • 1:00 - 1:02
    Bạn cần sắp xếp các số theo thứ tự
  • 1:02 - 1:06
    và số ngay chính giữa trong trường hợp này là 56 sẽ là trung vị.
  • 1:06 - 1:08
    Và mình muốn các bạn thử dừng video này lại,
  • 1:08 - 1:10
    và đối với tập dữ liệu này,
  • 1:10 - 1:14
    đối với tổng thể của các mức lương này,
  • 1:14 - 1:19
    số đo nào của xu hướng trung tâm sẽ là số đo tốt hơn?
  • 1:19 - 1:21
    Hãy cùng nghĩ về nó nhé!
  • 1:21 - 1:23
    Mình sẽ vẽ nó lên đường thẳng ngay đây.
  • 1:23 - 1:26
    Mình sẽ vẽ các dữ liệu lên biểu đồ này
  • 1:26 - 1:29
    Mình không muốn các bạn chỉ xem đây là những con số,
  • 1:29 - 1:32
    mà mình muốn bạn có thể thấy vị trí của các số này nằm ở đâu trên biểu đồ.
  • 1:32 - 1:33
  • 1:33 - 1:35
    Mình sẽ cho ở đây là 0 nhé,
  • 1:36 - 1:42
    và đây là 1, 2, 3, 4, 5
  • 1:42 - 1:51
    Vậy ngay đây là 250, 50, 100, 150, 200,
  • 1:51 - 1:53
    Để mình xem nào,
  • 1:53 - 1:56
    nếu khoảng này là 50,
  • 1:56 - 1:59
    thì 40 sẽ ở đây, mình đang ước chừng thôi nhé.
  • 1:59 - 2:03
    Ngay đây sẽ là 60, 70, 80, 90.
  • 2:03 - 2:05
    Mình có thể vẽ nó chính xác hơn một chút,
  • 2:05 - 2:08
    60, 70, 80, 90.
  • 2:09 - 2:12
    Để mình vẽ lại điểm ngay đây cho chính xác hơn luôn nhé,
  • 2:12 - 2:14
    mình vẽ lại điểm 40 này,
  • 2:14 - 2:17
    mình sẽ dời nó gần 50 hơn.
  • 2:18 - 2:22
    Mình sẽ để nó ở đây nhé.
  • 2:22 - 2:24
    Vậy là 40,
  • 2:24 - 2:27
    và cái này sẽ là 30, 20, 10.
  • 2:27 - 2:29
    Nó khá là chính xác rồi đấy.
  • 2:29 - 2:31
    Hãy cùng đưa dữ liệu này vào biểu đồ nào!
  • 2:31 - 2:35
    Có một học sinh kiếm được 35000, vậy là sẽ nằm ngay đây.
  • 2:36 - 2:38
    Có 3 học sinh kiếm được 50000,
  • 2:38 - 2:42
    Vậy là 1, 2, 3.
  • 2:42 - 2:44
    Mình sẽ để như vậy.
  • 2:44 - 2:50
    Có một học sinh kiếm được 56000, vậy là mình sẽ để ngay đây.
  • 2:50 - 2:54
    Có 2 học sinh kiếm được 60000 và mình sẽ vẽ như vậy.
  • 2:54 - 2:54
  • 2:54 - 3:02
    Có một học sinh kiếm được 75000, vậy là 60, 70, 75000 sẽ khoảng ngay đây.
  • 3:02 - 3:02
  • 3:02 - 3:04
    Và có một học sinh kiếm được 250000,
  • 3:04 - 3:08
    vậy là mình sẽ vẽ nó tận trên này.
  • 3:08 - 3:11
    Và khi mình tính trung bình tức mình được 76,2.
  • 3:11 - 3:13
    Nó là số đo xu hướng trung tâm của mình.
  • 3:13 - 3:17
    Và 76,2 sẽ nằm ở ngay đây.
  • 3:17 - 3:21
    Vậy liệu trung bình có phải là số đo thích hợp cho xu hướng trung tâm trong trường hợp này?
  • 3:21 - 3:23
    Đối với mình, nó không thích hợp lắm.
  • 3:23 - 3:26
    Nếu mình dùng trung bình làm số đo của xu hướng trung tâm
  • 3:26 - 3:29
    thì nó sẽ cao hơn so với tất cả các điểm dữ liệu ngoại trừ một điểm.
  • 3:29 - 3:34
    Và lý do là vì dữ liệu của chúng mình bị nghiêng khá nhiều
  • 3:34 - 3:38
    tại vì điểm dữ liệu ngay đây, điểm 250 nghìn.
  • 3:38 - 3:41
    Điểm này quá xa so với phần còn lại của phân phối.
  • 3:41 - 3:45
    Nó quá xa so với các dữ liệu còn lại, vì vậy điểm này làm nghiêng trung bình của chúng mình.
  • 3:45 - 3:47
    Và bạn sẽ thấy điều này ở dạng tổng quát.
  • 3:47 - 3:51
    Nếu bạn có dữ liệu bị nghiêng và đặt biệt với các dữ liệu về tiền lương,
  • 3:51 - 3:53
    phần lớn mọi người kiếm được 50, 60, 70 nghìn đô la.
  • 3:53 - 3:57
    Nhưng lại có một người nào đó kiếm được 2 triệu đô la.
  • 3:57 - 4:03
    Và điều đó sẽ làm trung bình bị nghiêng, khi bạn cộng tất cả dữ liệu lại và chia cho số điểm dữ liệu mà bạn có.
  • 4:03 - 4:03
  • 4:03 - 4:03
  • 4:03 - 4:08
    Và trong trường hợp này, đặt biệt khi bạn có điểm dữ liệu mà làm trung bình bị nghiêng
  • 4:08 - 4:11
    thì trung vị sẽ là số đo chuẩn xác hơn cho xu hướng trung tâm.
  • 4:11 - 4:13
    Và trung vị là 56, sẽ nằm ở ngay đây,
  • 4:13 - 4:17
    và trung vị sẽ biểu thị xu hướng trung tâm tốt hơn trong trường hợp này.
  • 4:17 - 4:19
    Hãy nghĩ về nó nhé.
  • 4:19 - 4:22
    Ngay cả khi thay đổi số tiền lương ngay đây,
  • 4:22 - 4:26
    mình sẽ thêm 3 số 0 sau 250 nghìn đô la nữa,
  • 4:26 - 4:29
    vậy sẽ là 250 triệu đô la, tức là sẽ rất nhiều tiền.
  • 4:29 - 4:32
    Nó sẽ làm trung bình nghiêng đi rất nhiều,
  • 4:32 - 4:36
    nhưng nó không ảnh hưởng đến trung vị nên trung vị sẽ không thay đổi.
  • 4:36 - 4:37
    Vì đối với trung vị,
  • 4:37 - 4:40
    mình không cần quan tâm là số ngay đây tăng lên bao nhiêu,
  • 4:40 - 4:40
  • 4:40 - 4:42
    nó có thể là 1 tỷ đô.
  • 4:42 - 4:43
    Và trung vị vẫn sẽ không đổi.
  • 4:43 - 4:48
    Vì thế, trung vị sẽ là số đo chuẩn hơn vì nó đỡ bị ảnh hưởng khi bạn có một tập dữ liệu bị nghiêng.
  • 4:48 - 4:48
  • 4:48 - 4:52
    Và sử dụng trung bình sẽ hợp lý hơn khi bạn có một tập dữ liệu đối xứng.
  • 4:52 - 4:56
    Hoặc là bạn có một tập dữ liệu mà các số nằm xấp xỉ trên và dưới trung bình.
  • 4:56 - 4:57
  • 4:57 - 5:00
    Hoặc là một tập dữ liệu mà không bị nghiêng quá nhiều về một hướng.
  • 5:00 - 5:01
  • 5:01 - 5:04
    Như trong trường hợp này, tập dữ liệu đã bị nghiêng quá nhiều vì số 250 nghìn ngay đây.
  • 5:04 - 5:10
    Vậy trong trường hợp này, sẽ tốt hơn rất nhiều khi bạn sử dụng trung vị làm số đo của xu hướng trung tâm.
  • 5:10 - 5:10
  • 5:10 - 5:12
    Vậy còn đối với độ lan toả thì sao?
  • 5:12 - 5:14
    Có thể bạn đã nghe mình nói rằng:
  • 5:14 - 5:16
    "trung bình không tốt lắm trong trường hợp này"
  • 5:16 - 5:18
    Và độ lệch chuẩn thì dựa vào trung bình.
  • 5:18 - 5:23
    Mình lấy mỗi điểm dữ liệu, tìm khoảng cách từ trung bình, và bình phương nó lên.
  • 5:23 - 5:26
    Mình làm như vậy với mỗi điểm dữ liệu và rồi cộng hết chúng lại.
  • 5:26 - 5:30
    Rồi chia cho số điểm dữ liệu nếu mình đang tìm độ lệch chuẩn tổng thể
  • 5:30 - 5:34
    và rồi mình căn bậc 2 tất cả những gì mình vừa tìm được.
  • 5:34 - 5:35
  • 5:35 - 5:37
    Bởi vì độ lệch chuẩn dựa vào trung bình,
  • 5:37 - 5:41
    và trung bình không phải là một số đo tốt cho xu hướng trung tâm trong trường hợp này,
  • 5:41 - 5:45
    và điểm dữ liệu ngay đây, 250 nghìn đô la cũng sẽ làm nghiêng độ lệch chuẩn.
  • 5:45 - 5:49
    Và vì vậy độ lệch chuẩn hay số đo độ lan toả trên biểu đồ này
  • 5:49 - 5:49
  • 5:49 - 5:53
    sẽ lớn hơn rất nhiều so với khi bạn nhìn vào độ lan toả thực tế trên biểu đồ
  • 5:53 - 5:56
    Sẽ có một điểm dữ liệu cách rất xa
  • 5:56 - 6:00
    nó cách xa trung bình hay trung vị tuỳ theo cách mà bạn nghĩ về nó.
  • 6:00 - 6:03
    Tuy nhiên, các điểm dữ liệu còn lại có vẽ như rất gần,
  • 6:03 - 6:05
    và trong trường hợp đó,
  • 6:05 - 6:07
    mình không chỉ sử dụng trung vị,
  • 6:07 - 6:12
    mà mình còn có thể sử dụng khoảng tứ phân vị vì nó ít bị ảnh hưởng khi tập dữ liệu bị nghiêng.
  • 6:12 - 6:13
    Và mình tìm nó như thế nào?
  • 6:13 - 6:15
    Mình sẽ lấy trung vị của cả tập dữ liệu,
  • 6:15 - 6:19
    và rồi mình lấy các số của nhóm dưới và tìm trung vị của chúng.
  • 6:19 - 6:21
    Vậy nó sẽ là 50 ngay đây.
  • 6:21 - 6:25
    Và rồi bạn lấy các số của nhóm trên,
  • 6:25 - 6:29
    và trung vị ở đây, bằng 60 cộng 75 và chia cho 2, vậy là bằng 67,5.
  • 6:29 - 6:31
    Nếu bạn thấy cái này hơi khó hiểu
  • 6:31 - 6:35
    thì bạn có thể xem lại các video về khoảng tứ phân vị, tính độ lệch chuẩn, trung vị và trung bình.
  • 6:35 - 6:35
  • 6:35 - 6:36
  • 6:36 - 6:39
    Và khoảng tứ trung vị sẽ bằng hiệu của 2 cái này, tức là bằng 17.5.
  • 6:39 - 6:43
    Bạn có thể thấy, khoảng cách giữa 2 cái này là 17,5.
  • 6:43 - 6:45
    khoảng tứ phân vị này sẽ không thay đổi
  • 6:45 - 6:48
    kể cả khi 250.000 này tăng lên thành 250 tỉ đô.
  • 6:48 - 6:52
    Và một lần nữa, trung vị và khoảng tứ phân vị,
  • 6:52 - 6:56
    sẽ chính xác hơn vì nó đỡ bị ảnh hưởng khi chúng mình có tập dữ liệu bị nghiêng.
  • 6:56 - 6:59
    Và điều quan trọng bạn cần ghi nhớ đó là,
  • 6:59 - 7:02
    bạn có thể dùng trung bình và độ lệch chuẩn làm số đo
  • 7:02 - 7:04
    nếu như bạn có một tập dữ liệu đối xứng
  • 7:04 - 7:07
    và không có giá trị ngoại lai nào quá lớn làm nghiêng cả tập dữ liệu.
  • 7:07 - 7:11
    Trong trường hợp đó, bạn hoàn toàn có thể sử dụng trung bình và độ lệch chuẩn.
  • 7:11 - 7:14
    Nhưng nếu bạn có một tập dữ liệu bị nghiêng do các điểm dữ liệu,
  • 7:14 - 7:19
    bạn nên sử dụng trung vị làm số đo của xu hướng trung tâm,
  • 7:19 - 7:19
  • 7:19 - 7:23
    và bạn nên sử dụng khoảng tứ phân vị cho độ lan toả xung quanh xu hướng trung tâm.
  • 7:23 - 7:27
    Vì vậy bạn sẽ thấy khi làm về tiền lương thì mọi người thường hay nói đến trung vị.
  • 7:27 - 7:27
  • 7:27 - 7:30
    Bởi vì tiền lương có thể bị nghiêng đặc biệt là ở phía trên.
  • 7:30 - 7:32
    Và khi có tập dữ liệu về giá nhà,
  • 7:32 - 7:36
    thì bạn sẽ thấy mọi người thường sử dụng trung vị hơn là trung bình.
  • 7:36 - 7:41
    Bởi vì nhiều nhà trong khu phố, hoặc nhà trong thành phố giá của chúng
  • 7:41 - 7:44
    sẽ ở trong phạm vi 200 nghìn đô la, hay 300 nghìn đô la
  • 7:44 - 7:44
  • 7:44 - 7:48
    Và có thể sẽ có một căn biệt thự to lớn nào đó có giá 100 triệu đô,
  • 7:48 - 7:51
    và khi bạn tính trung bình, nó sẽ bị nghiêng và bạn sẽ có một cái nhìn thiếu chính xác
  • 7:51 - 7:56
    về trung bình, hay xu hướng trung tâm của giá nhà ở trong thành phố.
Title:
Trung bình và độ lệch chuẩn so với trung vị và khoảng tứ phân vị |Xác Suất Thống Kê| Khan Academy
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
07:59

Vietnamese subtitles

Incomplete

Revisions Compare revisions