-
Bây giờ chúng ta sẽ bắt đầu hành trình
tìm hiểu về thế giới của thống kê nhé,
-
đây chính là một cách để hiểu
-
về dữ liệu.
-
Thống kế hoàn toàn là về dữ liệu.
-
Và khi chúng ta bắt đầu hành trình khám
phá về thế giới thống kê,
-
chúng ta sẽ thực hiện rất nhiều
thứ mà
-
chúng ta có thể gọi là thống kê miêu tả.
-
Vậy tức là nếu như chúng ta có một đống
dữ liệu, và nếu chúng ta
-
muốn đề cập đến một điều gì về những
dữ liệu đó
-
mà không cần phải cung cấp toàn
bộ dữ liệu,
-
Liệu chúng ta có thể diễn tả chúng theo
cách nào đó với một bộ số nhỏ hơn không?
-
Đó chính là thứ mà chúng ta sẽ
tập trung nghiên cứu.
-
Một khi chúng ta đã xây dựng được
bộ công cụ của mình
-
về thống kê miêu tả, chúng ta
-
có thể bắt đầu suy luận về
dữ liệu đó,
-
bắt đầu đưa ra kết luận và
đánh giá.
-
Chúng ta sẽ bắt đầu làm rất nhiều
bài tập về thống kê miêu tả,
-
cũng như suy luận.
-
Với phương pháp đó, hãy thử nghĩ xem
-
chúng ta có thể biểu diễn dữ liệu như
thế nào.
-
Giả sử chúng ta có một bộ các chữ số.
-
Chúng ta có thể coi cái này là dữ liệu.
-
Có thể chúng ta đang đo chiều cao của
các loại cây
-
trong khu vườn.
-
Giả sử chúng ta có sáu cái cây.
-
Và chiều cao của chúng lần lượt là 4 inch,
3 inch, 1 inch, 6 inch,
-
Và thêm một cái cây nữa cũng cao 1 inch,
môt cái nữa thì cao 7 inch.
-
Và giả sử một ai đó nói rằng-- từ một
căn phòng khác, không
-
nhìn vào những cái cây của bạn,
chỉ hỏi rằng,
-
chà, bạn biết đấy, những cái cây của bạn
cao bao nhiêu?
-
Và họ chỉ muốn nghe một con số.
-
Họ muốn một con số có thể
-
đại diện cho tất cả các số đo chiều cao
khác nhau của những cái cây này.
-
Bạn sẽ tìm con số đó bằng cách nào?
-
Làm cách nào để mình có thể tìm một
thứ gì
-
mà-- có thể mình muốn một con số
cụ thể.
-
Có thể mình muốn con số mà bằng cách
nào đó ở tầm giữa giữa.
-
Có thể mình muốn một con số chung nhất.
-
Có thể mình muốn con số mà bằng cách nào
đó biểu diễn
-
chung cho tất cả các con số này.
-
Và nếu bạn đã nghĩ đến một trong những
cách làm như vậy,
-
thì thực ra bạn cũng sẽ làm những điều
tương tự
-
mà những người mới lần đầu tiếp cận
với thống kê miêu tả
-
đã nói.
-
Họ đã nói rằng, chà, chúng ta có thể
thực hiện nó như thế nào đây?
-
Và rồi chúng ta sẽ bắt đầu bằng cách nghĩ
đến ý tưởng về trung bình cộng.
-
Trong thuật ngữ chuyên ngành của đời sống
hàng ngày, trung bình cộng
-
có ý nghĩa rất cụ thể, chúng ta sẽ tìm
hiểu xem nhé.
-
Khi nhiều người nói về khái niệm
trung bình cộng,
-
ý của họ đang muốn đề cập đến
trung bình cộng đơn giản
-
cũng chính là thứ mà chúng ta
sẽ thấy ngay sau đây.
-
Nhưng trong thống kê, trung bình cộng
nghĩa là một điều gì đó tổng quát hơn.
-
Nó thực sự có nghĩa là đưa cho mình
một con số cụ thể,
-
hoặc cho mình một số ở giữa, hoặc--
những cái này chính là trường hợp của hoặc.
-
Và thực sự cần nỗ lực để tìm ra
-
một số đo tập trung.
-
Vậy là một lần nữa, bạn có một loạt
các con số.
-
Bằng một cách nào đó, bạn đang cố gắng
để biểu diễn những số này
-
bằng một con số mà chúng ta sẽ gọi nó là
trung bình cộng, nó chính là con số
-
cụ thể, hoặc ở giữa, hoặc bằng một cách
nào đó ở trung tâm
-
của các con số này.
-
Và như chúng ta sẽ thấy, có nhiều loại
trung bình cộng.
-
Dạng đầu tiên chắc chắn là dạng mà bạn
thấy quen thuộc nhất.
-
Đó chính là-- kiểu mọi người
bàn luận về
-
điểm số trung bình của bài kiểm tra lần
này hay chiều cao trung bình chẳng hạn.
-
Đó chính là trung bình cộng đơn giản.
-
Để mình viết nó ra.
-
Mình sẽ viết bằng màu vàng,
trung bình cộng đơn giản.
-
Khi số học là một danh từ, ta chỉ cần gọi
nó là số học thôi.
-
Khi nó là một tính từ như thế này,
ta gọi nó là
-
trung bình cộng đơn giản.
-
Đây thực sự chỉ là tổng của tất cả
các số chia cho--
-
đây là một định nghĩa do con người
tạo ra mà chúng ta
-
thấy hữu ích-- tổng của tất cả các số này
chia cho
-
số các chữ số mà chúng ta có.
-
Căn cứ vào đó, trung bình cộng đơn giản
-
của bộ dữ liệu này là gì?
-
Hãy thử tính xem nhé.
-
Nó sẽ bằng 4 cộng 3 cộng 1 cộng 6
cộng 1
-
cộng 7 trên số các điểm dữ liệu mà
chúng ta có.
-
Chúng ta có 6 điểm dữ liệu.
-
Vậy nên chúng ta sẽ chia cho 6.
-
Và chúng ta có 4 cộng 3 bằng 7,
cộng 1 bằng 8, cộng 6 bằng 14,
-
cộng 1 bằng 15, cộng 7.
-
15 cộng 7 bằng 22.
-
Để mình tính lại nhé.
-
Có 7, 8, 14, 15, 22, tất cả trên 6.
-
Và chúng ta có thể viết kết quả này
dưới dạng một hỗn số.
-
22 chia 6 được 3, dư 4.
-
Vậy kết quả là 3 và 4 phần 6, tương đương
với 3 và 2 phần 3.
-
Chúng ta có thể viết cái này dưới dạng một
số thâp phân vô hạn tuần hoàn 3.6.
-
Vậy kết quả ở đây cũng là 3.6
-
Chúng ta có thể viết theo một trong
những cách đó.
-
Nhưng đây chỉ là một loại số đại diện.
-
Đây là cách để lấy một số bình quân.
-
Mình nhắc lại một lần nữa nhé, đây là
phương pháp do con người tạo ra.
-
Chưa một ai từng-- nó không phải kiểu
như một ai đó
-
tìm thấy vài tài liệu tôn giáo ghi rằng,
-
đây là cách để xác định được
-
trung bình cộng đơn giản.
-
Nó không đơn thuần như một phép tính,
giống như,
-
giả dụ như, như việc tìm chu vi của
hình tròn,
-
đó là một phạm trù khá là-- chúng ta
-
đã nghiên cứu về vũ trụ.
-
Và công thức đó được đúc kết từ
nghiên cứu của chúng ta từ vũ trụ.
-
Đó là một định nghĩa được tạo ra
bởi nhân loại
-
mà chúng ta thấy hữu ích.
-
Giờ đây có những cách khác để tìm
trung bình cộng
-
hoặc tìm một giá trị cụ thể hoặc nằm
ở giữa.
-
Có một cách làm điển hình khác gọi là
số trung vị.
-
Và mình sẽ viết trung vị đây.
-
Mình đang hết màu rồi.
-
Mình sẽ viết chữ trung vị bằng màu hồng.
-
Vậy đây là trung vị.
-
Trung vị về cơ bản chính là tìm số
ở giữa.
-
Vậy nếu bạn sắp xếp các con số
trong bộ số của mình
-
và tìm con số ở giữa, thì số đó
chính là trung vị.
-
Căn cứ vào đó, trung vị của bộ số này
-
sẽ là bao nhiêu nhỉ?
-
Hãy thử tìm xem nhé.
-
Hãy thử sắp xếp nó nào.
-
Chúng ta có 1.
-
Và chúng ta lại có thêm một số 1 nữa.
-
Rồi chúng ta có 3.
-
Chúng ta có cả 4, 6 và 7.
-
Tất cả những gì mình đã làm chính là
sắp xếp lại các con số này.
-
Vậy số ở giữa là con số nào nhỉ?
-
Bạn nhìn vào đây nhé.
-
Chúng ta có số các con số là số chẵn,
có tổng cộng 6 con số mà,
-
nên sẽ không có số nào ở giữa.
-
Thực ra bạn sẽ có hai số ở giữa.
-
Bạn có hai số ở giữa ở ngay đây.
-
Đó là số 3 và 4.
-
Trong trường hợp này, bạn có hai số ở giữa.
-
thực ra bạn đã đi được nửa đường
giữa hai số này rồi đấy.
-
Bạn chỉ cần tìm trung bình cộng đơn giản
cua hai số này
-
để tìm ra trung vị.
-
Vậy là trung vị sẽ ở giữa hai số
-
3 và 4, tức là sẽ bằng 3.5.
-
Vậy trường hợp này trung vị bằng 3.5.
-
Nếu như bạn có số các chữ số là số chẵn,
thì trung vị
-
hoặc hai số ở giữa, trung bình cộng
đơn giản
-
của hai số ở giữa, hoặc đoạn ở giữa
hai số đó.
-
Nếu bạn có số các chữ số là số lẻ,
-
thì việc tính toán sẽ dễ hơn một chút.
-
Và như chúng ta đã tìm hiểu,
-
để mình cho bạn một bộ dữ liệu khác.
-
Giả sử bộ dữ liệu của chúng ta-- và
mình sẽ
-
sắp xếp nó luôn-- giả sử bộ dữ liệu
của chúng ta
-
là 0, 7, 50, mình không biết nữa, 10,000
và 1 triệu.
-
Giả sử đây là bộ dữ liệu của chúng ta.
-
Một bộ dữ liệu khá khủng bố đây.
-
Nhưng trong trường hợp này,
trung vị của chúng ta là gì?
-
Ở đây chúng ta có năm con số.
-
Chúng ta có số lượng các chữ số là
số lẻ.
-
Nên sẽ dễ hơn để chọn ra số ở giữa.
-
Số ở giữa chính là số lớn hơn hai số
trong bộ số
-
và nhỏ hơn hai số trong bộ số.
-
Đó chính xác là số ở giữa.
-
Trong trường hợp này, trung vị của
chúng ta là 50.
-
Bây giờ đến số đo bình quân thứ ba,
-
và đây chắc chắn là nó rồi,
đó chắc chắn
-
là cái được sử dụng ít nhất trong
đời sống, chính là yếu vị.
-
Và mọi người thường hay lãng quên
về nó.
-
Nó giống như một cái gì đó rất phức tạp.
-
Nhưng những gì chúng ta sẽ thấy
thực chất là
-
một ý tưởng rất dễ hiểu.
-
Và trong một vài phương pháp,
nó chính là ý tưởng đơn giản nhất.
-
Yếu vị thực ra là con số chung nhất
trong một bộ dữ liệu,
-
nếu như có một con số chung nhất.
-
Nếu tất cả các con số đều được biểu diễn
một cách đồng đều,
-
nếu không có một con số chung nào,
-
thì bạn không có yếu vị.
-
Nhưng căn cứ vào đó, định nghĩa của
yếu vị,
-
Đâu là con số chung duy nhất trong bộ
dữ liệu nguyên bản của chúng ta,
-
trong bộ dữ liệu ở ngay đây?
-
Chúng ta có một con số 4 duy nhất.
-
Chúng ta có một con số 3 duy nhất.
-
Nhưng chúng ta có hai số 1.
-
Chúng ta có một số 6 và một số 7.
-
Vậy con số xuất hiện nhiều nhất
ở đây
-
chính là số 1.
-
Vậy nên yếu vị, con số điển hình nhất,
con số phổ biến nhất
-
ở đây là 1.
-
Vậy, như bạn thấy đấy, đây đều là các cách
khác nhau
-
để tìm một giá trị trung bình, giá trị
giữa và giá trị xuất hiện thường xuyên nhất.
-
Nhưng chúng biểu đạt theo những
cách rất khác nhau.
-
Và khi chúng ta càng nghiên cứu kỹ hơn
về thống kê,
-
chúng ta sẽ thấy được rằng chúng có ích
cho nhiều thứ khác nhau.
-
Chúng được sử dụng rất thường xuyên.
-
Trung vị rất hữu ích nếu như bạn
có một vài con số lớn
-
ở đây khiến
-
lệch đi giá trị trung bình đơn giản.
-
Yếu vị cũng có thể hữu ích ở các
trường hợp như thế,
-
đặc biệt nếu như bạn có một
con số
-
xuất hiện thường xuyên hơn.
-
Dù sao thì, mình sẽ kết thúc ở đây.
-
Và chúng ta sẽ-- ở vài video tiếp theo,
chúng ta sẽ khám phá về thống kê
-
thậm chí ở mức độ sâu rộng hơn.