-
เราจะเริ่มเดินทางเข้าสู่โลกของสถิติ, ซึ่งก็คือวิธี
-
เข้าใจ, หรือรู้เรื่อง, ของข้อมูล
-
สถิติคือเรื่องของข้อมูล
-
และเมื่อเราเดินทางเข้าสู่โลกของสถิติ
-
เรากำลังทำสิ่งที่เราเรียกว่า "สถิติเชิงพรรรณนา (descriptive statistics" เป็นส่วนใหญ่
-
ถ้าเรามีข้อมูล แล้วเราอยาบอกคุณมีอะไรเกี่ยวกับข้อมูลบ้าง, โดยไม่ต้องแสดงข้อมูลทั้งหมด --
-
เราจะบรรยายมันอย่างไรโดยใช้ตัวเลขแค่ไม่กี่ตัว?
-
นั่นคือสิ่งที่เราสนใจ
-
แล้วเมื่อเราสร้างเครื่องมือในวิชาสถิติแบบพรรณนาแล้ว,
-
เราก็เริ่มทำการตีความข้อมูล, เริ่มทำการสรุป หรือตัดสินใจ และเราจะเริ่มทำ "สถิติแบบอนุมาน (inferential statistics)" มากขึ้น -- คือการอนุมานนั่นเอง
-
เมื่อรู้แล้ว, ลองคิดถึงวิธีบรรยายข้อมูลกัน
-
สมมุติว่าเรามีชุดตัวเลข, และเราพิจารณามันเป็น "ข้อมูล"
-
บางทีเราอาจวัดความสูงของพืชในสวนเรา
-
สมมุติเรามีต้นไม้ 6 ต้น และความสูงเป็น
-
4 นิ้ว, 3 นิ้ว, 1 นิ้ว, 6 นิ้ว, แล้วก็ 1 นิ้ว อีกต้นสูง 7นิ้ว
-
สมมุติว่ามีคนอยู่ในอีกห้องหนึ่ง, ไม่ได้ดูต้นไม้คุณ แล้วถามว่า
-
"ต้นไม้คุณสูงเท่าไหร่" แล้วเขาอยากได้ให้ตัวเลขแค่ตัวเดียวที่แทนความสูงต่างๆ ทั้งหมดของต้นไม้
-
คุณจะทำอย่างไร?
-
ทีนี้, คุณบอกว่า ฉันจะหาได้อย่างไร? บางทีเลือกเลขที่พบบ่อยที่สุด? บางทีฉันอยากใช้เลขที่แทนตรงกลาง?
-
บางทีฉันอยากได้เลขที่พบบ่อยที่สุด? บางทีฉันอยากได้เลขที่เป็นตรงกลางของเลขทุกตัว?
-
ถ้าคุณพูดอะไรพวกนี้, คุณก็เริ่มทำเหมือนกับ
-
สิ่งที่คนสร้างสถิติเชิงพรรณนาขึ้นมาแล้ว
-
เขาบอกว่า "โอ้... เราจะหามันได้อย่างไร?"
-
เราจะเริ่มต้นด้วยแนวคิดเรื่อง ค่าเฉลี่ย. ในชีวิตประจำวัน "ค่าเฉลี่ย" มีความหมายหลายอย่าง อย่างที่เราเห็น. เวลาหลายคนพูดว่า โดยเฉลี่ย เขามักหมายถึง "ค่าเฉลี่ยเลขคณิต" อย่างที่เราเห็นในไม่ช้า
-
แต่ในสถิติ, ค่าเฉลี่ยนหมายถึงอบางอื่นที่ทั่วไปกว่า
-
มันหมายความว่า "ให้ค่าทั่วไป" หรือจำนวน "ตรงกลาง" หรือ... พวกนี้คือ "หรือ". มันคือความพยายามวัด "แนวโน้มเข้าสู่ศูนย์กลาง"
-
บางครั้ง, คุณมีตัวเลขหลายตัว, คุณพยายามแสดงตัวเลข (ค่าเฉลี่ย) ที่อยู่ตรงกลาง หรือเป็นศูนย์กลางของค่าเหล่านี้
-
แล้วอย่างที่เราเห็น, มันมีค่าเฉลี่ยหลายแบบ
-
อย่างแรกคืออันนี้, คุณอาจคุ้นคยมันมากที่สุด, มันคืออันที่คนพูดถึงในข้อสอบ หรือความสูงเฉลี่ย มันคือค่าเฉลี่ยเลขคณิต
-
ผมจะเขียนมันด้วยสีเหลืองนะ "ค่าเฉลี่ยเลขคณิต"
-
เมื่อ Arithmetic เป้นคำนาม เราเรียก (อ่าน) มันว่า อู-ริด-เม-ทิก. เวลาเป็นคุณศัพท์อย่างนี้ เราเรียก (อ่าน) มันว่า เอ-ริด-เม-ทิก
-
นี่ก็แค่ผลบวกของจำนวนทั้งหมดหารด้วย...
-
นี่คือนิยามที่มนุษย์สร้างขึ้น, ซึ่งเราพบว่ามีประโยชน์ --
-
ผลบวกของจำนวนทั้งหมดหารด้วยจำนวนของตัวเลขที่เรามี
-
แล้วค่าเฉลี่ยเลขคณิตของข้อมูลชุดนี้เป็นเท่าไหร่?
-
ทีนี้, ลองคำนวณดู. มันจะเป็น 4+3+1+6+1+7 ส่วนจำนวนข้อมูลที่เรามี. เรามีข้อมูล 6 จุด, เราจึงหารด้วย 4
-
และเราได้ 4+3 =7 + 1 =8 +6 = 14 + 1 = 15 + 7 =22. ขอผมทำอีกทีนะ.. เรามี 7, 8, 14, 15, 22. ทั้งหมดหารด้วย 6
-
แล้วเราก็เขียนมันเป็นเศษส่วนคละ. 6 หาร 22 ได้ 3 เหลือเศษ 4. มันจึงเป็น 3 เศษ 4 ส่ว 6 ซึ่งเท่ากับ 3 กับ 2 ส่วน 3. เราเขียนมันเป็นทศนิยามได้: 3.6 ซ้ำ
-
เราสามารถเขียนมันแบบไหนก็ได้ แต่่นี่คือเลขตัวแทน, นี่คือการพยายามหา "แนวโน้มสู่ศูนย์กลาง"
-
เหมือนเดิม, นี่คือสิ่งที่มนุษย์สร้างขึ้น มันไม่ใช่ว่ามีคนพบใน
-
ตำราศาสนาบอกว่า "นี่คือวิธีที่ค่าเฉลี่ยเลขคณิตต้องนิยาม"
-
มันไม่ได้บริสุทธิ์เหมือนการคำนวณ, อย่างเช่นการค้นพบวงกลมเนื่องจากการสังเกตจักรวลา
-
มันคือสิ่งที่มนุษย์สร้างขึ้น โดยเราเห็นว่ามันมีประโยชน์
-
ทีนี้, มันมีวิธีวัดค่าเฉลี่ย หรือค่า "ทั่วไป" หรือค่ากลางอื่นๆ อีก
-
วิธีอย่างอื่น ที่ทั่วไปคือ ค่ามัธยฐาน (median value) ผมจะเขียนมัธยฐานด้วยสีชมพูนะ
-
มัธยฐานหมายถึงค่ากลาง
-
ถ้าคุณเรียงจำนวนทั้งหมดแล้วหาค่าตรงกลาง, มันก็คือมัธยฐาน
-
แล้วค่ามัธยฐานของข้อมูลชัดนี้คืออะไร?
-
มัธยฐานของข้อมูลชุดนี้คืออะไร?
-
เรามี 1, 1, 3, 4, 6, 7 ค่ากลางคืออะไร?
-
เราเห็นว่าเรามีจำนวนเป็นเลขคู่, เนื่องจากไม่มีตรงกลาง, เราจึงมีเลขกลางสองตัว
-
3 กับ 4
-
และในกรณีที่คุณมีเลขกลางสองตัว, คุณก็หาค่ากลางระหว่างสองตัวนั้น
-
นั่นคือค่าเฉลี่ยเลขคณิตสองตัวระหว่างจำนวนทั้งสอง, เพื่อหาค่ามัธยฐาน
-
มัธยฐาน ที่ค่ากลางระหว่าง 3 กับ 4, นั่นคือ 3.5. ในกรณีมัธยฐานจึงเป็น 3.5
-
แล้วถ้าคุณมีจำนวนข้อมูลเป็นจำนวนคู่, ค่ามัธยฐานคือ ค่าเฉลี่ยเลขคณิตระหว่างจำนวนกลาง 2 ตัว
-
ถ้าคุณมีจำนวนข้อมูลเป็นจำนวนคี่, มันก็หาได้ง่ายกว่า
-
อันนี้ผมให้ข้อมูลคุณที่มีปริมาณต่างกัน
-
นี่คือปริมาณข้อมูลที่ผมได้เรียงไว้แล้ว
-
ข้อมูลตรงนี้คือ 0, 0, 7 , 50, 10,000 และ 1,000,000
-
ข้อมูลที่บ้ามาก, ในกรณีนี้, ค่ามัธยฐานคืออะไร?
-
เรามีเลข 5 ตัว, เป็นจำนวนคี่, วิธีหาง่ายๆ คือ เรามีเลข 5 ตัว, จำนวนคี่. เราหาเลขกลางได้ง่ายๆ
-
ค่ากลางคือจำนวนที่มากกว่าเลขอื่น 2 ตัว และน้อยกว่าเลขอื่น 2 ตัว
-
นี่ก็คือค่ากลางพอดี. ในกรณีนี้มัธยฐานเราคือ 50
-
ทีนี้, การวัดค่ากลางอันที่สาม คืออันที่ใช้น้อยที่สุด: ฐานนิยม (mode)
-
มันฟังดูซับซ้อน. แต่ปรากฏว่ามันคือแนวคิดที่พื้นฐานที่สุด: ฐานนิยมที่เลขที่ปรากฎบ่อยที่สุดในชุดข้อมูล
-
แล้วฐานนิยมคืออะไร? ถ้าค่าทั้งหมดปรากฏเพียงครั้งเดียว, มันก็ไม่มีฐานนิยม
-
แต่ฐานนิยมในข้อมูลเราคืออะไร? เรามี 4, 3 แค่ตัวเดียว, แต่เรามี 2 สองตัว, เรามี 6 กับ 7 อย่างละตัว
-
เลขที่ปรากฏบ่อยที่สุดคือ อันแรก ดังนั้นฐานนิยมคืออันแรก
-
เราเห็นวิธีการหาค่ากลางแบบต่างๆ แล้ว และเราจะเรียนในวิชาสถิติ
-
ว่าแต่ละอย่างดีต่างกันไป
-
นี่คืออันที่ใช้มากที่สุดในหลายๆ อย่าง
-
มัธยฐานสำคัญเวลาคุณมีเลขเพี้ยนๆ มากมายที่กวนค่าเฉลี่ยเลขคณิต
-
ฐานนนิยมมีประโยชน์ในกรณีที่มีค่าปรากฏมากกว่า 1 ครั้ง
-
โอเค, เวลาหมดแล้ว. ในวิดีโอนห้า เราจะสำรวจสถิติให้ลึกกว่านี้กัน