-
วิดีโออันนี้เป็นวิดีโอที่พิเศษสุด
ด้วยเหตุผลหลายอย่าง
อย่างแรก, ผมจะแนะนำให้คุณรู้จักความแปรปรวนของตัวอย่าง,
ซึ่งเป็นเรื่องที่น่สนใจ
และผมพายามจะบันทึกวิดีโอนี้เป็นแบบ HD
หวังว่าคุณจะเห็นได้ใหญ่ขึ้นและชัดขึ้น
กว่าที่เคย
แต่เราจะดุว่ามันเป็นอย่างไร
นี่เป็นการทดลองนิดหน่อย, ทนกับผมหน่อยนะ
แต่, ก่อนที่เราจะพูดถึงความแปรปรวนของตัวอย่างล
ผมคิดว่ามันดีต่อการเรียน ถ้าเราจะทบทวนความแปรปรวน
ของประชากรกันก่อน
แล้วเราถึงเปรียบเทียบสูตรของมันได้
ความแปรปรวนของประชากร -- นี่คือตัวอักษร
กรีกซิกม่า
ซิกม่าเล็ก กำลังสอง
นั่นหมายถึงความแปรปรวน
ผมรู้ว่ามันแปลกๆ ที่ตัวแปร
มีกำลังสองติดมาอยู่แล้ว
คุณได้กำลังสองตัวแปรนี้
นี่คือตัวแปร
ซิกม่ากำลังสอง หมายถึงความแปรปรวน
ที่จริง, ขอผมเขียนลงไปนะ
นั่นเท่ากับความแปรปรวน
-
และนั่นเท่ากับ -- คุณหาจุดข้อมูลแต่ละจุดมา -- แล้ว
เราจะเรียกมันว่า x ห้อย i
คุณเอาจุดข้อมูลแต่จุดมา หาว่ามันห่างจาก
ค่าเฉลี่ยประชากรเท่าไหร่, คุณกำลังสองมัน, แล้วคุณก็
หาค่าเฉลี่ยของทั้งหมดนั้น
แล้วคุณหาค่าเฉลี่ย, คุณบวกทุกอย่างเข้าด้วยกัน
คุณก็ไปจาก i เท่ากับ 1
จากจุดนั้น, ไปจนถึงจุดที่ n
แล้ว, เวลาเฉลี่ย, คุณบวกมันจนหมด
แล้วหารด้วย n
ความแปรปรวนก็คือค่าเฉลี่ยของกำลังสองของระยะห่าง
แต่ละจุดเหล่านี้ ไปยังค่าเฉลี่ย
เพื่อให้คุณได้สัญชาตญาณอีกที, มันบอกว่า
โดยเฉลี่ยแล้ว, แต่ละจุด
หาจากตรงกลางแค่ไหน
นั่นคือวิธีคิดถึงความแปรปรวนที่ดีที่สุด
ทีนี้ ถ้าเกิดเรามี -- นี่
สำหรับประชากร, จริงไหม?
และเราบอกว่า ถ้าเราอยากหาความแปรปรวนของ
ความสูงของคนในประเทศนี้, มันยาก
ที่จะหาความแปรปรวนของประชากร
คุณต้องไป, วัดความสูง
ของทุกคน
250 ล้านคน
หรือถ้ามีประชากรซึ่งเราไม่มีทาง
หาข้อมูลได้ มาจาก
ตัวแปรสุ่ม
เราจะพูดถึงเรื่องนั้นทีหลัง
หลายครั้งคุณต้องประมาณค่าความแปรปรวนนี้
ด้วยการหาความแปรปรวนของตัวอย่างแทน
เหมือนกับที่คุณไม่มีทางหาค่าเฉลี่ยของประชากร
บางทีคุณอาจกะค่ามันด้วย
การหาค่าเฉลี่ยของตัวอย่าง
และเราเรียนไปในวิดีโอที่แล้ว
ถ้านี่คือ -- ถ้านี่คือประชากรทั้งหมด
นั่นคือจุดข้อมูลเป็นล้าน, หรือแม้กระทั่งจุดข้อมูล
ในอนาคตที่คุณหาไม่ได้ เพราะมันเป็น
ตัวแปรสุ่ม
นี่คือประชากร
-
คุณอาจอยากประมาณค่าด้วยการดูที่กลุ่มตัวอย่าง
และนี่คือสถิติเชิงอนุมาน
เกี่ยวข้องเป็นส่วนใหญ่
คือการหาสถิติเชิงพรรณนาของกลุ่มตัวอย่าง
แล้วอนุมานไปถึงประชากร
ขอผมลองใช้ยานี้กับคน 100 คน แล้วถ้ามัน
ดูได้ผลอย่างมีนัยสำคัญทางสถิติ, ยานี้ก็ควร
ใช้ได้กับประชาการทั้งหมดด้วย
นั่นคือสิ่งที่มันหมายถึง
การเข้าใจแนวคิดเรื่องกลุ่มตัวอย่าง
เทียบกับประชากรเป็นสิ่งสำคัญ
การหาค่าทางสถิติของตัวอย่างได้,
ส่วนใหญ่แล้ว, สามารถใช้บรรยายประชากร หรือช่วย
ให้ประมาณค่า, เขาเรียกกันว่า, พารามิเตอร์ของประชากรได้
แล้วค่าเฉลี่ยของ -- ขอผมเขียนนิยามพวกนี้ใหม่นะ
ค่าเฉลี่ยของประชากรคืออะไร?
ผมจะใช้สีม่วงนะ
สีม่วงแทนประชากร
ค่าเฉลี่ยของประชากร
คุณแค่เอาจุดข้อมูลแต่ละตัวมาในประชากร, x i
คุณบวกมันเข้า
คุณเริ่มด้วยจุดข้อมูลอันแรก แล้วคุณก็ทำ
ไปจนถึงจุดข้อมูลที่ n
แล้วคุณหารด้วย n
คุณบวกพวกมันไปจนถึง n
นั่นคือค่าเฉลี่ย
แล้วคุณก็แทนมันลงในสูตรนี้
แล้วคุณก็หาได้ว่าแต่ละจุดไกลจากจุดศูนย์กลาง
จากค่าเฉลี่ยนั้นแค่ไหน
และคุณจะได้ความแปรปรวน
ทีนี้ เกิดอะไรขึ้นถ้าเราทำสำหรับตัวอย่างด้วย?
ทีนี้, ถ้าเราอยากประมาณค่าเฉลี่ยประชากร ด้วย
การคำนวณค่าเฉลี่ยของตัวอย่าง, สิ่งที่ดีที่สุดที่ผม
คิดได้ -- นี่คือสูตรที่ประดิษฐ์ขึ้นมาทั้งนั้น
มีคนบอกว่า, เราจะหาค่าตัวอย่าง
ที่ดีที่สุดอย่างไร?
ทีนี้ สิ่งที่เราทำได้ ก็แค่หาค่าเฉลี่ยของตัวอย่าง
และนั่นคือค่าเฉลี่ยของกลุ่มตัวอย่าง
และเราเรียนในวิดีโอแรก ว่าสัญลักษณ์ --
สูตรเกือบเหมือนกันเลย
แต่สัญลักษณ์ต่างกัน
แทนที่จะเขีน มิว, คุณเขียนว่า x มีขีดอยู่ข้างบน
ค่าเฉลี่ยตัวอย่าง เท่ากับ -- เหมือนเดิม, คุณเอา
จุดข้อมูลตอนนี้ คือในกลุ่มตัวอย่าง, ไม่ใช่ประชากรทั้งหมด
คุณบวกพวกมันเข้า จากอันแรกไป
จนถึงตัวที่ n, จริงไหม?
เขาบอกว่า มันมีจุดข้อมูล n ตัวในกลุ่มตัวอย่าง
แล้วคุณหารมันด้วยจำนวนจุดข้อมูลที่คุณมี
ใช้ได้
นี่มีสูตรเหมือนกัน
วิธีที่ผมหาค่าเฉลี่ยขอประชากร, ผมบอกว่า, เอาล่ะ, ถ้า
ผมมีตัวอย่าง, ขอผมหาค่าเฉลี่ยแบบเดียวกัน
และมันอาจเป็นค่าประมาณที่ดีสำหรับค่าเฉลี่ย
ของประชากรด้วย
ทีนี้ มันน่าสนใจตอนเราพูดถึงความแปรปรวน
ปฏิกิริยาตามธรรมชาติคือว่า โอเค, ผมมีกลุ่มตัวอย่างนี้
ถ้าผมอยากหาค่าความแปรปรวนของประชากร, ทำไม
เราไม่ใช้สูตรเดียวกับที่เรา
ใช้กับตัวอย่างล่ะ?
ผมก็บอกได้ว่า -- นี่คือความแปรปรวนตัวอย่าง
เขาใช้สูตร s กำลังสอง
ซิกม่าก็เหมือนกับตัวอักษรกรีกของ s
ตอนนี้เวลาเราคิดกลุ่มตัวอย่าง, เรา
แค่เขียน s ลงไป
นี่ก็คือความแปรปรวนของตัวอย่าง
ขอผมเขียนมันลงไปนะ
ความแปรปรวนของตัวอย่าง
-
นี่คือ -- เราก็อาจบอกว่า, นี่อาจเป็นวิธีที่ดีในการ
หาความแปรปรวนตัวอย่าง คือทำแบบนี้
ลองหาระยะห่างของแต่ละจุดในตัวอย่าง
หาว่ามันห่างจากค่าเฉลี่ยตัวอย่างแค่ไหน
ตรงนี้ เราใช้ค่าเฉลี่ยประชากร, แต่ตอนนี้เราจะใช้
ค่าเฉลี่ยตัวอย่าง เพราะนั่นคือสิ่งที่เรามี
เราไม่รู้ว่าค่าเฉลี่ยประชากรเป็นเท่าไหร่
หากไม่ดูประชากรทั้งหมด
ยกกำลังมัน
นั่นทำให้มันเป็นบวก และมันมีสมบัติอื่น
ซึ่งเราจะพูดถึงต่อไป
แล้วถ้าเราหาค่าเฉลี่ยของระยะกำลังสองพวกนี้
แล้วคุณก็หาค่ามันจาก -- คุณรวมพวกมันเข้า
มันมีอยู่ n ตัวให้รวม, จริงไหม?
n เล็ก
แล้วคุณก็หารมันด้วยตัว n เล็ก
และคุณบอกว่า, นี่เป็นค่าประมาณที่ดี
ไม่ว่าความแปรปรวนนี้เป็นอะไร, มันน่าจะเป็นค่าประมาณที่ดี
สำหรับประชากรทั้งหมด
ที่จริง นี่คือสิ่งที่บางคนมักหมายถึง เวลาเขา
พูดถึงความแปรปรวนของตัวอย่าง
และบางครั้ง มันมักหมายถึงอันนี้
เขาจะเขียน n เล็กตรงนี้
และสาเหตุที่เขาทำอย่างนั้น เพราะเราหารด้วย n
แล้วคุณบอกว่า, ซาล มันมีปัญหาอะไรเหรอ?
และปัญหา -- ผมจะบอกถึงสัญชาตญาณให้ฟัง เพราะนี่
เป็นบางสิ่งที่ผมเคยสงสัยในใจ
และผมยังคงมีปัญหากับ
สัญชาตญาณเบื้องหลังเรื่องนี้อยู่
ผมมีสัญชาตญาณอยู่, แต่เราต้องพิสูจน์
ด้วยตัวองว่ามันเป็นอย่างนั้นจริง
แต่ลองคิดดู
ถ้าผมมีเลขหลายๆ ตัว, และผมจะวาด
เส้นจำนวนตรงนี้
ถ้าผมวาดเส้นจำนวนตรงนี้ -- สมมุติคุณรู้ว่า --
สมมุติว่าผมมีเลขหลายๆ ตัวในประชากร
สมมุติว่า -- ผมจะสุ่มใส่เลข
ลงไปเป็นประชากรนะ
อันที่อยู่ทางขวา มากกว่าอัน
ที่อยู่ทางซ้าย
-
แล้วถ้าผมเลือกกลุ่มตัวอย่างจากมัน, บางทีผมเลือก --
ตัวอย่าง, มันเป็นไปอย่างสุ่ม
ที่จริงคุณอยากเลือกตัวอย่างแบบสุ่ม
คุณไม่อยากเลือกให้มันเบี้ยวไป
บางทีผมเลือกอันนี้, อันนี้, อันนี้,
แล้วก็อันนั้น, ดีไหม?
แล้วถ้าเราหาค่าเฉลี่ยและเลขนั้น,
เลขนั้น, เลขนั้น, เลขนั้น
มันจะอยู่ตรงกลางสักที่
มันอาจจะอยู่แถวโน้น
แล้วถ้าเราหาความแปรปรวนตัวอย่าง โดยใช้
สูตรนี้, ผมก็บอกว่า โอเค ระยะนี่กำลังสอง บวกระยะนี่
กำลังสอง บวกระยะนี่กำลังสอง บวก
ระยะนั่นกำลังสอง แล้วเฉลี่ยทุกอย่างออกมา
แล้วผมจะได้เลขนี้มา
แล้วมันอาจเป็นค่าประมาณที่ดี
สำหรับความแปรปรวนของประชากรทั้งหมดนี้
ค่าเฉลี่ยของประชากรก็จะ
-- ไม่รู้สิ
มันอาจอยู่ใกล้อันนี้
ถ้าเราเอาข้อมูลทุกจุดมาแล้วเฉลี่ยมัน,
มันอาจอยู่ตรงนี้สักที่
แล้วถ้าคุณหาความแปรปรวน, มันอาจอยู่
ใกล้กับค่าเฉลี่ยของเส้นพวกนี้มาก, จริงไหม?
ระยะทางของความแปรปรวนตัวอย่างทั้งหมด, จริงไหม?
ใช้ได้
แล้วคุณบอกว่า, เฮ้ ซาล
นี่ก็ดูดีแล้วนี่
แต่มันมีปัญหาอยู่นิดหน่อย
ถ้าเกิด -- มันมีโอกาสที่ แทนที่จะ
เลือกตัวเลขที่กระจายตัวดีอย่างนี้
เป็นตัวอย่าง, ถ้าเกิดผมเลือกได้เลขนี้, เลขนี้
แล้วก็เลขนั้น เป็นกลุ่ม -- สมมุติว่าเลขนั้นด้วย
เป็นกลุ่มตัวอย่างของผมล่ะ?
ทีนี้ ไม่ว่ากลุ่มตัวอย่างคุณเป็นอะไร ค่าเฉลี่ยตัวอย่าง
จะอยู่ตรงกลางของมัน, จริงไหม?
ในกรณีนี้, ค่าเฉลี่ยตัวอย่างอาจอยู่ตรงนี้
แล้วตัวเลขทั้งหมดนี้, คุณอาจบอกว่า โอเค เลขนี้
ไม่ไกลจากเลขนั้น, แต่เลขนั้นไม่ไกลนัก, แล้ว
เลขนั้นก็ไม่ไกลเกินไป
ค่าความแปรปรวนตัวอย่าง, เมื่อคุณหาแบบนี้, มันจะ
ออกมาต่ำไปหน่อย
เพราะตัวเลขพวกนี้, พวกมัน -- พวกมัน
ตามนิยามนี้, จะอยู่ใกล้ค่าเฉลี่ย
ของกันและกัน
แต่ในกรณนี้, ตัวอย่างของคุณเบี้ยว
ค่าเฉลี่ยของประชากรจริง อยู่ข้างนอกสักที่
ดังนั้นความแปรปรวนจริงของตัวอย่าง, ถ้าคุณรู้
ค่าเฉลี่ยจริง -- ผมรู้ว่านี่มันน่าสับสนหน่อย
ถ้าคุณรู้ค่าเฉลี่ย, คุณจะบอกว่า
โอ้ ว้าว
คุณหาระยะพวกนี้ได้, ซึ่ง
มีมากกว่านี้อีก
ประเด็นที่ผมบอกคือว่า, เวลาคุณเลือก
กลุ่มตัวอย่าง, มันมีโอกาสที่ค่าเฉลี่ยตัวอย่างของคุณ
มันใกล้กับค่าเฉลี่ยประชากร, จริงไหม?
บางทีค่าเฉลี่ยตัวอย่างอยู่ตรงนี้ และค่าเฉลี่ย
ประชากรอยู่ตรงนี้
แล้วสูตรนี้จะใช้ได้เหมือนกัน,
อย่างน้อยเมื่อรู้จุดข้อมูลของกลุ่มตัวอย่าง แล้วหา
ว่าความแปรปรวนเป็นเท่าไหร่
แต่มันมีโอกาสทีเดียว ที่ค่าเฉลี่ยตัวอย่างของคุณ -- ค่าเฉลี่ยตัวอย่าง
จะอยู่ข้างในกลุ่มตัวอย่างเสมอ, จริงไหม?
มันจะอยู่ตรงศูนย์กลางของกลุ่มตัวอย่างเสมอ
แต่มันเป็นไปได้ที่ค่าเฉลี่ยประชากร
อยู่ข้างนอกกลุ่มตัวอย่าง
มันอาจเป็นว่า คุณเลือกอัน
ที่มันไม่มีค่าเฉลี่ยประชากรอยู่ข้างใน
แล้วความแปรปรวนตัวอย่าง ที่คำนวณแบบนี้ จะ
คาดเดาความแปรปรวนประชากรต่ำไป
, จริงไหม?
เพราะมันเลือกค่าเฉลี่ยที่ใกล้ตัวเอง
มากกว่าค่าเฉลี่ยประชากร
และถ้าคุณเข้าใจ, ที่จริง, แค่สัก 10%
ของอันนี้, คุณก็เป็นนักเรียนวิชาสิถิตระดับสูงแล้ว
แต่ผมบอกเรื่องพวกนี้ให้คุณ, หวังว่า
จะได้สัญชาตญาณเพื่อเข้าใจว่า อันนี้มักประเมินค่าต่ำไป
สูตรนี้มักกะค่าความแปรปรวนของ
ประชากรจริงต่ำไป
และมันมีสูตร, และที่จริงมีวิธีพิสูจน์
ที่รัดกุมกว่าที่ผมทำ, มันมีวิธีที่ดีกว่า
และเขาเรียกมันว่าค่าประมาณความแปรปรวน
ประชารที่ไม่เอนเอียง
หรือความแปรปรวนตัวอย่างแบบไม่เอนเอียง
บางครั้งเขาเขียนแทนด้วย s กำลังสองเหมือนเดิม
บางครั้งเขาเขียนด้วย s n ลบ 1 กำลังสอง
และผมจะแสดงให้ดูว่าทำไม
มันเกือบเหมือนเดิม
คุณเอาจุดข้อมูลแต่ละจุดมา, หาว่าพวกมัน
ใกล้จากค่าเฉลี่ยตัวอย่างแค่ไหน
คุณยกกำลังพวกมัน
แล้วคุณหาค่าเฉลี่ยของพวกนั้นกำลังสอง, ยกเว้น
อยู่อย่างเดียว
i เท่ากับ 1 ถึง i เท่ากับ n
แทนที่จะหารด้วย n, คุณหารด้วยเลข
ที่น้อยลงหน่อย
คุณหารด้วย n ลบ 1
แล้วเมื่อคุณหารด้วย n-1 แทนที่จะหารด้วย
n, คุณจะได้ค่าที่มากกว่านิดหน่อยตรงนี้
ปรากฏว่านี่คือ
ค่าประมาณที่ดีกว่า
และวันหนึ่ง ผมจะเขียนโปรแกรมคอมพิวเตอร์เพื่อพิสูจน์
อย่างน้อยด้วยการทดลอง ว่านี่
คือการประมาณควาามแปรปรวนของประชากรที่ดีกว่า
และคุณสามารถคำนวณมันแบบเดียวกันได้
คุณแค่หารด้วย n ลบ 1
วิธีคิดอีกอย่างคือว่า -- และที่จริง, ไม่
ผมหมดเวลาแล้ว
ผมปล่อยคุณไปก่อนนะ
แล้วในวิดีโอหน้าล เราจะมาคำนวณ
เพื่อให้คุณไม่รู้สึกล้นเกินไป
เนื่องจากแนวคิดพวกนี้
เพราะเราใช้แนวคิดที่เป็นนามธรรมอยู่
แล้วพบกันในวิดีโอหน้าครับ
-