- วิดีโออันนี้เป็นวิดีโอที่พิเศษสุด ด้วยเหตุผลหลายอย่าง อย่างแรก, ผมจะแนะนำให้คุณรู้จักความแปรปรวนของตัวอย่าง, ซึ่งเป็นเรื่องที่น่สนใจ และผมพายามจะบันทึกวิดีโอนี้เป็นแบบ HD หวังว่าคุณจะเห็นได้ใหญ่ขึ้นและชัดขึ้น กว่าที่เคย แต่เราจะดุว่ามันเป็นอย่างไร นี่เป็นการทดลองนิดหน่อย, ทนกับผมหน่อยนะ แต่, ก่อนที่เราจะพูดถึงความแปรปรวนของตัวอย่างล ผมคิดว่ามันดีต่อการเรียน ถ้าเราจะทบทวนความแปรปรวน ของประชากรกันก่อน แล้วเราถึงเปรียบเทียบสูตรของมันได้ ความแปรปรวนของประชากร -- นี่คือตัวอักษร กรีกซิกม่า ซิกม่าเล็ก กำลังสอง นั่นหมายถึงความแปรปรวน ผมรู้ว่ามันแปลกๆ ที่ตัวแปร มีกำลังสองติดมาอยู่แล้ว คุณได้กำลังสองตัวแปรนี้ นี่คือตัวแปร ซิกม่ากำลังสอง หมายถึงความแปรปรวน ที่จริง, ขอผมเขียนลงไปนะ นั่นเท่ากับความแปรปรวน - และนั่นเท่ากับ -- คุณหาจุดข้อมูลแต่ละจุดมา -- แล้ว เราจะเรียกมันว่า x ห้อย i คุณเอาจุดข้อมูลแต่จุดมา หาว่ามันห่างจาก ค่าเฉลี่ยประชากรเท่าไหร่, คุณกำลังสองมัน, แล้วคุณก็ หาค่าเฉลี่ยของทั้งหมดนั้น แล้วคุณหาค่าเฉลี่ย, คุณบวกทุกอย่างเข้าด้วยกัน คุณก็ไปจาก i เท่ากับ 1 จากจุดนั้น, ไปจนถึงจุดที่ n แล้ว, เวลาเฉลี่ย, คุณบวกมันจนหมด แล้วหารด้วย n ความแปรปรวนก็คือค่าเฉลี่ยของกำลังสองของระยะห่าง แต่ละจุดเหล่านี้ ไปยังค่าเฉลี่ย เพื่อให้คุณได้สัญชาตญาณอีกที, มันบอกว่า โดยเฉลี่ยแล้ว, แต่ละจุด หาจากตรงกลางแค่ไหน นั่นคือวิธีคิดถึงความแปรปรวนที่ดีที่สุด ทีนี้ ถ้าเกิดเรามี -- นี่ สำหรับประชากร, จริงไหม? และเราบอกว่า ถ้าเราอยากหาความแปรปรวนของ ความสูงของคนในประเทศนี้, มันยาก ที่จะหาความแปรปรวนของประชากร คุณต้องไป, วัดความสูง ของทุกคน 250 ล้านคน หรือถ้ามีประชากรซึ่งเราไม่มีทาง หาข้อมูลได้ มาจาก ตัวแปรสุ่ม เราจะพูดถึงเรื่องนั้นทีหลัง หลายครั้งคุณต้องประมาณค่าความแปรปรวนนี้ ด้วยการหาความแปรปรวนของตัวอย่างแทน เหมือนกับที่คุณไม่มีทางหาค่าเฉลี่ยของประชากร บางทีคุณอาจกะค่ามันด้วย การหาค่าเฉลี่ยของตัวอย่าง และเราเรียนไปในวิดีโอที่แล้ว ถ้านี่คือ -- ถ้านี่คือประชากรทั้งหมด นั่นคือจุดข้อมูลเป็นล้าน, หรือแม้กระทั่งจุดข้อมูล ในอนาคตที่คุณหาไม่ได้ เพราะมันเป็น ตัวแปรสุ่ม นี่คือประชากร - คุณอาจอยากประมาณค่าด้วยการดูที่กลุ่มตัวอย่าง และนี่คือสถิติเชิงอนุมาน เกี่ยวข้องเป็นส่วนใหญ่ คือการหาสถิติเชิงพรรณนาของกลุ่มตัวอย่าง แล้วอนุมานไปถึงประชากร ขอผมลองใช้ยานี้กับคน 100 คน แล้วถ้ามัน ดูได้ผลอย่างมีนัยสำคัญทางสถิติ, ยานี้ก็ควร ใช้ได้กับประชาการทั้งหมดด้วย นั่นคือสิ่งที่มันหมายถึง การเข้าใจแนวคิดเรื่องกลุ่มตัวอย่าง เทียบกับประชากรเป็นสิ่งสำคัญ การหาค่าทางสถิติของตัวอย่างได้, ส่วนใหญ่แล้ว, สามารถใช้บรรยายประชากร หรือช่วย ให้ประมาณค่า, เขาเรียกกันว่า, พารามิเตอร์ของประชากรได้ แล้วค่าเฉลี่ยของ -- ขอผมเขียนนิยามพวกนี้ใหม่นะ ค่าเฉลี่ยของประชากรคืออะไร? ผมจะใช้สีม่วงนะ สีม่วงแทนประชากร ค่าเฉลี่ยของประชากร คุณแค่เอาจุดข้อมูลแต่ละตัวมาในประชากร, x i คุณบวกมันเข้า คุณเริ่มด้วยจุดข้อมูลอันแรก แล้วคุณก็ทำ ไปจนถึงจุดข้อมูลที่ n แล้วคุณหารด้วย n คุณบวกพวกมันไปจนถึง n นั่นคือค่าเฉลี่ย แล้วคุณก็แทนมันลงในสูตรนี้ แล้วคุณก็หาได้ว่าแต่ละจุดไกลจากจุดศูนย์กลาง จากค่าเฉลี่ยนั้นแค่ไหน และคุณจะได้ความแปรปรวน ทีนี้ เกิดอะไรขึ้นถ้าเราทำสำหรับตัวอย่างด้วย? ทีนี้, ถ้าเราอยากประมาณค่าเฉลี่ยประชากร ด้วย การคำนวณค่าเฉลี่ยของตัวอย่าง, สิ่งที่ดีที่สุดที่ผม คิดได้ -- นี่คือสูตรที่ประดิษฐ์ขึ้นมาทั้งนั้น มีคนบอกว่า, เราจะหาค่าตัวอย่าง ที่ดีที่สุดอย่างไร? ทีนี้ สิ่งที่เราทำได้ ก็แค่หาค่าเฉลี่ยของตัวอย่าง และนั่นคือค่าเฉลี่ยของกลุ่มตัวอย่าง และเราเรียนในวิดีโอแรก ว่าสัญลักษณ์ -- สูตรเกือบเหมือนกันเลย แต่สัญลักษณ์ต่างกัน แทนที่จะเขีน มิว, คุณเขียนว่า x มีขีดอยู่ข้างบน ค่าเฉลี่ยตัวอย่าง เท่ากับ -- เหมือนเดิม, คุณเอา จุดข้อมูลตอนนี้ คือในกลุ่มตัวอย่าง, ไม่ใช่ประชากรทั้งหมด คุณบวกพวกมันเข้า จากอันแรกไป จนถึงตัวที่ n, จริงไหม? เขาบอกว่า มันมีจุดข้อมูล n ตัวในกลุ่มตัวอย่าง แล้วคุณหารมันด้วยจำนวนจุดข้อมูลที่คุณมี ใช้ได้ นี่มีสูตรเหมือนกัน วิธีที่ผมหาค่าเฉลี่ยขอประชากร, ผมบอกว่า, เอาล่ะ, ถ้า ผมมีตัวอย่าง, ขอผมหาค่าเฉลี่ยแบบเดียวกัน และมันอาจเป็นค่าประมาณที่ดีสำหรับค่าเฉลี่ย ของประชากรด้วย ทีนี้ มันน่าสนใจตอนเราพูดถึงความแปรปรวน ปฏิกิริยาตามธรรมชาติคือว่า โอเค, ผมมีกลุ่มตัวอย่างนี้ ถ้าผมอยากหาค่าความแปรปรวนของประชากร, ทำไม เราไม่ใช้สูตรเดียวกับที่เรา ใช้กับตัวอย่างล่ะ? ผมก็บอกได้ว่า -- นี่คือความแปรปรวนตัวอย่าง เขาใช้สูตร s กำลังสอง ซิกม่าก็เหมือนกับตัวอักษรกรีกของ s ตอนนี้เวลาเราคิดกลุ่มตัวอย่าง, เรา แค่เขียน s ลงไป นี่ก็คือความแปรปรวนของตัวอย่าง ขอผมเขียนมันลงไปนะ ความแปรปรวนของตัวอย่าง - นี่คือ -- เราก็อาจบอกว่า, นี่อาจเป็นวิธีที่ดีในการ หาความแปรปรวนตัวอย่าง คือทำแบบนี้ ลองหาระยะห่างของแต่ละจุดในตัวอย่าง หาว่ามันห่างจากค่าเฉลี่ยตัวอย่างแค่ไหน ตรงนี้ เราใช้ค่าเฉลี่ยประชากร, แต่ตอนนี้เราจะใช้ ค่าเฉลี่ยตัวอย่าง เพราะนั่นคือสิ่งที่เรามี เราไม่รู้ว่าค่าเฉลี่ยประชากรเป็นเท่าไหร่ หากไม่ดูประชากรทั้งหมด ยกกำลังมัน นั่นทำให้มันเป็นบวก และมันมีสมบัติอื่น ซึ่งเราจะพูดถึงต่อไป แล้วถ้าเราหาค่าเฉลี่ยของระยะกำลังสองพวกนี้ แล้วคุณก็หาค่ามันจาก -- คุณรวมพวกมันเข้า มันมีอยู่ n ตัวให้รวม, จริงไหม? n เล็ก แล้วคุณก็หารมันด้วยตัว n เล็ก และคุณบอกว่า, นี่เป็นค่าประมาณที่ดี ไม่ว่าความแปรปรวนนี้เป็นอะไร, มันน่าจะเป็นค่าประมาณที่ดี สำหรับประชากรทั้งหมด ที่จริง นี่คือสิ่งที่บางคนมักหมายถึง เวลาเขา พูดถึงความแปรปรวนของตัวอย่าง และบางครั้ง มันมักหมายถึงอันนี้ เขาจะเขียน n เล็กตรงนี้ และสาเหตุที่เขาทำอย่างนั้น เพราะเราหารด้วย n แล้วคุณบอกว่า, ซาล มันมีปัญหาอะไรเหรอ? และปัญหา -- ผมจะบอกถึงสัญชาตญาณให้ฟัง เพราะนี่ เป็นบางสิ่งที่ผมเคยสงสัยในใจ และผมยังคงมีปัญหากับ สัญชาตญาณเบื้องหลังเรื่องนี้อยู่ ผมมีสัญชาตญาณอยู่, แต่เราต้องพิสูจน์ ด้วยตัวองว่ามันเป็นอย่างนั้นจริง แต่ลองคิดดู ถ้าผมมีเลขหลายๆ ตัว, และผมจะวาด เส้นจำนวนตรงนี้ ถ้าผมวาดเส้นจำนวนตรงนี้ -- สมมุติคุณรู้ว่า -- สมมุติว่าผมมีเลขหลายๆ ตัวในประชากร สมมุติว่า -- ผมจะสุ่มใส่เลข ลงไปเป็นประชากรนะ อันที่อยู่ทางขวา มากกว่าอัน ที่อยู่ทางซ้าย - แล้วถ้าผมเลือกกลุ่มตัวอย่างจากมัน, บางทีผมเลือก -- ตัวอย่าง, มันเป็นไปอย่างสุ่ม ที่จริงคุณอยากเลือกตัวอย่างแบบสุ่ม คุณไม่อยากเลือกให้มันเบี้ยวไป บางทีผมเลือกอันนี้, อันนี้, อันนี้, แล้วก็อันนั้น, ดีไหม? แล้วถ้าเราหาค่าเฉลี่ยและเลขนั้น, เลขนั้น, เลขนั้น, เลขนั้น มันจะอยู่ตรงกลางสักที่ มันอาจจะอยู่แถวโน้น แล้วถ้าเราหาความแปรปรวนตัวอย่าง โดยใช้ สูตรนี้, ผมก็บอกว่า โอเค ระยะนี่กำลังสอง บวกระยะนี่ กำลังสอง บวกระยะนี่กำลังสอง บวก ระยะนั่นกำลังสอง แล้วเฉลี่ยทุกอย่างออกมา แล้วผมจะได้เลขนี้มา แล้วมันอาจเป็นค่าประมาณที่ดี สำหรับความแปรปรวนของประชากรทั้งหมดนี้ ค่าเฉลี่ยของประชากรก็จะ -- ไม่รู้สิ มันอาจอยู่ใกล้อันนี้ ถ้าเราเอาข้อมูลทุกจุดมาแล้วเฉลี่ยมัน, มันอาจอยู่ตรงนี้สักที่ แล้วถ้าคุณหาความแปรปรวน, มันอาจอยู่ ใกล้กับค่าเฉลี่ยของเส้นพวกนี้มาก, จริงไหม? ระยะทางของความแปรปรวนตัวอย่างทั้งหมด, จริงไหม? ใช้ได้ แล้วคุณบอกว่า, เฮ้ ซาล นี่ก็ดูดีแล้วนี่ แต่มันมีปัญหาอยู่นิดหน่อย ถ้าเกิด -- มันมีโอกาสที่ แทนที่จะ เลือกตัวเลขที่กระจายตัวดีอย่างนี้ เป็นตัวอย่าง, ถ้าเกิดผมเลือกได้เลขนี้, เลขนี้ แล้วก็เลขนั้น เป็นกลุ่ม -- สมมุติว่าเลขนั้นด้วย เป็นกลุ่มตัวอย่างของผมล่ะ? ทีนี้ ไม่ว่ากลุ่มตัวอย่างคุณเป็นอะไร ค่าเฉลี่ยตัวอย่าง จะอยู่ตรงกลางของมัน, จริงไหม? ในกรณีนี้, ค่าเฉลี่ยตัวอย่างอาจอยู่ตรงนี้ แล้วตัวเลขทั้งหมดนี้, คุณอาจบอกว่า โอเค เลขนี้ ไม่ไกลจากเลขนั้น, แต่เลขนั้นไม่ไกลนัก, แล้ว เลขนั้นก็ไม่ไกลเกินไป ค่าความแปรปรวนตัวอย่าง, เมื่อคุณหาแบบนี้, มันจะ ออกมาต่ำไปหน่อย เพราะตัวเลขพวกนี้, พวกมัน -- พวกมัน ตามนิยามนี้, จะอยู่ใกล้ค่าเฉลี่ย ของกันและกัน แต่ในกรณนี้, ตัวอย่างของคุณเบี้ยว ค่าเฉลี่ยของประชากรจริง อยู่ข้างนอกสักที่ ดังนั้นความแปรปรวนจริงของตัวอย่าง, ถ้าคุณรู้ ค่าเฉลี่ยจริง -- ผมรู้ว่านี่มันน่าสับสนหน่อย ถ้าคุณรู้ค่าเฉลี่ย, คุณจะบอกว่า โอ้ ว้าว คุณหาระยะพวกนี้ได้, ซึ่ง มีมากกว่านี้อีก ประเด็นที่ผมบอกคือว่า, เวลาคุณเลือก กลุ่มตัวอย่าง, มันมีโอกาสที่ค่าเฉลี่ยตัวอย่างของคุณ มันใกล้กับค่าเฉลี่ยประชากร, จริงไหม? บางทีค่าเฉลี่ยตัวอย่างอยู่ตรงนี้ และค่าเฉลี่ย ประชากรอยู่ตรงนี้ แล้วสูตรนี้จะใช้ได้เหมือนกัน, อย่างน้อยเมื่อรู้จุดข้อมูลของกลุ่มตัวอย่าง แล้วหา ว่าความแปรปรวนเป็นเท่าไหร่ แต่มันมีโอกาสทีเดียว ที่ค่าเฉลี่ยตัวอย่างของคุณ -- ค่าเฉลี่ยตัวอย่าง จะอยู่ข้างในกลุ่มตัวอย่างเสมอ, จริงไหม? มันจะอยู่ตรงศูนย์กลางของกลุ่มตัวอย่างเสมอ แต่มันเป็นไปได้ที่ค่าเฉลี่ยประชากร อยู่ข้างนอกกลุ่มตัวอย่าง มันอาจเป็นว่า คุณเลือกอัน ที่มันไม่มีค่าเฉลี่ยประชากรอยู่ข้างใน แล้วความแปรปรวนตัวอย่าง ที่คำนวณแบบนี้ จะ คาดเดาความแปรปรวนประชากรต่ำไป , จริงไหม? เพราะมันเลือกค่าเฉลี่ยที่ใกล้ตัวเอง มากกว่าค่าเฉลี่ยประชากร และถ้าคุณเข้าใจ, ที่จริง, แค่สัก 10% ของอันนี้, คุณก็เป็นนักเรียนวิชาสิถิตระดับสูงแล้ว แต่ผมบอกเรื่องพวกนี้ให้คุณ, หวังว่า จะได้สัญชาตญาณเพื่อเข้าใจว่า อันนี้มักประเมินค่าต่ำไป สูตรนี้มักกะค่าความแปรปรวนของ ประชากรจริงต่ำไป และมันมีสูตร, และที่จริงมีวิธีพิสูจน์ ที่รัดกุมกว่าที่ผมทำ, มันมีวิธีที่ดีกว่า และเขาเรียกมันว่าค่าประมาณความแปรปรวน ประชารที่ไม่เอนเอียง หรือความแปรปรวนตัวอย่างแบบไม่เอนเอียง บางครั้งเขาเขียนแทนด้วย s กำลังสองเหมือนเดิม บางครั้งเขาเขียนด้วย s n ลบ 1 กำลังสอง และผมจะแสดงให้ดูว่าทำไม มันเกือบเหมือนเดิม คุณเอาจุดข้อมูลแต่ละจุดมา, หาว่าพวกมัน ใกล้จากค่าเฉลี่ยตัวอย่างแค่ไหน คุณยกกำลังพวกมัน แล้วคุณหาค่าเฉลี่ยของพวกนั้นกำลังสอง, ยกเว้น อยู่อย่างเดียว i เท่ากับ 1 ถึง i เท่ากับ n แทนที่จะหารด้วย n, คุณหารด้วยเลข ที่น้อยลงหน่อย คุณหารด้วย n ลบ 1 แล้วเมื่อคุณหารด้วย n-1 แทนที่จะหารด้วย n, คุณจะได้ค่าที่มากกว่านิดหน่อยตรงนี้ ปรากฏว่านี่คือ ค่าประมาณที่ดีกว่า และวันหนึ่ง ผมจะเขียนโปรแกรมคอมพิวเตอร์เพื่อพิสูจน์ อย่างน้อยด้วยการทดลอง ว่านี่ คือการประมาณควาามแปรปรวนของประชากรที่ดีกว่า และคุณสามารถคำนวณมันแบบเดียวกันได้ คุณแค่หารด้วย n ลบ 1 วิธีคิดอีกอย่างคือว่า -- และที่จริง, ไม่ ผมหมดเวลาแล้ว ผมปล่อยคุณไปก่อนนะ แล้วในวิดีโอหน้าล เราจะมาคำนวณ เพื่อให้คุณไม่รู้สึกล้นเกินไป เนื่องจากแนวคิดพวกนี้ เพราะเราใช้แนวคิดที่เป็นนามธรรมอยู่ แล้วพบกันในวิดีโอหน้าครับ -