مرحبا
هذا فيديو مستحدث
لأسباب عدة
أولا، سأعرض لكم تباين العينات
وهو شيء شيق بحد ذاته
أحاول تسجيل هذا الفيديو بدقة عالية
آمل أن تسطيعوا رؤيته بشكل أكبر وأفضل
عن ذي قبل
ولكن سنرى ما سيحدث
هذه تجربة إلى حد ما ، فتحملوني
ولكن قبل أن نذهب إلى تباين العينات
أعتقد أنه من المفيد إعادة النظر في تباين
السكان
ويمكننا مقارنة هذه الصيغ.
تباين السكان.. وهذا هو الحرف اليوناني
الحرف سيغما
تربيع سيغما أحرف صغيرة.
وهذا يعني الفرق.
وأنا أعلم أنها ال من غريب أن يكون للمتغير
فعلا تربيع
أنت لا تربع المتغير.
هذا هو المتغير.
تربيع سيغما يعني الفرق
في الواقع، دعوني اكتب ذلك
هذا يساوي الفرق
وهذا يساوي--تأخذ كل نقطة بيانات-و
أننا سوف ندعوها X sub I
يمكنك اخذ كل البيانات من نقطة، ومعرفة مدى بعدها عن
السكان، تقوم بتربيعها، وثم تأخذ
المتوسط للكل.
إذن تأخذ المتوسط، وتجمع.
تتنتقل من I يساوي 1.
لذا من النقطة الأولى، وصولاً إلى الألف نقطة.
وبعد ذلك، إلى المتوسط، تقوم بجمعها كلها
ثم القسمة على n.
لذلك الفرق هو متوسط هذه المسافات التربيعية
لكل نقطة من الوسط.
ومجرد أن تعطيك الحدس مرة أخرى، أنه أساسي
لنقل، في المتوسط، كم تبعد كل نقطة عن
الوسط تقريبا
هذه هي أفضل طريقة للتفكير في الفرق.
الآن ماذا إذا كنا نتعامل-كان لهذا
لعدد سكان، صحيح؟
وقلنا أننا إذا أردنا معرفة الفرق من
أطوال الرجال في البلاد،هذا سيكون شديد الصعوبة
معرفة فرق للسكان.
سيكون عليك الذهاب، وأساساً، قياس
أطوال للجميع.
250 مليون شخص.
أو ما إذا كان لبعض السكان حيث أنه من
المستحيل تماما الحصول على البيانات أو بعض
المتغيرات العشوائية.
وسوف نتعمق في ذلك في وقت لاحق.
لذا الكثير من الأوقات التي تريد فيها فعلا تقدير هذا الفرق
بأخذ الفرق من عينة.
نفس الطريقة التي يمكن أن تحصل ابدأ على متوسط عدد السكان،
ولكن ربما تحتاج إلى تقدير ذلك عن طريق الحصول على
متوسط العينة.
وتعلمنا ذلك في ذلك الفيديو الأول.
إذا كان هذا--إذا كان هذا هو مجمل السكان.
وتلك ملايين نقاط البيانات، أو نقاط البيانات حتى في
المستقبل الذي لن تكون قادر على الحصول عليها لأنها
متغير عشوائي.
لذلك هذا هو عدد السكان.
قد ترغب فقط في تقدير الأمور من خلال النظر في عينة.
وهذا في الواقع ما تدور حوله معظم من الاستنتاجات
الإحصاءاتية
معرفة إحصائيات وصفية حول العينة
والقيام استنتاجات حول السكان.
اسمحوا لي أن أجرب هذا الدواء على 100 شخص، وإذا بدت عليهم
نتائج يعتد بها إحصائيا، هذا الدواء سوف
بنفع ربما على السكان ككل.
هذا كل شيء.
ولذلك فمن المهم حقاً أن نفهم هذه الفكرة من
عينة مقابل عدد سكان.
ونكون قادرين على العثور على إحصاءات تتعلق بعينه،
للجزء الأكبر، يمكنها وصف السكان أو تساعدنا على
تقدير ما يسمونه، بمعلمات السكان.
فما متوسط أ--واسمحوا لي أن إعادة كتابة هذه التعاريف.
ما هو متوسط عدد السكان؟
سأفعل ذلك الأرجواني.
الأرجواني للسكان.
متوسط عدد السكان.
تأخذ فقط كل نقطة من نقاط البيانات في السكان، س وص.
ثم تجمعها.
تبدأ بقطة البيانات الأولى وتذهب كل
الطريق إلى بيانات nth نقطة.
ثم القسمة على n.
ثم تجمعها وتقسم على n.
وهذا هو المتوسط.
حينها يمكنك ادراجه في هذه الصيغة.
ويمكنك أن ترى كم تبعد كل نقطة من النقطة
المركزية، عن المتوسط.
ثم توجد الفرق
الآن ماذا يحدث لو أننا نعمل ذلك لعينة؟
حسنا، إذا كنا نريد لتقدير متوسط عدد السكان من خلال
حساب متوسط العينة،على نحو ما فضل شيء يمكن
ان أفكر به --وحقاً هذه هي نوع من الصيغ المهندسة.
هؤلاء بشر يقولون، حسنا ما هي أفضل
طريقة لأخذ عينات؟
حسنا كل ما نقوم به حقاً هوأخذ متوسط العينة.
وهذا هو متوسط العينة.
وتعلمنا في الفيديو الأول أن هذا التدوين-
الصيغة مطابقة تقريبا لذلك.
مجرد اختلاف في التدوين.
بدلاً من كتابة مو، يمكنك كتابة x بخط فوقها
متوسط العينة يساوي--مرة أخرى، وتأخذ كل من
نقاط البيانات الآن في العينة، وليس مجمل السكان.
تجمعها من أول واحد ومن ثم إلى
التاسع،صحيح؟
أنهم يقولون أن هناك نقاط البيانات n في هذه العينة.
ومن ثم تقسم على عدد من نقاط البيانات لديك.
عادل بما فيه الكفاية.
أنها حقاً نفس الصيغة.
الطريقة التي أخذت بها متوسط عدد السكان، قلت، حسنا، إذا
كان لدي مجرد عينة، ودعوني فقط آخذ المتوسط بالطريقة نفسها
وعلى الأرجح تقدير جيد
لمتوسط السكان.
الآن يصبح الأمر أكثر إثارة للاهتمام عندما نتحدث عن الفرق.
إذن رد فعلك الطبيعي جيد، لدى هذه العينة.
إذا أردت تقدير فرق السكان، لماذا
لماذا لا أطبق هذه الصيغة نفسها
أساسا للعينة؟
لذا يمكنني أن أقول-وهذا الواقع عينة فرق.
وهم يستخدمون صيغة s التربيعية.
إذن ، سيغما حرف يوناني يعادل s.
الآن عندما نتعامل مع العينة،
فقط نكتب s هناك.
فهذا هو فارق العينة.
دعوني أكتب هذا
تباين العينة.
وهذا-- يمكن أن نقول فقط، ربما وسيلة جيدة لاخذ
تباين العينة بفعل ذلك بنفس الطريقة.
لنأخذ المسافة من كل نقطة من النقاط في العينة.
ومعرفة مدى بعدها عن متوسط العينة لدينا.
هنا استخدمنا متوسط السكان، ولكن الآن سوف نستخدم فقط
متوسط العينة لأن هذا كل ما يمكن أن يكون لدينا.
نحن لا نعرف ما متوسط السكان
دون النظر في مجمل السكان.
نأخذ تربيع ذلك
هذا يجعلها إيجابية ولها خصائص أخرى،
والذي سوف نناقشه أكثر في وقت لاحق.
ومن ثم أخذ المتوسط لكل من هذه المسافات التربيعية.
حيث تأخذها من هناك--وتجمعها جميعا.
وهناكn منهم إلى بعض ما يصل، صحيح؟
N أحرف صغيرة.
و القسمة على n أحرف صغيرة.
وأقول لكم، حسنا هذا تقدير جيد.
حسنا بغض النظر عن ما قد يكون الفرق، قد يكون هذا تقدير جيد
لعدد السكان بأسره.
وهذا في الواقع ما يشير إليه بعض الناس عندما
يتحدثون عن تباين العينة.
وفي بعض الأحيان سوف يشار إليه فعلا على هذا النحو.
سوف يضعون n صغيرة هناك.
ويرجع السبب لذلك أننا قسمنا على n.
لنقل، سال ما المشكلة هنا؟
و المشكلة--وسوف تعطي لك الحدس لأن هذا
هو فعلا أمر يستخدم يحير الذهن.
وأنا بصراحة لا أكافح
الحدس وراء ذلك.
حسنا لدي الحدس، ولكنه يميل أكثر إلى الصرامة
في إثبات ذلك لنفسي أن هذا هو الأمر بالتأكيد.
ولكن فكر في هذا.
إذا كان لدى مجموعة من الأرقام، وسأرسم
خط ارقام هنا.
إذا رسمت خط أرقام هنا - دعونا نقول أنكم تعرفون ذلك-
ولنفترض أن لدى مجموعة من الأرقام من عدد السكان.
لذلك دعونا نقول-سأقوم بشكل عشوائي بوضح مجموعة
أرقام في عدد السكان.
تلك في اليمين آكبر
منها إلى اليسار.
وإذا تم أخذ عينة منها، وربما سآخذ-
العينة، بشكل عشوائي.
في الحقيقة تريد أن تأخذ عينة عشوائية.
ولا تريد أن تكون منحرفا في أي شكل من الأشكال.
ولذلك ربما أخذ هذه، وهذه، وهذه
وهذه، حسنا؟
وبعد ذلك، اذا اردت اخذ متوسط هذا العدد و هذا
العدد، هذا العدد، هذا العدد.
سيكون في مكان ما في الوسط.
قد يكون في مكان ما هناك.
ومن ثم إذا أردت معرفة تباين العينة باستخدام
هذه الصيغة،سأقول حسنا المسافة تربيع بالإضافة إلى
تربيع المسافة هذا بالإضافة إلى المسافة التربيعية لهذا بالإضافة إلى
تربيع المسافة لهذا ومتوسطها جميعا
وبعد ذلك سوف تحصل على هذا الرقم.
ربما يكون ذلك تقريب جيدة جداً
تلباين جميع السكان.
سيكون متوسط السكان على الأرجح
-- لا أعرف.
قد يكون هذا قريبا جداً.
في الواقع إذا أخذنا كافة نقاط البيانات وأخذنا متوسطها
ربما أنهم مثل هنا .
وبعد ذلك ما إذا كان يمكنك معرفة الفرق، ربما سيكون
قريبا جدا من المتوسط لكل من هذه الخطوط، صحيح؟
جميع مسافات تباين العينة، أليس كذلك؟
عادلة بما فيه الكفاية.
لذلك كنت أقول، يا سأل.
هذا تبدو جيدة الآن.
ولكن هناك كمية الصيد صغيرة واحدة.
ماذا لو-هناك دائماً احتمال بدلاً من
انتقاء هذه الأرقام إلى حد ما موزعة بشكل جيد في
العينة، ماذا سيحدث لو كنت اخترت هذا العدد، هذا العدد،
وهذا العدد -ولنقل هذا العدد
كعينة؟
حسنا بغض النظر عن عينتك، متوسط العينة الخاصة بك
دائماً ما يكون في منتصف ذلك أليس كذلك؟
إذن في هذه الحالة، متوسط العينة الخاص بك قد يكون هنا.
إذن كل هذه الأرقام، قد تقولون حسنا هذا العدد ليس
بعيدا جداً عن هذا العدد، هذا العدد الذي ليس بعيداً جداً، ومن ثم
هذا العدد الذي ليس بعيداً جداً.
لذا تباين العينة الخاص بك، عندما تقوم به بهذه الطريقة،
قد يبدو منخفظا قليل
لأن كل هذه الأرقام، إلى حد ما//-أنها،
تقريبا بحكم التعريف، سوف تكون قريبة جدا من
متوسط بعضها البعض.
ولكن في هذه الحالة، عينتك منحرفة قليلا
والمتوسط الفعلي للسكان هنا في مكان ما .
لذا الفرق الفعلي للعينة، إذا كنت حقا تعرف
النتوسط-أنا أعرف أن كل هذا مربك قليلا.
لو كنت فعلا تعرف المتوسط ، لكنت
قلت واو .
و كنت سوف تجد هذه المسافات، التي كان من الممكن
ان تكون أكثربكثير.
بيت القصيد في ما أقوله، عندما تأخذ
عينة، هناك بعض الفرص في أن يكون متوسط العينة الخاصة بك
قريبا جدا من متوسط السكان، حسنا؟
ربما متوسط عينتك هنا ومتوسط
عدد السكان هنا
وثم هذه الصيغة سوف تعمل على الأرجح بشكل جيد جداً،
على الأقل نظراً لنقاط بيانات العينة الخاصة بك
و إيجاد الفرق.
ولكن هناك فرصة معقولة في أن يكون متوسط عينتك -
عينتك دائماً ما ستكون ضمن نموذج البيانات الخاصة بك، صحيح؟
دائماً ما ستكون مركز نموذج بياناتك.
ولكن من الممكن تماما أن يكون الوسط السكاني
خارج نموذج البيانات الخاصة بك.
قديحدث ذلك لانتقاءك تلك
التي لا تحتوي على متوسط سكان فعلي.
ومن ثم فلتباين العينة المحسوب بهذه الطريقة سوف
يقلل حقا من فرق السكان
الفعلي، أليس كذلك؟
لأنها ستكون دائماً أقرب إلى متوسطها الخاص
منه إلى متوسط السكان.
وإذا كنت تفهم، بصراحة، حتى 10 %
من هذا، فأنت طالب إحصائيات متقدم جداً.
ولكن أنا أقول كل هذا لمجرد إعطاءك، على ما آمل
بعض الحدس لإدراك أن هذا سوف يقلل غالبا.
هذه الصيغة كثيرا ما سوف تقلل
تباين السكان الفعلي
وهناك صيغة، وأثبت فعلا أنها أكثر
صرامة مما سوف أقوم به،و الذي يعتبر
أفضل، أو أنهم سوف يطلقون عليه تقدير غير منحاز
لتباين السكان.
أو تباين عينة غير متحيز
وفي بعض الأحيان يشار إليه بواسطة s تربيع مرة أخرى.
وفي بعض الأحيان بواسطة هذا s n ناقص 1 تربيع.
وسوف أشرح لك لماذا.
هو تقريبا الشئ نفسه
تأخذ كل نقطة من نقاط البيانات، وتوجد بعدها عن
متوسط العينة.
وتربعها
ثم تأخذ متوسط تلك التربيعات، باستثناء
الاختلاف الطفيف .
1 يساوي 1 على قدم المساواة n.
بدلاً من القسمة على n، تقسم على
عدد أصغر بقليل
يمكنك القسمة على n ناقص 1.
لذا عندما تقوم بتقسيم ن ناقص 1 بدلاً من قسمة
n، ستحصل على عدد أكبر قليلاً هنا.
واتضح أن هذا في الواقع
تقدير أفضل كثيرا.
وسأقوم بإعداد برنامج كمبيوتر يوما ما لأثبت على الأقل
ذلك لنفسي عن طريق التجرية بأن هذا هو
أفضل تقدير لللتباين السكاني.
ويمكنك أن تقوم بحساب ذلك بنفس الطريقة.
فقط اقسم على n ناقص 1.
طريقة أخرى للتفكير في ذلك--وفي الواقع، لا
الوقت ينفذ
سأترككم هنا
وثم في مقطع الفيديو التالي، سوف نقوم باثنين من
العمليات الحسابية فقط لكي لا أغمركم
بهذه الأفكار.
لأننا نتجه قليلا للتجريد
نراكم في مقطع الفيديو التالي.
وداعا