Дане відео є новітницьким з багатьох причин. Перша причина - я збираюся надати вам вступ до розбіжності вибірки, що само по собі є дуже цікавим. І я спробую записати це відео у HD якості. І сподіваюся, ви зможете переглядати більш велике та чітке відео ніж це було до того. Ми ще побачимо як воно буде. Отож, це певним чином дослід, який ми проведемо разом. Перш ніж почати розгляд розбіжності вибірки, я гадаю, що повчальним буде перегляд розбіжності загальної сукупності. І ми порівняємо їх формули. Розбіжність загальної сукупності, а це грецька літера сиґма. Маленька сиґма у квадраті. Це означає розбіжність. Я знаю це дивно, що розбіжність вже має квадрат у собі. Ви ж не підносите до квадрату змінну. А це змінна. Сиґма у квадраті означає розбіжність. Насправді, нумо запишу це. Це дорівнює розбіжності. І це дорівнює, ви берете кожне значення, і ми назвемо їх х з нижнім індексом і. Ми беремо кожне значення, з’ясовуємо як далеко воно знаходиться від середнього значення загальної сукупності, підносимо це до квадрату, а тоді знаходимо середнє арифметичне усього цього. Отож, ми знаходимое дане середньо арифметичне і додаємо це усе. Ми починаємо від і=1. Від найпершого значення і так далі аж до n-го значення. А тоді, усереднено, ми додаємо їх усіх та згодом ділимо на n. Отож, розбіжність це середня величина цих квадратних відстаней кожного значення від середнього значення. І просто аби надати вам знову розуміння, то тут, по суті сказано, усереднено, як далеко приблизно є кожне з цих значень від даної середини. Це найкращий шлях міркування про дану розбіжність. А тепер що якщо ми маємо справу...Це ж було для загальної сукупності, правильно? А ми сказали, якщо ми бажаємо з’ясувати розбіжність людського зросту у країні, то буде дуже важко з’ясувати дану розбіжність для загальної сукупності. Нам би знадобилося піти і, по суті, виміряти зріст кожної людини. А усього є 250 мільйонів людей у країні. Або ж що якщо для певної загальної сукупності просто цілковито неможливо отриматі дані або певну випадкову змінну величину. І ми поговоримо про це більше згодом. Отож, у більшості випадків вам насправді треба оцінити цю розбіжність знаходячи розбіжність вибірки. Таким же чином ви можете не мати середнього значення загальної сукупності, але можливо ви забажаєте оцінити його за допомогою знаходження середнього значення вибірки. І ми вивчимо це у даному першому відео. Якщо це... якщо це уся загальна сукупність. Це мільйони значень або ж навіть значення у майбутньому, які ви ніколи зможете отримати, оскільки це випадкова змінна величина. Отож, це загальна сукупність. Вам може бути потрібно просто оцінити речі шляхом проглядання вибірки. І це насправді є суттю того, що відбувається у підсумковій статистиці. З’ясовуючи описову статистику щодо вибірки, ми створюємо підсумки щодо загальної сукупності. Нумо спробуємо виконати це для 100 людей і поглянемо чи це матиме статистично істотні результати, таке виконання буде ймовірно працювати і для загальної сукупності загалом. Отож, про що тут йдеться. Дійсно важливо розуміти відмінності позначень вибірки та загальної сукупності. І важливо бути здатним знайти статистичні показники вибірки які, у більшості випадків, можуть описати дану загальну сукупність або ж допомогти нам оцінити параметри загальної сукупності. Отож, чому дорівнює дане середнє значення?... Нумо перепишемо ці визначення. Чому дорівнює середнє значення загальної сукупності? Зроблю це бузковим. Бузкове для загальної сукупності. Середнє значення загальної сукупності. Ви просто берете кожне з цих значень у загальній сукупності, хі-те. Додаєте їх. Починаємо з найпершого значення, а тоді рухаємося далі аж до n-го значення. І ділимо це на n. Ми додаємо їх усі і ділимо на n. Це дане середнє значення. Отож, тоді підставимо це у дану формулу. І ми побачимо як далеко знаходиться кожне значення від цього центрального значення, від цього середнього значення. І ми отримаємо розбіжність. А тепер, що ж трапиться, якщо ми зробимо це для вибірки? Якщо нам треба оцінити середнє значення загальної сукупності за допомогою певного чину обчислення середнього значення вибірки, то найкраще що я можу придумати... І справді це певного роду винайдені формули. Свого часу люди сказали: "Що є кращим способом для обрання вибірки?" Ну, усе що ми в змозі насправді зробити так це знайти середню величину вибірки. І це буде нашим середнім значенням вибірки. І ми вивчили з першого відео, що це позначається... Дана формула майже така ж сама як і ця. Просто ці позначення різні. Замість використання мю, ми використовуємо тут х з рискою нагорі. Середнє значення вибірки дорівнює, знову ж таки ми беремо кожне з цих значень тепер для вибірки, а не для усієї загальної сукупності. Додаємо їх від найпершого значення і так далі до n-го значення, правильно? Нам сказано, що є n значень у цій вибірці. А тоді ми ділимо це на кількість значень, що ми маємо. Цілком правильно. Це насправді така ж сама формула. Це спосіб, згідно якого, я знаходив середнє значення для загальної сукупності, а для вибірки ми знайшли середнє значення таким же чином. І це можливо гарна оцінка середнього значення загальної сукупності. Тепер же стає цікавіше, коли ми говоримо вже про розбіжність. Отож, вашою природньою реакцією є Гаразд, я маю цю вибірку. Якщо мені треба оцінити розбіжність загальної сукупності, то чому б просто не застосувати таку ж саму формулу і для вибірки? Отож, я міг би сказати... І це є насправді розбіжністю вибірки. Для цієї формули використовується позначення s у квадраті. Отож, сиґма це грецька літера рівнозначна s. Тепер ми маємо справу з вибіркою, ми просто пишемо s тут. Отож? це розбіжність вибірки. Нумо запишу це. Розбіжність вибірки. Це...Ми можемо просто сказати, що можливо гарним способом є знайти розбіжність вибірки таким же самим чином. Нумо знайдемо відстань кожного значення вибірки. З’ясуємо як далеко воно від нашого середнього значення вибірки. Тут ми використали середнє значення загальної сукупності, але зараз ми використаємо середнє значення вибірки, оскільки це усе що у нас є. Ми не знаємо чому дорівнює середнє значення загальної сукупності, тому що не в змозі поглянути на усю загальну сукупність. Піднесемо це до квадрату. Це зробить дане число додатнім та має й інші властивості, про які ми поговоримо згодом. А тоді знаходимо середню величину усіх цих квадратних відстаней. Отож, ви берете це з... Ви додаєте це усе. І тут ми маємо n складових, правильно? Маленьке n. І ми ділимо на маленьке n. І ви скажете: "Ну, це гарна оцінка." Якою б не була ця розбіжність, це може бути гарною оцінкою для загальної сукупності загалом. Насправді це те, що деякі люди часто мають на думці, коли вони говорять про розбіжність вибірки. І іноді це насправді так. Вони використовують тут маленьке n. І причина, згідно якої вони чинять так полягає у тому, що ми ділимо на n. І ви запитаєте: "Сале, що ж тут за проблема?" І дана проблема... І надам вам певного розуміння цього, оскільки це є насправді чимось, що зазвичай турбрує мій розум. І я все ще щиро борюся з розумінням цього. Ну я маю розуміння цього, але це певним чином суворо доводе мені, що це напевно саме цей випадок. Але поміркуємо про це. Якщо ми маємо низку чисел і я намалюю числову пряму тут. Якщо я намалюю числову пряму тут... Скажімо, ви знаєте що... Скажімо, я маю низку чисел у моїй загальній сукупності. Скажімо... я збираюся навмання обрати низку чисел з моєї загальної сукупності. І одні з них, що праворуч, є більшими ніж ті, що ліворуч. І якщо ми обираємо вибірку з них, можливо я оберу... Ця вибірка є випадковою. Нам насправді треба обрати випадкову вибірку. Нам не треба жодних викривлень тут. Отож, можливо, я оберу це, це, це і це, правильно? І тоді якщо ми знайшли середнє значення для цього числа, цього, цього і цього числа. Воно буде десь тут посередині. А може бути десь ось тут. А тоді якщо мені треба з’ясувати розбіжність вибірки використовуючи цю формулу, тоді скажемо - Гаразд, ця квадратна відстань плюс ця квадратна відстань плюс ця квадратна відстань плюс ця квадратна відстань і знаходимо середню величину для них усіх. А тоді я міг би отримати це число. І це, ймовірно, було б доволі гарне наближення до розбіжності цієї усієї загальної сукупності. Середнє значення загальної сукупності ймовірно буде... я не знаю. Воно могло б бути доволі близько до цього. Якщо ми насправді узяли усі ці значення і знайшли їх середню величину, то можливо вони знаходяться десь тут. А тоді якщо ми з’ясуємо дану розбіжність, то вона ймовірно буде доволі близько до середньої величини усіх цих ліній,правильно? Усіх даних відстаней розбіжності вибірки, правильно? Цілком правильно. Отож ви скажете: "Агов, Сале. Це виглядає доволі непогано тепер. Але при цьому є невеличка пастка." Що якщо... При цьому завжди є ймовірність, що замість обрання цих певного роду дуже добре розподілених чисел з моєї вибірки, що якщо трапиться обрати це число, це і це число у якості моєї... і скажімо це число, у якості моєї вибірки? Якою б не була наша вибірка, дане середнє значення завжди буде посередині цього, правильно? Отож, у цьому випадку, наше середнє значення вибірки може бути тут. Отже, усі ці числа, ви можете сказати, що це число не надто далеко від цього числа, це число не надто далеко, а тоді й це число не надто далеко. Наша розбіжність вибірки, коли ми робимо це таким чином, може виявитися трохи занизькою. Оскільки, усі ці числа, вони доволі.... вони майже за визначенням будуть доволі близько знаходитися до даного середнього значення кожного з них. Але у цьому випадку, наша вибірка певним чином викривлена і дане справжнє середнє значення загальної сукупності знаходиться десь тут. Отож, справжня розбіжність цієї вибірки, якщо б ви насправді знали дане середнє значення... я знаю це трохи спантеличує. Якщо б ви насправді знали дане середнє значення, то ви б сказали ого. Ви б з’ясували, що ці відстані, що вони є набагато більшими. Уся суть того, що я кажу полягає у тому, що коли ми обираємо вибірку, то при цьому є певний шанс, що середнє значення вашої вибірки доволі близьке до середнього значення загальної сукупності,правильно? Можливо середнє значення вашої вибірки тут, а середнє значення вашої загальної сукупності тут. І тоді ця формула ймовірно спрацює доволі добре, принаймні надасть вам значення вибірки і з’ясує чому дорівнює дана розбіжність. Але при цьому є суттєвий шанс, що середнє значення вашої вибірки... Ваша вибірка завжди буде співпадати з вашої вибіркою даних, правильно? Це завжди буде осердям даних вашої вибірки. Але цілком можливо, що середнє значення даної загальної сукупності буде за межами даних вашої вибірки. Може статися так, що ви оберете те, що не містить справжнього середнього значення даної загальної сукупності. І тоді ця розбіжність вибірки підрахована таким чином буде насправді недооцінювати справжню розбіжність загальної сукупності, правильно? Оскільки, ці значення завжди будуть ближче до свого власного середнього значення, ніж до середнього значення загальної сукупності. І якщо ви розумієте щиро хоча б 10% цього, то ви є дуже досвідченим щодо статистики студентом. Але я кажу усе це аби надати вам, як я сподіваюсь, певне розуміння задля усвідомлення того, що це часто недооцінюють. Ця формула часто недооцінює справжню розбіжність загальної сукупності. І при цьому є формула, і це насправді доведено краще, ніж це роблю я, що вважається кращою, неупередженою оцінкою розбіжності загальної сукупності. Або ж неупередженою розбіжністю вибірки. І іноді це позначається просто знову ж таки літерою s у квадраті. Іноді, це позначаєтья за допомогою n мінус 1 у квадраті. І я покажу вам чому. Це майже однакові речі. Ви берете кожне значення, з’ясовуєте як далеко вони є від даного середнього значення вибірки. Підносите це до квадрату. А тоді знаходите середню величину цих квадратів, окрім однієї невеличкої різниці. Від і=1 до i=n. Замість того, щоб ділити на n, ви ділите на трохи менше число. Ви ділите на n мінус 1. Отож, коли ви ділите на n мінус 1 замість ділення на n, то ви отримуєте дещо більше число тут. І виявляється, що це насправді значно краща оцінка. І одного дня я збираюся написати комп’ютерну програму аби принаймні довести собі дослідницьким чином, що це є кращою оцінкою розбіжності загальної сукупності. І ви могли б обчислити це таким же чином. Просто діліть на n мінус 1. Кажучи іншим словами... Насправді, ні. Мій час збіг. Тут я вас полишаю. І згодом у наступному відео, ми зробимо двійко обчислень просто аби ви не переобтяжувалися цими ідеями. Оскільки, ми міркуємо дещо абстрактно. Побачимося у наступному відео.