-
Дане відео є новітницьким
-
з багатьох причин.
-
Перша причина - я збираюся надати вам
вступ до розбіжності вибірки,
-
що само по собі є дуже цікавим.
-
І я спробую записати це відео у HD якості.
-
І сподіваюся, ви зможете переглядати
більш велике та чітке відео
-
ніж це було до того.
-
Ми ще побачимо як воно буде.
-
Отож, це певним чином дослід, який ми
проведемо разом.
-
Перш ніж почати розгляд розбіжності
вибірки, я гадаю,
-
що повчальним буде перегляд розбіжності
-
загальної сукупності.
-
І ми порівняємо їх формули.
-
Розбіжність загальної сукупності, а це
грецька
-
літера сиґма.
-
Маленька сиґма у квадраті.
-
Це означає розбіжність.
-
Я знаю це дивно, що розбіжність вже
-
має квадрат у собі.
-
Ви ж не підносите до
квадрату змінну.
-
А це змінна.
-
Сиґма у квадраті
означає розбіжність.
-
Насправді, нумо запишу це.
-
Це дорівнює розбіжності.
-
І це дорівнює, ви берете кожне значення,
-
і ми назвемо їх х
з нижнім індексом і.
-
Ми беремо кожне значення, з’ясовуємо
як далеко воно знаходиться від
-
середнього значення загальної сукупності,
підносимо це до квадрату, а тоді знаходимо
-
середнє арифметичне усього цього.
-
Отож, ми знаходимое дане середньо
арифметичне і додаємо це усе.
-
Ми починаємо від і=1.
-
Від найпершого значення і так далі
аж до n-го значення.
-
А тоді, усереднено,
ми додаємо їх усіх та
-
згодом ділимо на n.
-
Отож, розбіжність це середня величина
цих квадратних відстаней
-
кожного значення від
середнього значення.
-
І просто аби надати вам
знову розуміння, то тут, по суті
-
сказано, усереднено, як далеко
приблизно є кожне з цих
-
значень від даної середини.
-
Це найкращий шлях міркування
про дану розбіжність.
-
А тепер що якщо ми
маємо справу...Це ж було
-
для загальної
сукупності, правильно?
-
А ми сказали, якщо ми
бажаємо з’ясувати розбіжність
-
людського зросту у країні, то буде дуже
важко
-
з’ясувати дану розбіжність для загальної
сукупності.
-
Нам би знадобилося піти і, по суті,
виміряти
-
зріст кожної людини.
-
А усього є 250 мільйонів людей у країні.
-
Або ж що якщо для певної загальної
сукупності просто
-
цілковито неможливо отриматі дані
-
або певну випадкову
змінну величину.
-
І ми поговоримо про
це більше згодом.
-
Отож, у більшості випадків вам насправді
треба оцінити цю розбіжність
-
знаходячи розбіжність вибірки.
-
Таким же чином ви можете не мати
середнього значення загальної сукупності,
-
але можливо ви забажаєте оцінити його
за допомогою знаходження
-
середнього значення вибірки.
-
І ми вивчимо це у даному першому відео.
-
Якщо це... якщо це уся загальна
сукупність.
-
Це мільйони значень або ж навіть значення
-
у майбутньому, які ви ніколи зможете
отримати, оскільки
-
це випадкова змінна величина.
-
Отож, це загальна сукупність.
-
Вам може бути потрібно просто оцінити
речі шляхом проглядання вибірки.
-
І це насправді є суттю того, що
відбувається у підсумковій
-
статистиці.
-
З’ясовуючи описову
статистику щодо вибірки,
-
ми створюємо підсумки щодо
загальної сукупності.
-
Нумо спробуємо виконати це для 100
людей і поглянемо чи це матиме
-
статистично істотні результати, таке
виконання буде
-
ймовірно працювати і для загальної
сукупності загалом.
-
Отож, про що тут йдеться.
-
Дійсно важливо розуміти
відмінності позначень
-
вибірки та загальної сукупності.
-
І важливо бути здатним знайти статистичні
показники вибірки які,
-
у більшості випадків, можуть описати
дану загальну сукупність або ж допомогти
-
нам оцінити параметри загальної
сукупності.
-
Отож, чому дорівнює дане середнє
значення?... Нумо перепишемо ці визначення.
-
Чому дорівнює середнє значення загальної
сукупності?
-
Зроблю це бузковим.
-
Бузкове для загальної сукупності.
-
Середнє значення загальної сукупності.
-
Ви просто берете кожне з цих значень у
загальній сукупності, хі-те.
-
Додаєте їх.
-
Починаємо з найпершого значення,
а тоді рухаємося далі
-
аж до n-го значення.
-
І ділимо це на n.
-
Ми додаємо їх усі
і ділимо на n.
-
Це дане середнє
значення.
-
Отож, тоді підставимо
це у дану формулу.
-
І ми побачимо як далеко знаходиться
кожне значення від цього
-
центрального значення, від цього
середнього значення.
-
І ми отримаємо розбіжність.
-
А тепер, що ж трапиться, якщо
ми зробимо це для вибірки?
-
Якщо нам треба оцінити середнє значення
загальної сукупності за допомогою
-
певного чину обчислення середнього
значення вибірки, то найкраще що я
-
можу придумати... І справді це певного
роду винайдені формули.
-
Свого часу люди сказали: "Що є кращим
-
способом для обрання вибірки?"
-
Ну, усе що ми в змозі насправді зробити
так це знайти середню величину вибірки.
-
І це буде нашим середнім
значенням вибірки.
-
І ми вивчили з першого відео, що це
позначається...
-
Дана формула майже
така ж сама як і ця.
-
Просто ці позначення різні.
-
Замість використання мю, ми
використовуємо тут х з рискою нагорі.
-
Середнє значення вибірки дорівнює,
знову ж таки ми беремо кожне з цих
-
значень тепер для вибірки, а не для усієї
загальної сукупності.
-
Додаємо їх від найпершого значення і
-
так далі до n-го значення, правильно?
-
Нам сказано, що є
n значень у цій вибірці.
-
А тоді ми ділимо це на кількість значень,
що ми маємо.
-
Цілком правильно.
-
Це насправді така
ж сама формула.
-
Це спосіб, згідно якого, я знаходив середнє
значення для загальної сукупності,
-
а для вибірки ми знайшли середнє
значення таким же чином.
-
І це можливо гарна оцінка середнього
значення
-
загальної сукупності.
-
Тепер же стає цікавіше, коли ми
говоримо вже про розбіжність.
-
Отож, вашою природньою реакцією є
Гаразд, я маю цю вибірку.
-
Якщо мені треба оцінити розбіжність
загальної сукупності, то чому б
-
просто не застосувати таку ж саму формулу
-
і для вибірки?
-
Отож, я міг би сказати... І це є насправді
розбіжністю вибірки.
-
Для цієї формули використовується
позначення s у квадраті.
-
Отож, сиґма це грецька
літера рівнозначна s.
-
Тепер ми маємо
справу з вибіркою,
-
ми просто пишемо s тут.
-
Отож? це розбіжність вибірки.
-
Нумо запишу це.
-
Розбіжність вибірки.
-
Це...Ми можемо просто сказати,
що можливо гарним способом є знайти
-
розбіжність вибірки таким
же самим чином.
-
Нумо знайдемо відстань
кожного значення вибірки.
-
З’ясуємо як далеко воно від нашого
середнього значення вибірки.
-
Тут ми використали середнє значення
загальної сукупності, але зараз ми
-
використаємо середнє значення вибірки,
оскільки це усе що у нас є.
-
Ми не знаємо чому дорівнює середнє
значення загальної сукупності, тому
-
що не в змозі поглянути на усю загальну
сукупність.
-
Піднесемо це до квадрату.
-
Це зробить дане число додатнім
та має й інші властивості,
-
про які ми поговоримо згодом.
-
А тоді знаходимо середню величину
усіх цих квадратних відстаней.
-
Отож, ви берете це з... Ви додаєте це усе.
-
І тут ми маємо n складових, правильно?
-
Маленьке n.
-
І ми ділимо на маленьке n.
-
І ви скажете: "Ну,
це гарна оцінка."
-
Якою б не була ця розбіжність, це
може бути гарною оцінкою
-
для загальної
сукупності загалом.
-
Насправді це те, що деякі люди часто
мають на думці, коли вони говорять
-
про розбіжність вибірки.
-
І іноді це насправді так.
-
Вони використовують тут маленьке n.
-
І причина, згідно якої вони чинять так
полягає у тому, що ми ділимо на n.
-
І ви запитаєте: "Сале, що
ж тут за проблема?"
-
І дана проблема... І надам вам певного
розуміння цього, оскільки це
-
є насправді чимось, що зазвичай
турбрує мій розум.
-
І я все ще щиро борюся з
-
розумінням цього.
-
Ну я маю розуміння цього, але це
певним чином суворо
-
доводе мені, що це напевно саме цей
випадок.
-
Але поміркуємо про це.
-
Якщо ми маємо низку
чисел і я намалюю
-
числову пряму тут.
-
Якщо я намалюю числову пряму тут...
Скажімо, ви знаєте що...
-
Скажімо, я маю низку чисел у
моїй загальній сукупності.
-
Скажімо... я збираюся навмання
обрати низку
-
чисел з моєї загальної сукупності.
-
І одні з них, що
праворуч, є більшими
-
ніж ті, що ліворуч.
-
І якщо ми обираємо вибірку з
них, можливо я оберу...
-
Ця вибірка є випадковою.
-
Нам насправді треба обрати
випадкову вибірку.
-
Нам не треба жодних
викривлень тут.
-
Отож, можливо, я оберу це, це, це
-
і це, правильно?
-
І тоді якщо ми знайшли середнє
значення для цього числа,
-
цього, цього
і цього числа.
-
Воно буде десь
тут посередині.
-
А може бути десь ось тут.
-
А тоді якщо мені треба з’ясувати
розбіжність вибірки використовуючи
-
цю формулу, тоді скажемо - Гаразд, ця
квадратна відстань плюс ця
-
квадратна відстань плюс ця квадратна
відстань плюс
-
ця квадратна відстань і знаходимо
середню величину для них усіх.
-
А тоді я міг би
отримати це число.
-
І це, ймовірно, було б доволі гарне
наближення до
-
розбіжності цієї усієї загальної
сукупності.
-
Середнє значення загальної
сукупності ймовірно буде...
-
я не знаю.
-
Воно могло б бути доволі близько
до цього.
-
Якщо ми насправді узяли усі ці значення
і знайшли їх середню величину,
-
то можливо вони знаходяться десь тут.
-
А тоді якщо ми з’ясуємо дану
розбіжність, то вона ймовірно буде
-
доволі близько до середньої величини
усіх цих ліній,правильно?
-
Усіх даних відстаней розбіжності вибірки,
правильно?
-
Цілком правильно.
-
Отож ви скажете:
"Агов, Сале.
-
Це виглядає доволі непогано тепер.
-
Але при цьому є невеличка пастка."
-
Що якщо... При цьому завжди є ймовірність,
що замість
-
обрання цих певного роду дуже добре
розподілених чисел з моєї
-
вибірки, що якщо трапиться обрати
це число, це
-
і це число у якості моєї... і скажімо
це число,
-
у якості моєї вибірки?
-
Якою б не була наша вибірка,
дане середнє значення
-
завжди буде посередині
цього, правильно?
-
Отож, у цьому випадку, наше середнє
значення вибірки може бути тут.
-
Отже, усі ці числа, ви можете
сказати, що це число
-
не надто далеко від цього числа, це число
не надто далеко, а тоді
-
й це число не надто далеко.
-
Наша розбіжність вибірки, коли ми
робимо це таким чином, може
-
виявитися трохи занизькою.
-
Оскільки, усі ці числа, вони доволі....
вони
-
майже за визначенням будуть
доволі близько знаходитися
-
до даного середнього
значення кожного з них.
-
Але у цьому випадку, наша вибірка певним
чином викривлена і
-
дане справжнє середнє значення загальної
сукупності знаходиться десь тут.
-
Отож, справжня розбіжність цієї вибірки,
якщо б ви насправді
-
знали дане середнє значення... я знаю
це трохи спантеличує.
-
Якщо б ви насправді знали
дане середнє значення, то
-
ви б сказали ого.
-
Ви б з’ясували,
що ці відстані, що
-
вони є набагато більшими.
-
Уся суть того, що я кажу
полягає у тому, що коли ми
-
обираємо вибірку, то при цьому є певний
шанс, що середнє значення вашої вибірки
-
доволі близьке до середнього значення
загальної сукупності,правильно?
-
Можливо середнє значення вашої
вибірки тут, а середнє значення
-
вашої загальної
сукупності тут.
-
І тоді ця формула ймовірно
спрацює доволі добре,
-
принаймні надасть вам
значення вибірки і з’ясує
-
чому дорівнює дана розбіжність.
-
Але при цьому є суттєвий шанс, що
середнє значення вашої вибірки...
-
Ваша вибірка завжди буде співпадати
з вашої вибіркою даних, правильно?
-
Це завжди буде осердям даних вашої
вибірки.
-
Але цілком можливо, що середнє значення
даної загальної сукупності
-
буде за межами
даних вашої вибірки.
-
Може статися так, що ви оберете те,
-
що не містить справжнього середнього
значення даної загальної сукупності.
-
І тоді ця розбіжність вибірки підрахована
таким чином буде
-
насправді недооцінювати справжню
розбіжність
-
загальної сукупності,
правильно?
-
Оскільки, ці значення завжди будуть ближче
до свого власного середнього значення,
-
ніж до середнього значення
загальної сукупності.
-
І якщо ви розумієте щиро
хоча б 10% цього,
-
то ви є дуже досвідченим
щодо статистики студентом.
-
Але я кажу усе це аби надати вам, як я
сподіваюсь, певне
-
розуміння задля усвідомлення того, що
це часто недооцінюють.
-
Ця формула часто недооцінює справжню
-
розбіжність загальної сукупності.
-
І при цьому є формула, і це
насправді доведено краще,
-
ніж це роблю я, що
вважається кращою,
-
неупередженою оцінкою
-
розбіжності загальної сукупності.
-
Або ж неупередженою розбіжністю
вибірки.
-
І іноді це позначається просто знову ж
таки літерою s у квадраті.
-
Іноді, це позначаєтья за допомогою
n мінус 1 у квадраті.
-
І я покажу вам чому.
-
Це майже однакові речі.
-
Ви берете кожне значення, з’ясовуєте
як далеко вони є
-
від даного середнього значення вибірки.
-
Підносите це до квадрату.
-
А тоді знаходите середню величину цих
квадратів, окрім
-
однієї невеличкої різниці.
-
Від і=1 до i=n.
-
Замість того, щоб ділити на n, ви ділите
на трохи
-
менше число.
-
Ви ділите на n мінус 1.
-
Отож, коли ви ділите на n
мінус 1 замість ділення
-
на n, то ви отримуєте
дещо більше число тут.
-
І виявляється, що це насправді
-
значно краща оцінка.
-
І одного дня я збираюся написати
комп’ютерну програму
-
аби принаймні довести собі дослідницьким
чином, що це є
-
кращою оцінкою розбіжності загальної
сукупності.
-
І ви могли б обчислити
це таким же чином.
-
Просто діліть на n мінус 1.
-
Кажучи іншим словами...
Насправді, ні.
-
Мій час збіг.
-
Тут я вас полишаю.
-
І згодом у наступному
відео, ми зробимо
-
двійко обчислень просто аби ви
не переобтяжувалися
-
цими ідеями.
-
Оскільки, ми міркуємо
дещо абстрактно.
-
Побачимося у наступному відео.