< Return to Video

Small Sample Size Confidence Intervals

  • 0:00 - 0:03
    Кръвното налягане на 7 пациенти
    било измерено, след като
  • 0:03 - 0:05
    са приемали ново
    лекарство в продължение на 3 месеца.
  • 0:05 - 0:07
    Било наблюдавано повишение
    на кръвното налягане, и тук
  • 0:07 - 0:11
    ни дават седем точки данни –
    кой знае, това са в някакви
  • 0:11 - 0:12
    единици за кръвно налягане.
  • 0:12 - 0:18
    Да се изгради 95%-ен доверителен интервал
    за действителното очаквано
  • 0:18 - 0:22
    нарастване на кръвното налягане при всички
    пациенти от генералната съвкупност.
  • 0:22 - 0:25
    Има някакво разпределение
    на генералната съвкупност тук.
  • 0:25 - 0:27
    Допускаме основателно, че това
    разпределение е нормално.
  • 0:27 - 0:29
    Става дума за биологически процес.
  • 0:29 - 0:32
    Т.е., ако дадем това лекарство
    на всеки човек, който някога
  • 0:32 - 0:39
    е живял, това ще доведе до някакво
    средно повишение на кръвното налягане,
  • 0:39 - 0:41
    или кой знае, може би
    всъщност то ще намалее.
  • 0:41 - 0:42
    И при него също ще има
  • 0:42 - 0:46
    някакво стандартно отклонение.
  • 0:46 - 0:47
    Това е едно нормално разпределение.
  • 0:47 - 0:49
    Причината да предположим
    основателно, че това е
  • 0:49 - 0:51
    едно нормално разпределение,
    е тази, че това е
  • 0:51 - 0:53
    един биологичен процес.
  • 0:53 - 0:56
    Това е съвкупност от
    хиляди, милиони случайни събития.
  • 0:56 - 1:00
    А резултатите от
    на милиони и хиляди
  • 1:00 - 1:02
    произволни събития са един вид
    нормално разпределени.
  • 1:02 - 1:08
    Това е разпределението
    на генералната съвкупност.
  • 1:08 - 1:13
    И фактически не знаем нищо
    за него извън извадката, която имаме.
  • 1:13 - 1:17
    Това, което можем да направим,
    и е хубаво да направим,
  • 1:17 - 1:20
    когато имаме извадка, е
    просто да намерим всичко,
  • 1:20 - 1:22
    което е възможно да намерим
    за тази извадка, още в началото.
  • 1:22 - 1:24
    Имаме нашите точки информация.
  • 1:24 - 1:27
    Можем да ги съберем
    и да ги разделим на 7, за да получим
  • 1:27 - 1:29
    средната стойност на извадката.
  • 1:29 - 1:34
    Средната стойност на извадката
    тук е 2,34.
  • 1:34 - 1:37
    След това можем да пресметнем и
    стандартното отклонение на извадката.
  • 1:37 - 1:39
    Намираме квадрата на разстоянието от
    всяка една от тези точки до
  • 1:39 - 1:44
    средната стойност, събираме ги,
    разделяме на n минус 1, защото
  • 1:44 - 1:46
    това е извадката, след това намираме
    квадратния корен, и получаваме
  • 1:46 - 1:48
    стандартното отклонение
    на нашата извадка.
  • 1:48 - 1:50
    Направих това предварително,
    за да спестя време.
  • 1:50 - 1:53
    Стандартното отклонение
    на извадката е 1,04.
  • 1:53 - 1:54
    И когато не знаем нищо за
    разпределението
  • 1:54 - 1:58
    на генералната съвкупност, това,
    което правихме от началото,
  • 1:58 - 2:05
    е да намерим този оценка за
    стандартното отклонение на извадката.
  • 2:05 - 2:08
    Така че оценяваме действителното
    стандартно отклонение
  • 2:08 - 2:12
    на генералната съвкупност чрез
  • 2:12 - 2:16
    стандартното отклонение
    на извадката.
  • 2:16 - 2:19
    И в тази задача, точно тази
    задача,
  • 2:19 - 2:21
    се натъкваме на проблем.
  • 2:21 - 2:25
    Пресмятаме стандартното
    отклонение, когато n е само 7.
  • 2:25 - 2:31
    И това вероятно ще
    бъде не много добра оценка,
  • 2:31 - 2:41
    защото... нека напиша –
    защото n е малко.
  • 2:41 - 2:44
    По принцип се счита
    за лоша оценка, ако
  • 2:44 - 2:46
    n е по-малко от 30.
  • 2:46 - 2:49
    Над 30 сме в царството
    на добрите оценки.
  • 2:49 - 2:52
    И фокусът на този клип е съсредоточен
    в това – когато мислим
  • 2:52 - 2:55
    за извадковото разпределение,
    същото, което ще
  • 2:55 - 2:59
    използваме, за да създадем нашия интервал,
    вместо да приемем , че
  • 2:59 - 3:03
    извадковото разпределение е нормално,
    както и направихме в много други клипове,
  • 3:03 - 3:05
    като приложихме централната
    гранична теорема и всичко това,
  • 3:05 - 3:08
    тук ще променим
    извадковото разпределение.
  • 3:08 - 3:10
    Няма да го приемаме като
    нормално разпределение, защото
  • 3:10 - 3:12
    ще получим лоша оценка.
  • 3:12 - 3:14
    Ще приемем, че има
    разпределение, наречено
  • 3:14 - 3:16
    t-разпределение.
  • 3:16 - 3:18
    t-разпределението
    по същество, най-добрият начин
  • 3:18 - 3:23
    да го разглеждаме, е, че е
    все едно конструирано, за да даде
  • 3:23 - 3:25
    по-добра оценка на доверителните
    интервали и всичко това,
  • 3:25 - 3:29
    когато действително имаме
    малък размер на извадката.
  • 3:29 - 3:34
    Изглежда много подобно
    на едно нормално разпределение.
  • 3:34 - 3:38
    То има някаква средна стойност – това е
    нашата средна стойност на нашето
  • 3:38 - 3:39
    извадково разпределение.
  • 3:39 - 3:46
    Но тук то има и
    по-големи опашки.
  • 3:46 - 3:50
    Начинът, по който разглеждам
    тези по-големи опашки, е, че
  • 3:50 - 3:53
    приемам, че имаме налице
    едно стандартно отклонение за...
  • 3:53 - 3:56
    ще направя още една стъпка.
  • 3:56 - 3:59
    При нормалното разпределение
    намираме стойността на действителното
  • 3:59 - 4:01
    стандартно отклонение, след което
    казваме, че
  • 4:01 - 4:08
    стандартното отклонение на извадковото
    разпределение е равно на
  • 4:08 - 4:11
    действителното стандартно отклонение
    на генералната съвкупност,
  • 4:11 - 4:13
    делено на квадратен корен от n.
  • 4:13 - 4:16
    В този случай n е равно на 7.
  • 4:16 - 4:18
    Тогава си казваме: "Добре, никога
    не знаем действителното стандартно отлонение,
  • 4:18 - 4:21
    или рядко знаем, понякога наистина
    го знаем, но рядко знаем
  • 4:21 - 4:23
    действителното стандартно отклонение.
  • 4:23 - 4:25
    А ако не го знаем, най-добрата оценка,
    която можем да поставим тук,
  • 4:25 - 4:32
    това е стандартното
    отклонение на извадката.
  • 4:32 - 4:36
    А това тук, това е
    цялата причина за това защо
  • 4:36 - 4:39
    не казваме, че това е само
    интервал с вероятност 95%.
  • 4:39 - 4:41
    Това е цялата причина да го
    наречем доверителен интервал,
  • 4:41 - 4:43
    защото правим
    някои предположения.
  • 4:43 - 4:47
    Това ще се променя
    от извадка до извадка.
  • 4:47 - 4:50
    И конкретно, това ще бъде
    определено лоша оценка,
  • 4:50 - 4:53
    когато имаме
    малък размер на извадката,
  • 4:53 - 4:56
    размер, по-малък от 30.
  • 4:56 - 4:58
    Така че, когато оценяваме
    стандартното отклонение, там,
  • 4:58 - 5:02
    ние не го знаем, ние го пресмятаме
    от стандартното отклонение на извадката,
  • 5:02 - 5:04
    и размерът на нашата извадка
    е малък, тогава
  • 5:04 - 5:07
    ще използваме това, за да
    преметнем стандартното
  • 5:07 - 5:11
    отклонение на нашето извадково
    разпределение, не приемаме, че
  • 5:11 - 5:13
    разпределението на извадката
    е нормално разпределение.
  • 5:13 - 5:17
    Приемаме, че то има
    по-дебели опашки.
  • 5:17 - 5:19
    Има по-дебели опашки,
    защото всъщност
  • 5:19 - 5:24
    ние подценяваме
    стандартното отклонение тук.
  • 5:24 - 5:27
    Както и да е, с всичко казано дотук,
    нека само преминем през тази задача.
  • 5:27 - 5:31
    Трябва да номерим 95%-ния
    доверителен интервал около
  • 5:31 - 5:34
    тази средна стойност тук.
  • 5:34 - 5:36
    95%-ният доверителен интервал,
    ако това беше едно нормално
  • 5:36 - 5:39
    разпределение, ще го
    погледнеш в Z-таблица.
  • 5:39 - 5:45
    Но то не е, това е
    t-разпределение.
  • 5:45 - 5:48
    Търсим 95%-ен
    доверителен интервал.
  • 5:48 - 5:51
    Това е някакъв интервал около
    средната стойност, който
  • 5:51 - 5:53
    обхваща 95% от площта.
  • 5:53 - 5:57
    За t-разпределение използваме
    t-таблица, и тук имам
  • 5:57 - 5:59
    една предварително направена такава.
  • 5:59 - 6:03
    Сега в таблицата гледаме реда
    за симетрично двустранно разпределение
    (с две опашки),
  • 6:03 - 6:04
    каквото имаме тук.
  • 6:04 - 6:06
    И най-добрият начин да
    определим това е, че имаме
  • 6:06 - 6:09
    симетрично разположение
    от двете страни на средната стойност.
  • 6:09 - 6:12
    И затова наричаме
    разпределението двустранно.
  • 6:12 - 6:14
    Би била едностранно, ако
    имаше един вид сумарен
  • 6:14 - 6:16
    процент към даден
    критичен праг.
  • 6:16 - 6:19
    Но в този случай то е
    двустранно, имаме симетричност.
  • 6:19 - 6:20
    Или друг начин да го
    представим, е като
  • 6:20 - 6:22
    изключим двете опашки.
  • 6:22 - 6:26
    Така искаме 95% от средата.
  • 6:26 - 6:33
    И това е извадково
    разпределение
  • 6:33 - 6:37
    на средната стойност при n равно на 7.
  • 6:37 - 6:40
    Тук няма да навлизам в
    подробности, но когато n =7,
  • 6:40 - 6:45
    имаме 6 степени
    на свобода, или n минус 1.
  • 6:45 - 6:49
    И начинът, по който са направени
    t-таблиците, показва как се намират
  • 6:49 - 6:50
    степените на свобода.
  • 6:50 - 6:52
    Не се използва n,
    а се използва n – 1.
  • 6:52 - 6:54
    И затова отиваме на шест
    в таблицата.
  • 6:54 - 6:59
    Ако искаме да оградим
    95% от това тук,
  • 6:59 - 7:04
    и имаме n от 6, трябва
    да отидем на 2,447 стандартни
  • 7:04 - 7:06
    отклонения във всяка посока.
  • 7:06 - 7:10
    А тази t-таблица предполага, че
    това стандартно отклонение
  • 7:10 - 7:14
    е приблизително равно на
    нашето извадково стандартно отклонение.
  • 7:14 - 7:17
    Друг начин да помислим за него, е
    когато трябва да стигнем на 2,447 по това
  • 7:17 - 7:20
    приблизително изчислено
    стандартно отклонение.
  • 7:20 - 7:22
    Нека го напиша тук.
  • 7:22 - 7:29
    Така, трябва да стигнем до 2,447 – това
    разстояние тук е 2,447
  • 7:29 - 7:38
    по това приблизително
    определено стандартно отклонение.
  • 7:38 - 7:40
    И понякога ще видим нещо
    такова в някой учебник по статистика.
  • 7:40 - 7:42
    Това нещо тук,
    точно това число,
  • 7:42 - 7:44
    е показано по този начин.
  • 7:44 - 7:47
    Сложена е малка шапчица
    върху стандартното отклонение, за да
  • 7:47 - 7:50
    стане ясно, че то е изчислено
    приблизително чрез извадковото
  • 7:50 - 7:51
    стандартно отклонение.
  • 7:51 - 7:53
    И ще сложим една шапчица
    тук, защото откровено казано, това е
  • 7:53 - 7:56
    единственият елемент, който
    можем да пресметнем.
  • 7:56 - 7:59
    И това показва колко далеч
    можем да отидем във всяка посока.
  • 7:59 - 8:00
    Знаем и каква е тази стойност.
  • 8:00 - 8:02
    Знаем какво е извадковото разпределение.
  • 8:02 - 8:11
    Сега ще взема нашия калкулатор.
  • 8:11 - 8:17
    Знаем, че стандартното
    отклонение на извадката е 1,04.
  • 8:17 - 8:23
    И искаме да го разделим
    на корен квадратен от 7.
  • 8:23 - 8:29
    Получаваме 0,39.
  • 8:29 - 8:36
    Т.е. това тук е 0,39.
  • 8:36 - 8:39
    И ако искаме да намерим
    областта около тази
  • 8:39 - 8:42
    средна стойност на генералната
    съвкупност, която обгражда
  • 8:42 - 8:46
    95% от генералната съвкупност или от
    извадковото разпределение, трябва
  • 8:46 - 8:51
    да умножим 0,39 по 2,447,
    така че нека го направим.
  • 8:51 - 9:01
    Умножено по 2,447 дава 0,96.
  • 9:01 - 9:10
    Така това е равно на... това
    разстояние тук е 0,96,
  • 9:10 - 9:13
    а това тук е 0,96.
  • 9:13 - 9:16
    И ако вземем една случайна извадка,
    а това е същото, което направихме,
  • 9:16 - 9:20
    когато взехме
    тези 7 резултата.
  • 9:20 - 9:23
    Когато за тези 7 резултата намерихме
    средната им стойност, тя може
  • 9:23 - 9:27
    да се разглежда като случайна
    извадка от извадковото разпределение.
  • 9:27 - 9:31
    Така вероятността, можем и да
    я видим, бихме казали, че
  • 9:31 - 9:36
    имаме 95% вероятност...
    трябва всъщност да изразим
  • 9:36 - 9:39
    всичко като доверителен интервал,
    понеже правим всички
  • 9:39 - 9:41
    тези приблизителни оценки тук.
  • 9:41 - 9:44
    И нямаме действителна точна
    95% вероятност.
  • 9:44 - 9:47
    Просто вярваме, че
    има 95% вероятност, че
  • 9:47 - 9:52
    нашата случайна генерална съвкупност...
    нашата случайна извадка, която е
  • 9:52 - 9:56
    2,34, и можем някак да я
    използваме... просто взехме това
  • 9:56 - 10:00
    2,34 от разпределението тук.
  • 10:00 - 10:12
    Така че има 95% вероятност...
    2,34 да е в рамките на 0,96 от
  • 10:12 - 10:15
    реалната средна стойност на
    извадковото разпределение, която
  • 10:15 - 10:17
    също знаем, че е равна на
  • 10:17 - 10:22
    средната стойност на
    генералната съвкупност.
  • 10:22 - 10:25
    Или можем само да пренаредим
    изречението и да кажем, че има
  • 10:25 - 10:34
    95% вероятност действителната
    средна стойност, която е същото като
  • 10:34 - 10:37
    средната стойност на
    извадковото разпределение,
  • 10:37 - 10:45
    да е в рамките на 0,96 от
    средната стойност на извадката, или 2,34.
  • 10:45 - 10:52
    Така в ниския край, ако отидем на
    2,36 минус... ако отидем на 2,34
  • 10:52 - 10:57
    минус 0,96 – това е ниският край на
    нашия доверителен интервал, 1,38.
  • 10:57 - 11:02
    А високият край на този интервал,
    2,34 плюс
  • 11:02 - 11:05
    0,96 е равен на 3,3.
  • 11:05 - 11:10
    Така нашият 95%-ен
    доверителен интервал е от 1,38 до 3,3.
Title:
Small Sample Size Confidence Intervals
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
11:11

Bulgarian subtitles

Revisions