< Return to Video

Дисперсионен анализ 3 - Проверка на хипотезите с F критерий

  • 0:00 - 0:06
    В последните две видеа първо пресметнахме общата вариация на тези 9 данни тук
  • 0:06 - 0:10
    и получихме 30, което е общият сбор на квадратите.
  • 0:10 - 0:16
    После се запитахме колко от тази вариация се дължи на вариация, породена
  • 0:16 - 0:20
    ВЪВ всяка от групите, и колко е поради вариация МЕЖДУ самите групи.
  • 0:20 - 0:25
    За вътрешногруповата вариацията изчислихме сбора на квадратите в групите (SSW) .
  • 0:25 - 0:27
    Това е 6.
  • 0:27 - 0:32
    После равенството с това 30, равенството с тази вариация
  • 0:32 - 0:36
    дойде от междугруповата вариацията, която пресметнахме (SSB),
  • 0:36 - 0:39
    като получихме 24.
  • 0:39 - 0:43
    В това видео искам да използвам този вид информация –
  • 0:43 - 0:46
    тези статистически оценки, които пресметнахме –
  • 0:46 - 0:49
    за да направим някои дедуктивни статистически оценки,
  • 0:49 - 0:53
    за да достигнем до определен извод или да не достигнем до никакви изводи.
  • 0:53 - 0:57
    Искам да дам малко пояснения около тези групи.
  • 0:57 - 1:00
    Досега се занимавахме с тях абстрактно, но можеш да си представиш,
  • 1:00 - 1:03
    че това са резултатите на някакъв вид експеримент.
  • 1:03 - 1:12
    Да кажем, че съм дал 3 различни вида хапчета или 3 различни вида храна на хора, които правят тест.
  • 1:12 - 1:14
    И това са резултатите от теста.
  • 1:14 - 1:22
    Това е храна 1, храна 2,
  • 1:22 - 1:26
    а това тук е храна 3.
  • 1:26 - 1:31
    Искам да открия дали видът храна, който хората ядат, преди да направят теста,
  • 1:31 - 1:33
    има влияние върху резултатите им.
  • 1:33 - 1:39
    Ако погледнеш тези стойности, изглежда хората в група 3 се представят по-добре,
  • 1:39 - 1:40
    отколкото в група 2 или 1.
  • 1:40 - 1:45
    Но дали тази разлика е напълно случайна? Случайна ли е вероятността?
  • 1:45 - 1:51
    Мога ли да бъда достатъчно уверен, че това е поради реалните разлики
  • 1:51 - 1:54
    в средните стойности на генералната съвкупност – на всички хора,
  • 1:54 - 1:57
    които някога ще ядат храна 3, храна 2 или храна 1?
  • 1:57 - 1:59
    Въпросът ми е:
  • 1:59 - 2:04
    "Еднакви ли са средните стойностите и реалните средни стойности на генералната съвкупност?"
  • 2:04 - 2:07
    Това е средна стойност на извадката, базирана на 3 извадки.
  • 2:07 - 2:10
    Но ако знаех реалните средни стойности на генералната съвкупност...
  • 2:10 - 2:15
    Въпросът ми е: "Средната стойност на генералната съвкупност на хората, които ядат храна 1,
  • 2:15 - 2:18
    еднаква ли е със средната стойност за храна 2?"
  • 2:18 - 2:21
    Очевидно никога няма да мога да дам тази храна на всяко човешко същество,
  • 2:21 - 2:25
    което ще живее някога, и да накарам всички тях да направят тест.
  • 2:25 - 2:29
    Но тук има реална средна стойност, просто тя не може да бъде измерена.
  • 2:29 - 2:33
    Въпросът ми е "това" (мю1) равно ли е на "това" (мю2) равно ли е на средната стойност на 3 (мю3) –
  • 2:33 - 2:36
    реалната средна стойност на генералната съвкупност 3.
  • 2:36 - 2:39
    Въпросът ми е: "Равни ли са тези?"
  • 2:39 - 2:44
    Понеже, ако не са равни, това означава, че видът храна, която сме дали,
  • 2:44 - 2:50
    има някакъв вид въздействие върху представянето на хората на теста.
  • 2:50 - 2:52
    Нека направим малка проверка на хипотеза.
  • 2:52 - 2:55
    Да кажем, че нулевата ми хипотеза е,
  • 2:55 - 2:59
    че средните стойности са еднакви.
  • 2:59 - 3:08
    "Храната няма значение."
  • 3:08 - 3:17
    Алтернативната ми хипотеза е, че храната има значение. "Има значение."
  • 3:17 - 3:19
    Начинът да мислим количествено за това е,
  • 3:19 - 3:21
    че ако няма значение, тогава средните стойности на
  • 3:21 - 3:24
    реалните генерални съвкупности на групите ще бъдат еднакви.
  • 3:24 - 3:28
    Реалната средна стойност на генералната съвкупност на групата, която е яла храна 1,
  • 3:28 - 3:30
    ще е същата като на групата, която е яла храна 2,
  • 3:30 - 3:35
    което ще е същото като групата, която е яла храна 3.
  • 3:35 - 3:40
    Ако алтернативната ни хипотеза е вярна, тогава тези средни стойности няма да са еднакви.
  • 3:40 - 3:43
    Как можем да проверим тази хипотеза?
  • 3:43 - 3:47
    Ще започнем с нулевата хипотеза, което е това,
  • 3:47 - 3:50
    което правим винаги, когато проверяваме хипотези –
  • 3:50 - 3:53
    започваме с нулевата хипотеза.
  • 3:53 - 3:56
    После ще открием каква е вероятността
  • 3:56 - 3:59
    да получим определена статистика, чиято стойност да е критична.
  • 3:59 - 4:01
    Не съм дефинирал каква ще е тази статистика.
  • 4:01 - 4:05
    Ще започнем с нулевата хипотеза,
  • 4:05 - 4:09
    а после ще намерим статистиката, наречена F статистика.
  • 4:09 - 4:12
    Нашата F статистика,
  • 4:12 - 4:16
    която има F разпределение – и няма да се задълбочаваме в детайлите
  • 4:16 - 4:19
    на F разпределението, но винаги можеш да започнеш да мислиш за него
  • 4:19 - 4:21
    като отношението на две разпределения хи-квадрат,
  • 4:21 - 4:24
    които може да имат или да нямат различни степени на свобода.
  • 4:24 - 4:32
    Нашата F статистика ще е отношението на междугруповата дисперсия –
  • 4:32 - 4:37
    сбора от квадратите между групите,
  • 4:37 - 4:42
    разделен на степените на свобода между групите,
  • 4:42 - 4:46
    и това понякога бива наричано средни квадрати – средна стойност на квадратите между групите (MSB) –
  • 4:46 - 4:52
    и това, разделено на вътрешногруповата дсперсия...
  • 4:52 - 4:57
    Това направих тук – разделих вътрешногруповата вариация,
  • 4:57 - 5:01
    сбора от квадратите в групите, SSW, което е в синьо,
  • 5:01 - 5:09
    на степените на свобода между групите и това беше m (n-1).
  • 5:09 - 5:12
    Нека сега помислим колко прави това тук.
  • 5:12 - 5:18
    Ако това число – числителят, е много по-голям от знаменателя,
  • 5:18 - 5:27
    тогава това ни казва, че вариацията в тези данни е предимно поради
  • 5:27 - 5:32
    разликите между реалните средни стойности
  • 5:32 - 5:36
    и по-малко поради вариацията на средните в групите.
  • 5:36 - 5:41
    Това е, ако този числител е много по-голям от този знаменател.
  • 5:41 - 5:45
    Това трябва да ни накара да повярваме, че има разлика
  • 5:45 - 5:47
    в реалната средна стойност на генералната съвкупност.
  • 5:47 - 5:49
    Ако това число е много голямо,
  • 5:49 - 5:51
    това трябва да ни каже, че има по-малка вероятност
  • 5:51 - 5:54
    нулевата ни хипотеза да е вярна.
  • 5:54 - 5:59
    Ако това число е много малко и знаменателят ни е по-голям,
  • 5:59 - 6:02
    това означава, че вариацията ВЪВ всяка извадка
  • 6:02 - 6:04
    е по-голяма част от общата вариация, отколкото
  • 6:04 - 6:06
    вариацията МЕЖДУ извадките.
  • 6:06 - 6:09
    Това означава, че вариацията ни ВЪВ всяка от тези извадки
  • 6:09 - 6:15
    е по-голям процент от общата вариация, спрямо вариацията МЕЖДУ извадките.
  • 6:15 - 6:18
    Това ще ни накара да повярваме, че...всяка разлика,
  • 6:18 - 6:21
    която видим между средните стойности, вероятно е просто случайна.
  • 6:21 - 6:24
    Това ще затрудни отхвърлянето на нулевата хипотеза.
  • 6:24 - 6:27
    Нека да изчислим.
  • 6:27 - 6:34
    В този случай междугруповата вариация (SSB), която изчислихме тук, беше 24
  • 6:34 - 6:38
    и имахме 2 степени на свобода.
  • 6:38 - 6:50
    Вътрешногруповата ни вариация (SSW) беше 6 и колко степени на свобода имахме?
  • 6:50 - 6:53
    Също 6. 6 степени на свобода.
  • 6:53 - 6:59
    Това ще е 24/2, което е 12, делено на 1.
  • 6:59 - 7:06
    F статистиката, която пресметнахме, е равна на 12.
  • 7:06 - 7:11
    F идва от "Fischer" (Фишер) – биолог и статистик, който е измислил това.
  • 7:11 - 7:15
    Нашата F статистика е 12.
  • 7:15 - 7:17
    Ще видим, че това е доста високо число.
  • 7:17 - 7:20
    Едно от нещата, които забравих да спомена, е, че при всяка проверка на хипотези
  • 7:20 - 7:22
    ще ни трябва някакво ниво на значимост.
  • 7:22 - 7:25
    Нека кажем, че нивото на значимост, което ни интересува
  • 7:25 - 7:28
    за проверката на хипотезите, е 10%.
  • 7:28 - 7:31
    0,10 – което означава,
  • 7:31 - 7:35
    че ако приемем нулевата хипотеза,
  • 7:35 - 7:40
    ще има по-малко от 10% вероятност да получим резултата, който получихме –
  • 7:40 - 7:42
    да получим тази F статистика и тогава
  • 7:42 - 7:45
    ще трябва да отхвърлим нулевата хипотеза.
  • 7:45 - 7:48
    Искаме да намерим критичната стойност на F статистиката,
  • 7:48 - 7:54
    при която получаването на такава стойност или по-висока от нея, е 10%.
  • 7:54 - 7:57
    И ако получената F статистика е по-голяма от критичната стойност
  • 7:57 - 8:00
    тогава ще отхвърлим нулевата хипотеза,
  • 8:00 - 8:01
    а ако е по-малка, не можем да отхвърлим нулевата хипотеза.
  • 8:01 - 8:06
    Няма да навлизам в много детайли за F статистиката,
  • 8:06 - 8:09
    но вече можем да видим, че всеки от тези сборове на квадратите
  • 8:09 - 8:11
    има разпределение хи-квадрат
  • 8:11 - 8:13
    "Това" има едно разпределение хи-квадрат,
  • 8:13 - 8:15
    а "това" има друго разпределение хи-квадрат.
  • 8:15 - 8:18
    Това има разпределение хи-квадрат с 2 степени на свобода,
  • 8:18 - 8:21
    а това е разпределение хи-квадрат с – и не сме го нормализирали –
  • 8:21 - 8:24
    но приблизително разпределение хи-квадрат с 6 степени на свобода.
  • 8:24 - 8:30
    F разпределението е отношението на две разпределения Хи-квадрат
  • 8:30 - 8:35
    и получих това – това е скрийншот от курса на един професор в UCLA,
  • 8:35 - 8:39
    надявам се, че нямат нищо против, трябваше да намеря F таблица, която да погледнем.
  • 8:39 - 8:42
    Така изглежда едно F разпределение.
  • 8:42 - 8:44
    Очевидно ще изглежда различно, в зависимост от
  • 8:44 - 8:47
    степените на свобода на числителя и знаменателя.
  • 8:47 - 8:49
    Има две степени на свобода, за които да помислим –
  • 8:49 - 8:53
    степените на свобода на числителя и степените на свобода на знаменателя.
  • 8:53 - 8:57
    Като уточнихме това, нека пресметнем критичната F стойност
  • 8:57 - 9:03
    за алфа равно на 0,10
  • 9:03 - 9:07
    и ще видиш различни F таблици за всяка различна алфа,
  • 9:07 - 9:12
    при което степените на свобода за числителя са 2, а степените на свобода за знаменателя са 6.
  • 9:12 - 9:17
    Тази цялата таблица е за алфа от 10%
  • 9:17 - 9:25
    или 0,10 и степените на свобода за числителя ни бяха 2, а степените на свобода за знаменателя ни са 6.
  • 9:25 - 9:30
    Така че критичната ни F стойност е 3,46.
  • 9:30 - 9:40
    Критичната F стойност е 3,46 – тази стойност ето тук е 3,46.
  • 9:40 - 9:44
    Стойността, която получихме от тези данни, е много по-голяма от това.
  • 9:44 - 9:46
    Това ще има много, много малка "р" стойност.
  • 9:46 - 9:48
    Вероятността случайно да получим нещо толкова екстремно,
  • 9:48 - 9:51
    като приемаме нулевата хипотеза, е много ниска.
  • 9:51 - 9:55
    Това е много по-голямо от критичната ни F статистика
  • 9:55 - 9:57
    с ниво на значимост от 10%.
  • 9:57 - 10:02
    Поради това можем да отхвърлим нулевата хипотеза.
  • 10:02 - 10:04
    Което ни кара да повярваме, че вероятно
  • 10:04 - 10:07
    има разлика в средните стойности на генералната съвкупност.
  • 10:07 - 10:10
    Което ни казва, че има вероятност да има разлики в представянето
  • 10:10 - 10:13
    на един изпит, ако им дадем различни храни.
Title:
Дисперсионен анализ 3 - Проверка на хипотезите с F критерий
Description:

Дисперсионен анализ 3 - Проверка на хипотезите с F критерий

Това е последното видео в нашата тема за вероятност и статистика! Сега преминете към първото ни видео в Precalculus: https://www.khanacademy.org/math/precalculus/vectors-precalc/vector-basic/v/vector-representations-example?utm_source=YT&utm_medium=Desc&utm_campaign=ProbabilityandStatistics

Пропуснахте предишния урок?
https://www.khanacademy.org/math/probability/statistics-inferential/anova/v/anova-2-calculating-ssw-and-ssb-total-sum-of-squares-within-and-between-avi?utm_source=YT&utm_medium=Desc&utm_campaign=ProbabilityandStatistics

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
10:14

Bulgarian subtitles

Revisions Compare revisions