-
В последните две видеа първо открихме общата вариация на тези 9 данни тук
-
и получихме 30, което е общият сбор на квадратите.
-
После се запитахме колко от тази вариация се дължи на вариация, породена
-
ВЪВ всяка от групите, и колко е поради вариация МЕЖДУ самите групи.
-
За вариацията *в* групите (SSW) имаме сбора на квадратите *в* групите.
-
Това е 6.
-
После балансът на това, 30, балансът на тази вариация
-
дойде от вариацията между групите и го пресметнахме (SSB),
-
като получихме 24.
-
В това видео искам да използвам този вид информация –
-
тези статистически оценки, които пресметнахме –
-
за да направим някои дедуктивни статистически оценки,
-
за да достигнем до заключение или да не достигнем до никакъв вид заключение.
-
Искам да вложа малко контекст около тези групи.
-
Досега се занимавахме с тях абстрактно, но можеш да си представиш,
-
че това са резултатите на някакъв вид експеримент.
-
Да кажем, че съм дал 3 различни вида хапчета или 3 различни вида храна на хора, които правят тест.
-
И това са резултатите от теста.
-
Това е храна 1, храна 2,
-
а това тук е храна 3.
-
Искам да открия дали видът храна, който хората ядат, преди да направят теста,
-
има влияние върху резултатите им.
-
Ако погледнеш тези стойности, изглежда хората в група 3 се представят по-добре,
-
отколкото в група 2 или 1.
-
Но напълно случайна ли е тази разлика? Случайна ли е вероятността?
-
Мога ли да бъда достатъчно уверен, че това е поради реалните разлики
-
в средните стойности на генералната съвкупност – на всички хора,
-
които някога ще ядат храна 3, храна 2 или храна 1?
-
Въпросът ми е:
-
"Еднакви ли са средните стойностите и реалните средни стойности на генералната съвкупност?"
-
Това е средна стойност на извадката, базирана на 3 извадки.
-
Но ако знаех реалните средни стойности на генералната съвкупност...
-
Въпросът ми е: "Средната стойност на генералната съвкупност на хората, които ядат храна 1,
-
еднаква ли е със средната стойност за храна 2?"
-
Очевидно никога няма да мога да дам тази храна на всяко човешко същество,
-
което ще живее някога, и да накарам всички тях да направят тест.
-
Но тук има реална средна стойност, просто не е измеряема.
-
Въпросът ми е "това" равно ли е на "това" равно на средната стойност 3 –
-
реалната средна стойност на генералната съвкупност 3.
-
Въпросът ми е: "Равни ли са тези?"
-
Понеже, ако не са равни, това означава, че видът храна, която сме дали,
-
има някакъв вид въздействие върху представянето на хората на теста.
-
Нека направим малък тест на хипотезата.
-
Да кажем, че нулевата ми хипотеза е,
-
че средните стойности са еднакви.
-
"Храната няма значение."
-
Алтернативната ми хипотеза е, че има значение. "Има значение."
-
Начинът да мислим количествено за това е,
-
че ако няма значение, тогава средните стойности на
-
реалните генерални съвкупности на групите ще бъдат еднакви.
-
Реалната средна стойност на генералната съвкупност на групата, която е яла храна 1,
-
ще е същата като на групата, която е яла храна 2,
-
което ще е същото като групата, която е яла храна 3.
-
Ако алтернативната ни хипотеза е вярна, тогава тези средни стойности няма да са еднакви.
-
Как можем да проверим тази хипотеза?
-
Ще започнем с нулевата хипотеза, което е това,
-
което правим винаги, когато проверяваме хипотези –
-
започваме с нулевата хипотеза.
-
После ще открием какви са шансовете
-
да получим определена статистика, която да е толкова крайна?
-
Не съм дефинирал каква ще е тази статистика.
-
Ще започнем с нулевата хипотеза,
-
а после ще намерим статистиката, наречена F статистика.
-
Нашата F статистика,
-
която има F разпределение – и няма да се задълбочаваме в детайлите
-
на F разпределението, но винаги можеш да започнеш да мислиш за него
-
като отношението на две разпределения хи-квадрат,
-
които може да имат или да нямат различни степени на свобода.
-
Нашата F статистика ще е отношението на междугруповата дисперсия –
-
сбора от квадратите между групите,
-
разделен на степените на свобода между групите,
-
и това понякога бива наричано средни квадрати – средна стойност на квадратите между групите (MSB) –
-
и това, разделено на вътрешногруповата дисперсия...
-
Това направих тук – разделих вътрешногруповата вариация,
-
сбора от квадратите *в* групите, SSW, което е в синьо,
-
на степените на свобода между групите и това беше m (n-1).
-
Нека сега помислим какво прави това тук.
-
Ако това число – числителят, е много по-голям от знаменателя,
-
тогава това ни казва, че вариацията в тези данни е предимно поради
-
разликите *между* реалните средни стойности
-
и по-малко поради вариацията на средните в групите.
-
Това е, ако този числител е много по-голям от този знаменател.
-
Това трябва да ни накара да повярваме, че има разлика
-
в реалната средна стойност на генералната съвкупност.
-
Ако това число е много голямо,
-
това трябва да ни каже, че има по-ниска вероятност
-
нулевата ни хипотеза да е вярна.
-
Ако това число е много малко и знаменателят ни е по-голям,
-
това означава, че вариацията ВЪВ всяка извадка
-
е по-голяма част от общата вариация, отколкото
-
вариацията МЕЖДУ извадките.
-
Това означава, че вариацията ни ВЪВ всяка от тези извадки
-
е по-голям процент от общата вариация, спрямо вариацията МЕЖДУ извадките.
-
Това ще ни накара да повярваме, че...всяка разлика,
-
която видим между средните стойности, вероятно е просто случайна.
-
Това ще затрудни отхвърлянето на нулевата хипотеза.
-
Нека да изчислим.
-
В този случай междугруповата вариация (SSB), която изчислихме тук, беше 24
-
и имахме 2 степени на свобода.
-
Вътрешногруповата ни вариация (SSW) беше 6 и колко степени на свобода имахме?
-
Също 6. 6 степени на свобода.
-
Това ще е 24/2, което е 12, делено на 1.
-
F статистиката, която пресметнахме, ще е 12.
-
F идва от "Fischer" (Фишър) – биолог и статистик, който е измислил това.
-
Нашата F статистика ще е 12.
-
Ще видим, че това е доста високо число.
-
Едно от нещата, които забравих да спомена, е, че при всяка проверка на хипотеза
-
ще ни трябва някакво ниво на значимост.
-
Нека кажем, че нивото на значимост, което ни интересува
-
за проверката на хипотезите, е 10%.
-
0,10 – което означава,
-
че ако приемем нулевата хипотеза,
-
има по-малко от 10% шанс да получим резултата, който получихме –
-
да получим тази F статистика.
-
Тогава ще отхвърлим нулевата хипотеза.
-
Искаме да намерим критичната стойност на F статистиката,
-
при която получаването на тази екстремна стойност или по-висока от нея, е 10%.
-
И ако е по-голяма от критичната стойност на F статистиката,
-
тогава ще отхвърлим нулевата хипотеза,
-
а ако е по-малка, не можем да отхвърлим нулевата хипотеза.
-
Няма да навлизам в много детайли за F статистиката,
-
но вече можем да видим, че всеки от тези сборове на квадратите
-
има разпределение хи-квадрат
-
"Това" има разпределение хи-квадрат,
-
а "това" има различно разпределение хи-квадрат.
-
Това има разпределение хи-квадрат с 2 степени на свобода,
-
а това е разпределение хи-квадрат с – и не сме го нормализирали –
-
но приблизително разпределение хи-квадрат с 6 степени на свобода.
-
F разпределението е отношението на две Хи-квадратни разпределения
-
и получих това – това е скрийншот от курса на един професор в UCLA,
-
надявам се, че нямат нищо против, трябваше да намеря F таблица, която да погледнем.
-
Така изглежда едно F разпределение.
-
Очевидно ще изглежда различно, в зависимост от
-
степените на свобода на числителя и знаменателя.
-
Има две степени на свобода, за които да помислим –
-
степените на свобода на числителя и степените на свобода на знаменателя.
-
Като уточнихме това, нека пресметнем критичната F стойност
-
за алфа равно на 0,10
-
и ще видиш различни F таблици за всяка различна алфа,
-
при което степените на свобода за числителя са 2, а степените на свобода за знаменателя са 6.
-
Тази цялата таблица е за алфа от 10%
-
или 0,10 и степените на свобода за числителя ни бяха 2, а степените на свобода за знаменателя ни са 6.
-
Така че критичната ни F стойност е 3,46.
-
Критичната F стойност е 3,46 – тази стойност ето тук е 3,46.
-
Стойността, която получихме от тези данни, е много по-голяма от това.
-
Това ще има много, много малка "р" стойност.
-
Вероятността случайно да получим нещо толкова екстремно,
-
като приемаме нулевата хипотеза, е много ниска.
-
Това е много по-голямо от критичната ни F статистика
-
с ниво на значимост от 10%.
-
Поради това можем да отхвърлим нулевата хипотеза.
-
Което ни кара да повярваме, че вероятно
-
има разлика в средните стойности на генералната съвкупност.
-
Което ни казва, че има вероятност да има разлики в представянето
-
на един изпит, ако им дадем различни храни.