WEBVTT
00:00:00.000 --> 00:00:06.260
В последните две видеа първо пресметнахме общата вариация на тези 9 данни тук
00:00:06.260 --> 00:00:09.960
и получихме 30, което е общият сбор на квадратите.
00:00:09.960 --> 00:00:15.500
После се запитахме колко от тази вариация се дължи на вариация, породена
00:00:15.500 --> 00:00:19.533
ВЪВ всяка от групите, и колко е поради вариация МЕЖДУ самите групи.
00:00:19.533 --> 00:00:24.933
За вътрешногруповата вариацията изчислихме сбора на квадратите в групите (SSW) .
00:00:24.933 --> 00:00:26.933
Това е 6.
00:00:26.940 --> 00:00:32.080
После равенството с това 30, равенството с тази вариация
00:00:32.080 --> 00:00:36.333
дойде от междугруповата вариацията, която пресметнахме (SSB),
00:00:36.340 --> 00:00:39.480
като получихме 24.
00:00:39.480 --> 00:00:43.020
В това видео искам да използвам този вид информация –
00:00:43.020 --> 00:00:46.183
тези статистически оценки, които пресметнахме –
00:00:46.183 --> 00:00:49.140
за да направим някои дедуктивни статистически оценки,
00:00:49.140 --> 00:00:53.200
за да достигнем до определен извод или да не достигнем до никакви изводи.
00:00:53.200 --> 00:00:56.820
Искам да дам малко пояснения около тези групи.
00:00:56.820 --> 00:01:00.080
Досега се занимавахме с тях абстрактно, но можеш да си представиш,
00:01:00.080 --> 00:01:02.900
че това са резултатите на някакъв вид експеримент.
00:01:02.900 --> 00:01:11.860
Да кажем, че съм дал 3 различни вида хапчета или 3 различни вида храна на хора, които правят тест.
00:01:11.867 --> 00:01:13.933
И това са резултатите от теста.
00:01:13.940 --> 00:01:22.000
Това е храна 1, храна 2,
00:01:22.000 --> 00:01:26.460
а това тук е храна 3.
00:01:26.460 --> 00:01:31.040
Искам да открия дали видът храна, който хората ядат, преди да направят теста,
00:01:31.040 --> 00:01:33.400
има влияние върху резултатите им.
00:01:33.400 --> 00:01:38.567
Ако погледнеш тези стойности, изглежда хората в група 3 се представят по-добре,
00:01:38.567 --> 00:01:40.267
отколкото в група 2 или 1.
00:01:40.267 --> 00:01:44.733
Но дали тази разлика е напълно случайна? Случайна ли е вероятността?
00:01:44.740 --> 00:01:50.520
Мога ли да бъда достатъчно уверен, че това е поради реалните разлики
00:01:50.520 --> 00:01:53.660
в средните стойности на генералната съвкупност – на всички хора,
00:01:53.660 --> 00:01:56.860
които някога ще ядат храна 3, храна 2 или храна 1?
00:01:56.860 --> 00:01:58.860
Въпросът ми е:
00:01:58.867 --> 00:02:03.733
"Еднакви ли са средните стойностите и реалните средни стойности на генералната съвкупност?"
00:02:03.740 --> 00:02:06.580
Това е средна стойност на извадката, базирана на 3 извадки.
00:02:06.580 --> 00:02:10.333
Но ако знаех реалните средни стойности на генералната съвкупност...
00:02:10.340 --> 00:02:14.760
Въпросът ми е: "Средната стойност на генералната съвкупност на хората, които ядат храна 1,
00:02:14.760 --> 00:02:17.680
еднаква ли е със средната стойност за храна 2?"
00:02:17.680 --> 00:02:20.940
Очевидно никога няма да мога да дам тази храна на всяко човешко същество,
00:02:21.000 --> 00:02:24.520
което ще живее някога, и да накарам всички тях да направят тест.
00:02:24.540 --> 00:02:29.400
Но тук има реална средна стойност, просто тя не може да бъде измерена.
00:02:29.400 --> 00:02:33.300
Въпросът ми е "това" (мю1) равно ли е на "това" (мю2) равно ли е на средната стойност на 3 (мю3) –
00:02:33.300 --> 00:02:35.560
реалната средна стойност на генералната съвкупност 3.
00:02:35.560 --> 00:02:38.820
Въпросът ми е: "Равни ли са тези?"
00:02:38.820 --> 00:02:43.760
Понеже, ако не са равни, това означава, че видът храна, която сме дали,
00:02:43.760 --> 00:02:50.060
има някакъв вид въздействие върху представянето на хората на теста.
00:02:50.060 --> 00:02:52.400
Нека направим малка проверка на хипотеза.
00:02:52.400 --> 00:02:55.000
Да кажем, че нулевата ми хипотеза е,
00:02:55.000 --> 00:02:59.360
че средните стойности са еднакви.
00:02:59.360 --> 00:03:07.880
"Храната няма значение."
00:03:07.880 --> 00:03:16.880
Алтернативната ми хипотеза е, че храната има значение. "Има значение."
00:03:16.880 --> 00:03:19.000
Начинът да мислим количествено за това е,
00:03:19.000 --> 00:03:21.100
че ако няма значение, тогава средните стойности на
00:03:21.100 --> 00:03:24.000
реалните генерални съвкупности на групите ще бъдат еднакви.
00:03:24.000 --> 00:03:27.520
Реалната средна стойност на генералната съвкупност на групата, която е яла храна 1,
00:03:27.520 --> 00:03:30.440
ще е същата като на групата, която е яла храна 2,
00:03:30.440 --> 00:03:35.180
което ще е същото като групата, която е яла храна 3.
00:03:35.200 --> 00:03:40.280
Ако алтернативната ни хипотеза е вярна, тогава тези средни стойности няма да са еднакви.
00:03:40.280 --> 00:03:42.720
Как можем да проверим тази хипотеза?
00:03:42.720 --> 00:03:47.080
Ще започнем с нулевата хипотеза, което е това,
00:03:47.080 --> 00:03:49.800
което правим винаги, когато проверяваме хипотези –
00:03:49.800 --> 00:03:52.600
започваме с нулевата хипотеза.
00:03:52.600 --> 00:03:56.120
После ще открием каква е вероятността
00:03:56.120 --> 00:03:59.260
да получим определена статистика, чиято стойност да е критична.
00:03:59.267 --> 00:04:01.200
Не съм дефинирал каква ще е тази статистика.
00:04:01.200 --> 00:04:04.940
Ще започнем с нулевата хипотеза,
00:04:04.940 --> 00:04:08.660
а после ще намерим статистиката, наречена F статистика.
00:04:08.667 --> 00:04:11.933
Нашата F статистика,
00:04:11.940 --> 00:04:16.380
която има F разпределение – и няма да се задълбочаваме в детайлите
00:04:16.380 --> 00:04:19.060
на F разпределението, но винаги можеш да започнеш да мислиш за него
00:04:19.060 --> 00:04:21.140
като отношението на две разпределения хи-квадрат,
00:04:21.140 --> 00:04:23.800
които може да имат или да нямат различни степени на свобода.
00:04:23.800 --> 00:04:31.933
Нашата F статистика ще е отношението на междугруповата дисперсия –
00:04:31.933 --> 00:04:37.080
сбора от квадратите между групите,
00:04:37.080 --> 00:04:41.733
разделен на степените на свобода между групите,
00:04:41.733 --> 00:04:46.333
и това понякога бива наричано средни квадрати – средна стойност на квадратите между групите (MSB) –
00:04:46.340 --> 00:04:52.280
и това, разделено на вътрешногруповата дсперсия...
00:04:52.280 --> 00:04:56.540
Това направих тук – разделих вътрешногруповата вариация,
00:04:56.580 --> 00:05:01.060
сбора от квадратите в групите, SSW, което е в синьо,
00:05:01.060 --> 00:05:08.740
на степените на свобода между групите и това беше m (n-1).
00:05:08.740 --> 00:05:12.100
Нека сега помислим колко прави това тук.
00:05:12.100 --> 00:05:18.333
Ако това число – числителят, е много по-голям от знаменателя,
00:05:18.333 --> 00:05:27.333
тогава това ни казва, че вариацията в тези данни е предимно поради
00:05:27.333 --> 00:05:31.600
разликите между реалните средни стойности
00:05:31.600 --> 00:05:35.933
и по-малко поради вариацията на средните в групите.
00:05:35.933 --> 00:05:40.867
Това е, ако този числител е много по-голям от този знаменател.
00:05:40.867 --> 00:05:45.100
Това трябва да ни накара да повярваме, че има разлика
00:05:45.120 --> 00:05:46.740
в реалната средна стойност на генералната съвкупност.
00:05:46.740 --> 00:05:48.733
Ако това число е много голямо,
00:05:48.733 --> 00:05:51.333
това трябва да ни каже, че има по-малка вероятност
00:05:51.333 --> 00:05:53.600
нулевата ни хипотеза да е вярна.
00:05:53.600 --> 00:05:58.533
Ако това число е много малко и знаменателят ни е по-голям,
00:05:58.533 --> 00:06:02.067
това означава, че вариацията ВЪВ всяка извадка
00:06:02.067 --> 00:06:04.200
е по-голяма част от общата вариация, отколкото
00:06:04.200 --> 00:06:05.560
вариацията МЕЖДУ извадките.
00:06:05.560 --> 00:06:08.880
Това означава, че вариацията ни ВЪВ всяка от тези извадки
00:06:08.880 --> 00:06:15.200
е по-голям процент от общата вариация, спрямо вариацията МЕЖДУ извадките.
00:06:15.200 --> 00:06:17.800
Това ще ни накара да повярваме, че...всяка разлика,
00:06:17.800 --> 00:06:21.000
която видим между средните стойности, вероятно е просто случайна.
00:06:21.000 --> 00:06:24.400
Това ще затрудни отхвърлянето на нулевата хипотеза.
00:06:24.400 --> 00:06:26.867
Нека да изчислим.
00:06:26.867 --> 00:06:34.200
В този случай междугруповата вариация (SSB), която изчислихме тук, беше 24
00:06:34.200 --> 00:06:37.933
и имахме 2 степени на свобода.
00:06:37.940 --> 00:06:49.520
Вътрешногруповата ни вариация (SSW) беше 6 и колко степени на свобода имахме?
00:06:49.520 --> 00:06:52.660
Също 6. 6 степени на свобода.
00:06:52.667 --> 00:06:58.600
Това ще е 24/2, което е 12, делено на 1.
00:06:58.600 --> 00:07:05.540
F статистиката, която пресметнахме, е равна на 12.
00:07:05.540 --> 00:07:10.860
F идва от "Fischer" (Фишер) – биолог и статистик, който е измислил това.
00:07:10.860 --> 00:07:15.020
Нашата F статистика е 12.
00:07:15.020 --> 00:07:17.460
Ще видим, че това е доста високо число.
00:07:17.460 --> 00:07:20.020
Едно от нещата, които забравих да спомена, е, че при всяка проверка на хипотези
00:07:20.020 --> 00:07:22.260
ще ни трябва някакво ниво на значимост.
00:07:22.267 --> 00:07:24.733
Нека кажем, че нивото на значимост, което ни интересува
00:07:24.733 --> 00:07:28.333
за проверката на хипотезите, е 10%.
00:07:28.340 --> 00:07:31.400
0,10 – което означава,
00:07:31.400 --> 00:07:35.080
че ако приемем нулевата хипотеза,
00:07:35.080 --> 00:07:39.920
ще има по-малко от 10% вероятност да получим резултата, който получихме –
00:07:39.920 --> 00:07:41.660
да получим тази F статистика и тогава
00:07:41.660 --> 00:07:44.640
ще трябва да отхвърлим нулевата хипотеза.
00:07:44.640 --> 00:07:48.360
Искаме да намерим критичната стойност на F статистиката,
00:07:48.360 --> 00:07:53.520
при която получаването на такава стойност или по-висока от нея, е 10%.
00:07:53.520 --> 00:07:57.133
И ако получената F статистика е по-голяма от критичната стойност
00:07:57.133 --> 00:07:59.533
тогава ще отхвърлим нулевата хипотеза,
00:07:59.533 --> 00:08:01.400
а ако е по-малка, не можем да отхвърлим нулевата хипотеза.
00:08:01.400 --> 00:08:06.267
Няма да навлизам в много детайли за F статистиката,
00:08:06.267 --> 00:08:08.980
но вече можем да видим, че всеки от тези сборове на квадратите
00:08:08.980 --> 00:08:10.520
има разпределение хи-квадрат
00:08:10.520 --> 00:08:12.533
"Това" има едно разпределение хи-квадрат,
00:08:12.533 --> 00:08:15.200
а "това" има друго разпределение хи-квадрат.
00:08:15.200 --> 00:08:17.533
Това има разпределение хи-квадрат с 2 степени на свобода,
00:08:17.533 --> 00:08:21.333
а това е разпределение хи-квадрат с – и не сме го нормализирали –
00:08:21.333 --> 00:08:24.067
но приблизително разпределение хи-квадрат с 6 степени на свобода.
00:08:24.067 --> 00:08:29.800
F разпределението е отношението на две разпределения Хи-квадрат
00:08:29.800 --> 00:08:34.933
и получих това – това е скрийншот от курса на един професор в UCLA,
00:08:34.933 --> 00:08:38.533
надявам се, че нямат нищо против, трябваше да намеря F таблица, която да погледнем.
00:08:38.533 --> 00:08:41.800
Така изглежда едно F разпределение.
00:08:41.800 --> 00:08:44.160
Очевидно ще изглежда различно, в зависимост от
00:08:44.160 --> 00:08:46.600
степените на свобода на числителя и знаменателя.
00:08:46.600 --> 00:08:49.200
Има две степени на свобода, за които да помислим –
00:08:49.200 --> 00:08:52.533
степените на свобода на числителя и степените на свобода на знаменателя.
00:08:52.533 --> 00:08:56.933
Като уточнихме това, нека пресметнем критичната F стойност
00:08:56.933 --> 00:09:02.867
за алфа равно на 0,10
00:09:02.867 --> 00:09:06.533
и ще видиш различни F таблици за всяка различна алфа,
00:09:06.533 --> 00:09:11.933
при което степените на свобода за числителя са 2, а степените на свобода за знаменателя са 6.
00:09:11.933 --> 00:09:17.400
Тази цялата таблица е за алфа от 10%
00:09:17.400 --> 00:09:25.160
или 0,10 и степените на свобода за числителя ни бяха 2, а степените на свобода за знаменателя ни са 6.
00:09:25.160 --> 00:09:30.133
Така че критичната ни F стойност е 3,46.
00:09:30.140 --> 00:09:39.780
Критичната F стойност е 3,46 – тази стойност ето тук е 3,46.
00:09:39.780 --> 00:09:43.533
Стойността, която получихме от тези данни, е много по-голяма от това.
00:09:43.540 --> 00:09:46.120
Това ще има много, много малка "р" стойност.
00:09:46.120 --> 00:09:48.320
Вероятността случайно да получим нещо толкова екстремно,
00:09:48.320 --> 00:09:51.420
като приемаме нулевата хипотеза, е много ниска.
00:09:51.420 --> 00:09:54.660
Това е много по-голямо от критичната ни F статистика
00:09:54.660 --> 00:09:56.780
с ниво на значимост от 10%.
00:09:56.780 --> 00:10:01.520
Поради това можем да отхвърлим нулевата хипотеза.
00:10:01.520 --> 00:10:04.400
Което ни кара да повярваме, че вероятно
00:10:04.400 --> 00:10:06.600
има разлика в средните стойности на генералната съвкупност.
00:10:06.600 --> 00:10:09.600
Което ни казва, че има вероятност да има разлики в представянето
00:10:09.600 --> 00:10:13.467
на един изпит, ако им дадем различни храни.