WEBVTT 00:00:00.000 --> 00:00:06.260 В последните две видеа първо пресметнахме общата вариация на тези 9 данни тук 00:00:06.260 --> 00:00:09.960 и получихме 30, което е общият сбор на квадратите. 00:00:09.960 --> 00:00:15.500 После се запитахме колко от тази вариация се дължи на вариация, породена 00:00:15.500 --> 00:00:19.533 ВЪВ всяка от групите, и колко е поради вариация МЕЖДУ самите групи. 00:00:19.533 --> 00:00:24.933 За вътрешногруповата вариацията изчислихме сбора на квадратите в групите (SSW) . 00:00:24.933 --> 00:00:26.933 Това е 6. 00:00:26.940 --> 00:00:32.080 После равенството с това 30, равенството с тази вариация 00:00:32.080 --> 00:00:36.333 дойде от междугруповата вариацията, която пресметнахме (SSB), 00:00:36.340 --> 00:00:39.480 като получихме 24. 00:00:39.480 --> 00:00:43.020 В това видео искам да използвам този вид информация – 00:00:43.020 --> 00:00:46.183 тези статистически оценки, които пресметнахме – 00:00:46.183 --> 00:00:49.140 за да направим някои дедуктивни статистически оценки, 00:00:49.140 --> 00:00:53.200 за да достигнем до определен извод или да не достигнем до никакви изводи. 00:00:53.200 --> 00:00:56.820 Искам да дам малко пояснения около тези групи. 00:00:56.820 --> 00:01:00.080 Досега се занимавахме с тях абстрактно, но можеш да си представиш, 00:01:00.080 --> 00:01:02.900 че това са резултатите на някакъв вид експеримент. 00:01:02.900 --> 00:01:11.860 Да кажем, че съм дал 3 различни вида хапчета или 3 различни вида храна на хора, които правят тест. 00:01:11.867 --> 00:01:13.933 И това са резултатите от теста. 00:01:13.940 --> 00:01:22.000 Това е храна 1, храна 2, 00:01:22.000 --> 00:01:26.460 а това тук е храна 3. 00:01:26.460 --> 00:01:31.040 Искам да открия дали видът храна, който хората ядат, преди да направят теста, 00:01:31.040 --> 00:01:33.400 има влияние върху резултатите им. 00:01:33.400 --> 00:01:38.567 Ако погледнеш тези стойности, изглежда хората в група 3 се представят по-добре, 00:01:38.567 --> 00:01:40.267 отколкото в група 2 или 1. 00:01:40.267 --> 00:01:44.733 Но дали тази разлика е напълно случайна? Случайна ли е вероятността? 00:01:44.740 --> 00:01:50.520 Мога ли да бъда достатъчно уверен, че това е поради реалните разлики 00:01:50.520 --> 00:01:53.660 в средните стойности на генералната съвкупност – на всички хора, 00:01:53.660 --> 00:01:56.860 които някога ще ядат храна 3, храна 2 или храна 1? 00:01:56.860 --> 00:01:58.860 Въпросът ми е: 00:01:58.867 --> 00:02:03.733 "Еднакви ли са средните стойностите и реалните средни стойности на генералната съвкупност?" 00:02:03.740 --> 00:02:06.580 Това е средна стойност на извадката, базирана на 3 извадки. 00:02:06.580 --> 00:02:10.333 Но ако знаех реалните средни стойности на генералната съвкупност... 00:02:10.340 --> 00:02:14.760 Въпросът ми е: "Средната стойност на генералната съвкупност на хората, които ядат храна 1, 00:02:14.760 --> 00:02:17.680 еднаква ли е със средната стойност за храна 2?" 00:02:17.680 --> 00:02:20.940 Очевидно никога няма да мога да дам тази храна на всяко човешко същество, 00:02:21.000 --> 00:02:24.520 което ще живее някога, и да накарам всички тях да направят тест. 00:02:24.540 --> 00:02:29.400 Но тук има реална средна стойност, просто тя не може да бъде измерена. 00:02:29.400 --> 00:02:33.300 Въпросът ми е "това" (мю1) равно ли е на "това" (мю2) равно ли е на средната стойност на 3 (мю3) – 00:02:33.300 --> 00:02:35.560 реалната средна стойност на генералната съвкупност 3. 00:02:35.560 --> 00:02:38.820 Въпросът ми е: "Равни ли са тези?" 00:02:38.820 --> 00:02:43.760 Понеже, ако не са равни, това означава, че видът храна, която сме дали, 00:02:43.760 --> 00:02:50.060 има някакъв вид въздействие върху представянето на хората на теста. 00:02:50.060 --> 00:02:52.400 Нека направим малка проверка на хипотеза. 00:02:52.400 --> 00:02:55.000 Да кажем, че нулевата ми хипотеза е, 00:02:55.000 --> 00:02:59.360 че средните стойности са еднакви. 00:02:59.360 --> 00:03:07.880 "Храната няма значение." 00:03:07.880 --> 00:03:16.880 Алтернативната ми хипотеза е, че храната има значение. "Има значение." 00:03:16.880 --> 00:03:19.000 Начинът да мислим количествено за това е, 00:03:19.000 --> 00:03:21.100 че ако няма значение, тогава средните стойности на 00:03:21.100 --> 00:03:24.000 реалните генерални съвкупности на групите ще бъдат еднакви. 00:03:24.000 --> 00:03:27.520 Реалната средна стойност на генералната съвкупност на групата, която е яла храна 1, 00:03:27.520 --> 00:03:30.440 ще е същата като на групата, която е яла храна 2, 00:03:30.440 --> 00:03:35.180 което ще е същото като групата, която е яла храна 3. 00:03:35.200 --> 00:03:40.280 Ако алтернативната ни хипотеза е вярна, тогава тези средни стойности няма да са еднакви. 00:03:40.280 --> 00:03:42.720 Как можем да проверим тази хипотеза? 00:03:42.720 --> 00:03:47.080 Ще започнем с нулевата хипотеза, което е това, 00:03:47.080 --> 00:03:49.800 което правим винаги, когато проверяваме хипотези – 00:03:49.800 --> 00:03:52.600 започваме с нулевата хипотеза. 00:03:52.600 --> 00:03:56.120 После ще открием каква е вероятността 00:03:56.120 --> 00:03:59.260 да получим определена статистика, чиято стойност да е критична. 00:03:59.267 --> 00:04:01.200 Не съм дефинирал каква ще е тази статистика. 00:04:01.200 --> 00:04:04.940 Ще започнем с нулевата хипотеза, 00:04:04.940 --> 00:04:08.660 а после ще намерим статистиката, наречена F статистика. 00:04:08.667 --> 00:04:11.933 Нашата F статистика, 00:04:11.940 --> 00:04:16.380 която има F разпределение – и няма да се задълбочаваме в детайлите 00:04:16.380 --> 00:04:19.060 на F разпределението, но винаги можеш да започнеш да мислиш за него 00:04:19.060 --> 00:04:21.140 като отношението на две разпределения хи-квадрат, 00:04:21.140 --> 00:04:23.800 които може да имат или да нямат различни степени на свобода. 00:04:23.800 --> 00:04:31.933 Нашата F статистика ще е отношението на междугруповата дисперсия – 00:04:31.933 --> 00:04:37.080 сбора от квадратите между групите, 00:04:37.080 --> 00:04:41.733 разделен на степените на свобода между групите, 00:04:41.733 --> 00:04:46.333 и това понякога бива наричано средни квадрати – средна стойност на квадратите между групите (MSB) – 00:04:46.340 --> 00:04:52.280 и това, разделено на вътрешногруповата дсперсия... 00:04:52.280 --> 00:04:56.540 Това направих тук – разделих вътрешногруповата вариация, 00:04:56.580 --> 00:05:01.060 сбора от квадратите в групите, SSW, което е в синьо, 00:05:01.060 --> 00:05:08.740 на степените на свобода между групите и това беше m (n-1). 00:05:08.740 --> 00:05:12.100 Нека сега помислим колко прави това тук. 00:05:12.100 --> 00:05:18.333 Ако това число – числителят, е много по-голям от знаменателя, 00:05:18.333 --> 00:05:27.333 тогава това ни казва, че вариацията в тези данни е предимно поради 00:05:27.333 --> 00:05:31.600 разликите между реалните средни стойности 00:05:31.600 --> 00:05:35.933 и по-малко поради вариацията на средните в групите. 00:05:35.933 --> 00:05:40.867 Това е, ако този числител е много по-голям от този знаменател. 00:05:40.867 --> 00:05:45.100 Това трябва да ни накара да повярваме, че има разлика 00:05:45.120 --> 00:05:46.740 в реалната средна стойност на генералната съвкупност. 00:05:46.740 --> 00:05:48.733 Ако това число е много голямо, 00:05:48.733 --> 00:05:51.333 това трябва да ни каже, че има по-малка вероятност 00:05:51.333 --> 00:05:53.600 нулевата ни хипотеза да е вярна. 00:05:53.600 --> 00:05:58.533 Ако това число е много малко и знаменателят ни е по-голям, 00:05:58.533 --> 00:06:02.067 това означава, че вариацията ВЪВ всяка извадка 00:06:02.067 --> 00:06:04.200 е по-голяма част от общата вариация, отколкото 00:06:04.200 --> 00:06:05.560 вариацията МЕЖДУ извадките. 00:06:05.560 --> 00:06:08.880 Това означава, че вариацията ни ВЪВ всяка от тези извадки 00:06:08.880 --> 00:06:15.200 е по-голям процент от общата вариация, спрямо вариацията МЕЖДУ извадките. 00:06:15.200 --> 00:06:17.800 Това ще ни накара да повярваме, че...всяка разлика, 00:06:17.800 --> 00:06:21.000 която видим между средните стойности, вероятно е просто случайна. 00:06:21.000 --> 00:06:24.400 Това ще затрудни отхвърлянето на нулевата хипотеза. 00:06:24.400 --> 00:06:26.867 Нека да изчислим. 00:06:26.867 --> 00:06:34.200 В този случай междугруповата вариация (SSB), която изчислихме тук, беше 24 00:06:34.200 --> 00:06:37.933 и имахме 2 степени на свобода. 00:06:37.940 --> 00:06:49.520 Вътрешногруповата ни вариация (SSW) беше 6 и колко степени на свобода имахме? 00:06:49.520 --> 00:06:52.660 Също 6. 6 степени на свобода. 00:06:52.667 --> 00:06:58.600 Това ще е 24/2, което е 12, делено на 1. 00:06:58.600 --> 00:07:05.540 F статистиката, която пресметнахме, е равна на 12. 00:07:05.540 --> 00:07:10.860 F идва от "Fischer" (Фишер) – биолог и статистик, който е измислил това. 00:07:10.860 --> 00:07:15.020 Нашата F статистика е 12. 00:07:15.020 --> 00:07:17.460 Ще видим, че това е доста високо число. 00:07:17.460 --> 00:07:20.020 Едно от нещата, които забравих да спомена, е, че при всяка проверка на хипотези 00:07:20.020 --> 00:07:22.260 ще ни трябва някакво ниво на значимост. 00:07:22.267 --> 00:07:24.733 Нека кажем, че нивото на значимост, което ни интересува 00:07:24.733 --> 00:07:28.333 за проверката на хипотезите, е 10%. 00:07:28.340 --> 00:07:31.400 0,10 – което означава, 00:07:31.400 --> 00:07:35.080 че ако приемем нулевата хипотеза, 00:07:35.080 --> 00:07:39.920 ще има по-малко от 10% вероятност да получим резултата, който получихме – 00:07:39.920 --> 00:07:41.660 да получим тази F статистика и тогава 00:07:41.660 --> 00:07:44.640 ще трябва да отхвърлим нулевата хипотеза. 00:07:44.640 --> 00:07:48.360 Искаме да намерим критичната стойност на F статистиката, 00:07:48.360 --> 00:07:53.520 при която получаването на такава стойност или по-висока от нея, е 10%. 00:07:53.520 --> 00:07:57.133 И ако получената F статистика е по-голяма от критичната стойност 00:07:57.133 --> 00:07:59.533 тогава ще отхвърлим нулевата хипотеза, 00:07:59.533 --> 00:08:01.400 а ако е по-малка, не можем да отхвърлим нулевата хипотеза. 00:08:01.400 --> 00:08:06.267 Няма да навлизам в много детайли за F статистиката, 00:08:06.267 --> 00:08:08.980 но вече можем да видим, че всеки от тези сборове на квадратите 00:08:08.980 --> 00:08:10.520 има разпределение хи-квадрат 00:08:10.520 --> 00:08:12.533 "Това" има едно разпределение хи-квадрат, 00:08:12.533 --> 00:08:15.200 а "това" има друго разпределение хи-квадрат. 00:08:15.200 --> 00:08:17.533 Това има разпределение хи-квадрат с 2 степени на свобода, 00:08:17.533 --> 00:08:21.333 а това е разпределение хи-квадрат с – и не сме го нормализирали – 00:08:21.333 --> 00:08:24.067 но приблизително разпределение хи-квадрат с 6 степени на свобода. 00:08:24.067 --> 00:08:29.800 F разпределението е отношението на две разпределения Хи-квадрат 00:08:29.800 --> 00:08:34.933 и получих това – това е скрийншот от курса на един професор в UCLA, 00:08:34.933 --> 00:08:38.533 надявам се, че нямат нищо против, трябваше да намеря F таблица, която да погледнем. 00:08:38.533 --> 00:08:41.800 Така изглежда едно F разпределение. 00:08:41.800 --> 00:08:44.160 Очевидно ще изглежда различно, в зависимост от 00:08:44.160 --> 00:08:46.600 степените на свобода на числителя и знаменателя. 00:08:46.600 --> 00:08:49.200 Има две степени на свобода, за които да помислим – 00:08:49.200 --> 00:08:52.533 степените на свобода на числителя и степените на свобода на знаменателя. 00:08:52.533 --> 00:08:56.933 Като уточнихме това, нека пресметнем критичната F стойност 00:08:56.933 --> 00:09:02.867 за алфа равно на 0,10 00:09:02.867 --> 00:09:06.533 и ще видиш различни F таблици за всяка различна алфа, 00:09:06.533 --> 00:09:11.933 при което степените на свобода за числителя са 2, а степените на свобода за знаменателя са 6. 00:09:11.933 --> 00:09:17.400 Тази цялата таблица е за алфа от 10% 00:09:17.400 --> 00:09:25.160 или 0,10 и степените на свобода за числителя ни бяха 2, а степените на свобода за знаменателя ни са 6. 00:09:25.160 --> 00:09:30.133 Така че критичната ни F стойност е 3,46. 00:09:30.140 --> 00:09:39.780 Критичната F стойност е 3,46 – тази стойност ето тук е 3,46. 00:09:39.780 --> 00:09:43.533 Стойността, която получихме от тези данни, е много по-голяма от това. 00:09:43.540 --> 00:09:46.120 Това ще има много, много малка "р" стойност. 00:09:46.120 --> 00:09:48.320 Вероятността случайно да получим нещо толкова екстремно, 00:09:48.320 --> 00:09:51.420 като приемаме нулевата хипотеза, е много ниска. 00:09:51.420 --> 00:09:54.660 Това е много по-голямо от критичната ни F статистика 00:09:54.660 --> 00:09:56.780 с ниво на значимост от 10%. 00:09:56.780 --> 00:10:01.520 Поради това можем да отхвърлим нулевата хипотеза. 00:10:01.520 --> 00:10:04.400 Което ни кара да повярваме, че вероятно 00:10:04.400 --> 00:10:06.600 има разлика в средните стойности на генералната съвкупност. 00:10:06.600 --> 00:10:09.600 Което ни казва, че има вероятност да има разлики в представянето 00:10:09.600 --> 00:10:13.467 на един изпит, ако им дадем различни храни.