Критерий на Пирсън (проверка на хипотезите)
-
0:01 - 0:03Мисля да купя ресторант,
-
0:03 - 0:04така че отивам и питам настоящия собственик
-
0:04 - 0:07какво е разпределението на броя клиенти,
-
0:07 - 0:08които има всеки ден.
-
0:08 - 0:10И той казва, че вече е открил това.
-
0:10 - 0:12Дава ми това разпределение ето тук, което казва,
-
0:12 - 0:18че 10% от клиентите му идват в понеделник, 10% във вторник, 15% в сряда и така нататък.
-
0:18 - 0:20В неделя е затворено.
-
0:20 - 0:22Това са 100% от клиентите за една седмица.
-
0:22 - 0:23Ако събереш това, ще получиш 100%.
-
0:23 - 0:25Очевидно съм малко подозрителен,
-
0:25 - 0:30така че решавам да видя колко добре това разпределение, което
-
0:30 - 0:32той описва, съвпада с наблюдаваните данни.
-
0:32 - 0:35Наблюдавам броя клиенти, които идват
-
0:35 - 0:37през седмицата и получавам
-
0:37 - 0:39това от моето наблюдение.
-
0:39 - 0:43За да открия дали да приема, или да отхвърля
-
0:43 - 0:44неговата хипотеза, аз ще
-
0:44 - 0:47направя една проверка на хипотезите.
-
0:47 - 0:58Ще формулирам нулевата хипотеза,
че разпределението на собственика - -
0:58 - 1:02това нещо тук – е вярно.
-
1:03 - 1:07После алтернативната хипотеза
-
1:07 - 1:10ще е, че това не е вярно,
-
1:10 - 1:12това не е правилното разпределение,
-
1:12 - 1:15че не виждам логика да разчитам на това.
-
1:15 - 1:17Това не е вярно – трябва да отхвърля
-
1:17 - 1:19разпределението на собственика.
-
1:19 - 1:27Искам да направя това с ниво на значимост от 5%.
-
1:27 - 1:28Друг начин да си го представим:
-
1:28 - 1:32ще пресметна една статистика
на база тези данни, ето тук. -
1:32 - 1:35Това ще е статистика "ХИ-квадрат".
-
1:35 - 1:37Друг начин да си го представим е, че тази статистика,
-
1:37 - 1:40която ще пресметна, има приблизително
-
1:40 - 1:42разпределение ХИ-квадрат.
-
1:42 - 1:44При положение, че има разпределение ХИ-квадрат
-
1:44 - 1:46с определен брой степени на свобода
-
1:46 - 1:49и можем да я пресметнем, искам да видя
-
1:49 - 1:52каква е вероятността да получа такъв резултат,
-
1:52 - 1:55да получа подобен резултат или резултат, който е
-
1:55 - 1:57с по-ниско ниво на значимост.
-
1:57 - 2:00Ако вероятността да получа резултат като този или
-
2:00 - 2:03нещо по-малко вероятно от това, е по-малка от 5%,
-
2:03 - 2:07тогава ще отхвърля нулевата хипотеза, което означава,
-
2:07 - 2:11че отхвърлям разпределението на собственика.
-
2:11 - 2:14Ако не получа това, ако кажа,
-
2:14 - 2:17че вероятността да получа статистика ХИ-квадрат, която
-
2:17 - 2:22е толкова или по-голяма, е по-голяма от алфа,
-
2:22 - 2:25от нивото ми на значимост, тогава няма да я отхвърля.
-
2:25 - 2:26Ще си кажа, че нямам причина
-
2:26 - 2:28да приема, че той лъже.
-
2:28 - 2:30Нека направим това.
-
2:30 - 2:33За да пресметна ХИ-квадрат, ще...
-
2:33 - 2:40тук приемаме, че разпределението на собственика е вярно.
-
2:41 - 2:43Приемам, че разпределението на собственика
-
2:43 - 2:48е вярно, тогава какво ще е очакваната стойност на наблюденията?
-
2:48 - 2:50Тук имаме стойноста процентите по дни,
-
2:50 - 2:52но каква би била очакваната стойност на разпределението на наблюдеията?
-
2:52 - 2:53Нека запиша това тук.
-
2:53 - 2:54Очаквано.
-
2:54 - 2:57Ще добавя още един ред, Очаквано.
-
2:57 - 3:00За общия брой клиенти, които идват през тази седмица,
-
3:00 - 3:01ще очакваме 10% от тях да дойдат в понеделник,
-
3:01 - 3:0310% от общия брой клиенти тази седмица
-
3:03 - 3:06ще дойдат във вторник, 15% ще дойдат в сряда.
-
3:06 - 3:08За да открием какво е истинското число,
-
3:08 - 3:11трябва да намерим общия брой клиенти.
-
3:11 - 3:14Нека съберем тези числа.
-
3:14 - 3:18Ще извадя калкулатора си.
-
3:18 - 3:27Имаме 30 плюс 14, плюс 34, плюс 45, плюс 57, плюс 20.
-
3:27 - 3:28Тук имаме общо 200 клиенти, които
-
3:28 - 3:31са дошли в ресторанта тази седмица.
-
3:31 - 3:32Нека запиша това.
-
3:32 - 3:38Това е равно на – записах общия брой тук.
-
3:38 - 3:39Игнорирай ето това.
-
3:39 - 3:41Тази седмица има 200 клиенти.
-
3:41 - 3:44Какъв е очакваният брой в понеделник?
-
3:44 - 3:47В понеделник бихме очаквали 10% от 200-те
-
3:47 - 3:47клиенти да дойдат.
-
3:47 - 3:51Това ще е 20 клиенти, 10% по 200.
-
3:51 - 3:53Във вторник – още 10%.
-
3:53 - 3:55Тоест, щяхме да очакваме 20 клиенти.
-
3:55 - 3:59Сряда, 15% от 200, това е 30 клиенти.
-
3:59 - 4:03В четвъртък бихме очаквали 20% от 200 клиенти,
-
4:03 - 4:05така че това ще е 40 клиенти.
-
4:05 - 4:09В петък, 30% би било 60 клиенти.
-
4:09 - 4:11А в събота отново 15%.
-
4:11 - 4:1415% от 200 би било 30 клиенти.
-
4:14 - 4:16Ако това разпределение е правилно,
-
4:16 - 4:21това е реалният брой, който бих очаквал.
-
4:21 - 4:24За да пресметнем ХИ-квадрат,
-
4:24 - 4:27взимаме – нека ти покажа,
-
4:27 - 4:29вместо да пиша "ХИ", ще
-
4:29 - 4:30пиша главно Х на квадрат.
-
4:30 - 4:33Понякога някои хора могат да пишат гръцката буква "хи".
-
4:33 - 4:36Но ще запиша "Х на квадрат".
-
4:36 - 4:37Нека го напиша така.
-
4:37 - 4:45Това е нашият ХИ-квадрат,
-
4:45 - 4:48но ще го запиша с главно Х, вместо с "хи",
-
4:48 - 4:50понеже това ще има приблизително
-
4:50 - 4:52разпределение ХИ-квадрат.
-
4:52 - 4:54Не мога да приема, че това е точно,
-
4:54 - 4:56така че тук се занимаваме с приблизителни изчисления.
-
4:56 - 4:59Но е доста лесно да го изчислим.
-
4:59 - 5:01За всеки от тези дни взимаме разликата
-
5:01 - 5:03между наблюдаваните и очакваните проценти.
-
5:03 - 5:08Това ще е 30 минус 20...
-
5:08 - 5:12ще направя първото с различен цвят – на квадрат,
-
5:12 - 5:14делено на очакваната стойност.
-
5:14 - 5:16Взимаме квадрата
-
5:16 - 5:19и можеш да намериш грешката между това, което
-
5:19 - 5:22наблюдавахме и очаквахме, или разликата между това,
-
5:22 - 5:24което наблюдавахме и очаквахме, и го нормализираме,
-
5:24 - 5:26чрез очакваната стойност тук.
-
5:26 - 5:28Но искаме да вземем сбора на всички тези числа.
-
5:28 - 5:31Ще направя всички тях в жълто.
-
5:31 - 5:45Плюс (14 минус 20) на квадрат върху 20, плюс (34 минус 30) на квадрат
-
5:45 - 5:54върху 30 – ще продължа ето тук – плюс (45 минус 40) на квадрат
-
5:54 - 6:05върху 40, плюс (57 минус 60) на квадрат върху 60,
-
6:05 - 6:13а после, най-накрая, плюс (20 минус 30) на квадрат върху 30.
-
6:13 - 6:15Просто взех наблюдаваната стойност минус очакваната,
-
6:15 - 6:16на квадрат, върху очакваната.
-
6:16 - 6:18Взех сбора на това и
-
6:18 - 6:20той ни дава ХИ-квадрат.
-
6:20 - 6:24Нека пресметнем на колко ще е равно това число.
-
6:24 - 6:27Това ще е равно на – ще го направя тук,
-
6:27 - 6:28за да не свърши мястото.
-
6:28 - 6:30Ще го направим в нов цвят.
-
6:30 - 6:31Ще го направим в оранжево.
-
6:31 - 6:34Това ще е равно на...30 минус 20
-
6:34 - 6:41е 10, на квадрат, което е 100, делено на 20, което е 5.
-
6:41 - 6:43Може да не успея да направя всички наум.
-
6:43 - 6:45Плюс, нека го запиша така,
-
6:45 - 6:48за да виждаш какво правя.
-
6:48 - 6:53Това тук е 100 върху 20 плюс – 14 минус 20
-
6:53 - 6:56е 6 - на квадрат е +36.
-
6:56 - 7:00Тоест, плюс 36 върху 20.
-
7:00 - 7:04Плюс, 34 минус 30 е 4, на квадрат е 16.
-
7:04 - 7:07Тоест, плюс 16 върху 30.
-
7:07 - 7:1145 минус 40 е 5, на квадрат е 25.
-
7:11 - 7:15Тоест, плюс 25 върху 40.
-
7:15 - 7:18Разликата тук е 3, на квадрат е 9,
-
7:18 - 7:20тоест, това е 9 върху 60.
-
7:20 - 7:27Тук имаме разлика от 10, на квадрат е 100, тоест плюс 100 върху 30.
-
7:27 - 7:30Това е равно на – ще извадя калкулатора си –
-
7:30 - 7:36имаме 100 делено на 20
-
7:36 - 7:42плюс 36 делено на 20,
-
7:42 - 7:49плюс 16 делено на 30, плюс 25 делено на 40,
-
7:49 - 8:02плюс 9 делено на 60, плюс 100 делено на 30, което ни дава 11,44.
-
8:02 - 8:03Нека запиша това.
-
8:03 - 8:10Това тук ще е 11,44.
-
8:10 - 8:12Това е моят ХИ-квадрат или
-
8:12 - 8:14можем да го наречем голямо главно Х на квадрат.
-
8:14 - 8:17Понякога ще е записано като "ХИ-квадрат",
-
8:17 - 8:20но тази статистика ще има приблизително
-
8:20 - 8:22разпределение ХИ-квадрат.
-
8:22 - 8:24Като казахме това, нека намерим,
-
8:24 - 8:28ако приемем, че това има приблизително разпределение ХИ-квадрат,
-
8:28 - 8:33каква е вероятността да получим толкова краен резултат или поне
-
8:33 - 8:36по-малко краен, предполагам това е друг начин да си го представим.
-
8:36 - 8:40Друг начин да го кажем е: "Това по-краен резултат ли е
-
8:40 - 8:42от критичната стойност на ХИ-квадрат,
-
8:42 - 8:45че има 5% шанс да получим толкова краен резултат?"
-
8:45 - 8:46Нека го направим по този начин.
-
8:46 - 8:49Нека намерим критичната стойност на ХИ-квадрат.
-
8:49 - 8:50Ако това (изчисленото ХИ-квадрат) е по-голямо от това (критичната стойност),
-
8:50 - 8:53тогава ще отхвърлим нулевата си хипотеза.
-
8:53 - 8:57Нека намерим критичните стойности на ХИ-квадрат.
-
8:57 - 8:58Имаме алфа от 5%.
-
8:58 - 9:00Другото нещо, което трябва да открием,
-
9:00 - 9:03са степените на свобода.
-
9:03 - 9:07Степените на свобода, взимаме едно, две, три, четири,
-
9:07 - 9:09пет, шест сбора, така че може да ти се иска
-
9:09 - 9:11да кажеш, че степените на свобода са шест.
-
9:11 - 9:13Но нещо, което трябва да осъзнаеш, е, че ако
-
9:13 - 9:15имаш всички тези данни тук,
-
9:15 - 9:20можеш да откриеш тази последна част информация,
-
9:20 - 9:22така че всъщност имаш пет степени на свобода.
-
9:22 - 9:24Когато имаш n точки информация
-
9:24 - 9:27и измерваш наблюдаваната стойност срещу очакваната,
-
9:27 - 9:29степените ти на свобода ще са n минус 1,
-
9:29 - 9:31понеже можеш да откриеш n-тата точка информация, просто
-
9:31 - 9:33въз основа на всичко друго, което имаш,
-
9:33 - 9:35всичката останала информация.
-
9:35 - 9:37Степените ти на свобода тук ще са 5.
-
9:37 - 9:40Това е n минус 1.
-
9:40 - 9:43Нивото ни на значимост е 5%.
-
9:43 - 9:48Степените ни на свобода също ще са равни на 5.
-
9:48 - 9:51Нека погледнем нашето ХИ-квадратно разпределение.
-
9:51 - 9:56Имаме степен на свобода от 5.
-
9:56 - 9:59Имаме ниво на значимост от 5%.
-
9:59 - 10:04Тоест, критичната стойност на ХИ-квадрат тук е 11,07.
-
10:04 - 10:05Нека използваме тази диаграма.
-
10:05 - 10:07Имаме ХИ-квадратно разпределение
-
10:07 - 10:09със степен на свобода от 5.
-
10:09 - 10:12Това е разпределението тук в пурпурен цвят.
-
10:12 - 10:16Интересува ни критичната стойност от 11,07.
-
10:16 - 10:17Това ето тук.
-
10:17 - 10:19Всъщност на това не можеш да я видиш.
-
10:19 - 10:21Ако продължа да рисувам това нещо в пурпурния цвят
-
10:21 - 10:27навсякъде тук, ако пурпурната линия просто продължи,
-
10:27 - 10:29ще имаш 8.
-
10:29 - 10:30Тук ще имаш 10.
-
10:30 - 10:32Тук ще имаш 12.
-
10:32 - 10:3611,07 е, може би, някъде тук.
-
10:36 - 10:38Това ни казва, че вероятността
-
10:38 - 10:50да получим резултат, поне толкова екстремен като 11,07, е 5%.
-
10:50 - 10:52Можем да го запишем дори и тук.
-
10:52 - 10:58Критичната стойност на ХИ-квадрат е равна на – току-що видяхме – 11,07.
-
10:58 - 11:00Нека погледна диаграмата отново.
-
11:00 - 11:0711,07.
-
11:07 - 11:09Резултатът, който получихме за нашата статистика,
-
11:09 - 11:13е дори по-малко вероятен от това.
-
11:13 - 11:16Вероятността е по-малка от нивото ни на значимост.
-
11:16 - 11:19Така че ще отхвърлим това.
-
11:19 - 11:21Вероятността да получим –
-
11:21 - 11:27нека го кажа така – 11,44 е
-
11:27 - 11:31по-крайна от критичното ниво на ХИ-квадрата.
-
11:31 - 11:36Така че е много не вероятно това разпределение да е вярно.
-
11:36 - 11:42Така че ще отхвърлим това, което той ни казва.
-
11:42 - 11:44Ще отхвърлим това разпределение.
-
11:44 - 11:48Не пасва добре въз основа на това ниво на значимост.
- Title:
- Критерий на Пирсън (проверка на хипотезите)
- Description:
-
Критерий на Пирсън, наричан още критерий Хи-квадрат или критерий на съгласието, използван при проверка на хипотезите.
- Video Language:
- English
- Team:
Khan Academy
- Duration:
- 11:48
![]() |
Райна Павлова edited Bulgarian subtitles for Pearson's Chi Square Test (Goodness of Fit) | |
![]() |
Amara Bot edited Bulgarian subtitles for Pearson's Chi Square Test (Goodness of Fit) |