< Return to Video

Критерий на Пирсън (проверка на хипотезите)

  • 0:01 - 0:03
    Мисля да купя ресторант,
  • 0:03 - 0:04
    така че отивам и питам настоящия собственик
  • 0:04 - 0:07
    какво е разпределението на броя клиенти,
  • 0:07 - 0:08
    които има всеки ден.
  • 0:08 - 0:10
    И той казва, че вече е открил това.
  • 0:10 - 0:12
    Дава ми това разпределение ето тук, което казва,
  • 0:12 - 0:18
    че 10% от клиентите му идват в понеделник, 10% във вторник, 15% в сряда и така нататък.
  • 0:18 - 0:20
    В неделя е затворено.
  • 0:20 - 0:22
    Това са 100% от клиентите за една седмица.
  • 0:22 - 0:23
    Ако събереш това, ще получиш 100%.
  • 0:23 - 0:25
    Очевидно съм малко подозрителен,
  • 0:25 - 0:30
    така че решавам да видя колко добре това разпределение, което
  • 0:30 - 0:32
    той описва, съвпада с наблюдаваните данни.
  • 0:32 - 0:35
    Наблюдавам броя клиенти, които идват
  • 0:35 - 0:37
    през седмицата и получавам
  • 0:37 - 0:39
    това от моето наблюдение.
  • 0:39 - 0:43
    За да открия дали да приема, или да отхвърля
  • 0:43 - 0:44
    неговата хипотеза, аз ще
  • 0:44 - 0:47
    направя една проверка на хипотезите.
  • 0:47 - 0:58
    Ще формулирам нулевата хипотеза,
    че разпределението на собственика -
  • 0:58 - 1:02
    това нещо тук – е вярно.
  • 1:03 - 1:07
    После алтернативната хипотеза
  • 1:07 - 1:10
    ще е, че това не е вярно,
  • 1:10 - 1:12
    това не е правилното разпределение,
  • 1:12 - 1:15
    че не виждам логика да разчитам на това.
  • 1:15 - 1:17
    Това не е вярно – трябва да отхвърля
  • 1:17 - 1:19
    разпределението на собственика.
  • 1:19 - 1:27
    Искам да направя това с ниво на значимост от 5%.
  • 1:27 - 1:28
    Друг начин да си го представим:
  • 1:28 - 1:32
    ще пресметна една статистика
    на база тези данни, ето тук.
  • 1:32 - 1:35
    Това ще е статистика "ХИ-квадрат".
  • 1:35 - 1:37
    Друг начин да си го представим е, че тази статистика,
  • 1:37 - 1:40
    която ще пресметна, има приблизително
  • 1:40 - 1:42
    разпределение ХИ-квадрат.
  • 1:42 - 1:44
    При положение, че има разпределение ХИ-квадрат
  • 1:44 - 1:46
    с определен брой степени на свобода
  • 1:46 - 1:49
    и можем да я пресметнем, искам да видя
  • 1:49 - 1:52
    каква е вероятността да получа такъв резултат,
  • 1:52 - 1:55
    да получа подобен резултат или резултат, който е
  • 1:55 - 1:57
    с по-ниско ниво на значимост.
  • 1:57 - 2:00
    Ако вероятността да получа резултат като този или
  • 2:00 - 2:03
    нещо по-малко вероятно от това, е по-малка от 5%,
  • 2:03 - 2:07
    тогава ще отхвърля нулевата хипотеза, което означава,
  • 2:07 - 2:11
    че отхвърлям разпределението на собственика.
  • 2:11 - 2:14
    Ако не получа това, ако кажа,
  • 2:14 - 2:17
    че вероятността да получа статистика ХИ-квадрат, която
  • 2:17 - 2:22
    е толкова или по-голяма, е по-голяма от алфа,
  • 2:22 - 2:25
    от нивото ми на значимост, тогава няма да я отхвърля.
  • 2:25 - 2:26
    Ще си кажа, че нямам причина
  • 2:26 - 2:28
    да приема, че той лъже.
  • 2:28 - 2:30
    Нека направим това.
  • 2:30 - 2:33
    За да пресметна ХИ-квадрат, ще...
  • 2:33 - 2:40
    тук приемаме, че разпределението на собственика е вярно.
  • 2:41 - 2:43
    Приемам, че разпределението на собственика
  • 2:43 - 2:48
    е вярно, тогава какво ще е очакваната стойност на наблюденията?
  • 2:48 - 2:50
    Тук имаме стойноста процентите по дни,
  • 2:50 - 2:52
    но каква би била очакваната стойност на разпределението на наблюдеията?
  • 2:52 - 2:53
    Нека запиша това тук.
  • 2:53 - 2:54
    Очаквано.
  • 2:54 - 2:57
    Ще добавя още един ред, Очаквано.
  • 2:57 - 3:00
    За общия брой клиенти, които идват през тази седмица,
  • 3:00 - 3:01
    ще очакваме 10% от тях да дойдат в понеделник,
  • 3:01 - 3:03
    10% от общия брой клиенти тази седмица
  • 3:03 - 3:06
    ще дойдат във вторник, 15% ще дойдат в сряда.
  • 3:06 - 3:08
    За да открием какво е истинското число,
  • 3:08 - 3:11
    трябва да намерим общия брой клиенти.
  • 3:11 - 3:14
    Нека съберем тези числа.
  • 3:14 - 3:18
    Ще извадя калкулатора си.
  • 3:18 - 3:27
    Имаме 30 плюс 14, плюс 34, плюс 45, плюс 57, плюс 20.
  • 3:27 - 3:28
    Тук имаме общо 200 клиенти, които
  • 3:28 - 3:31
    са дошли в ресторанта тази седмица.
  • 3:31 - 3:32
    Нека запиша това.
  • 3:32 - 3:38
    Това е равно на – записах общия брой тук.
  • 3:38 - 3:39
    Игнорирай ето това.
  • 3:39 - 3:41
    Тази седмица има 200 клиенти.
  • 3:41 - 3:44
    Какъв е очакваният брой в понеделник?
  • 3:44 - 3:47
    В понеделник бихме очаквали 10% от 200-те
  • 3:47 - 3:47
    клиенти да дойдат.
  • 3:47 - 3:51
    Това ще е 20 клиенти, 10% по 200.
  • 3:51 - 3:53
    Във вторник – още 10%.
  • 3:53 - 3:55
    Тоест, щяхме да очакваме 20 клиенти.
  • 3:55 - 3:59
    Сряда, 15% от 200, това е 30 клиенти.
  • 3:59 - 4:03
    В четвъртък бихме очаквали 20% от 200 клиенти,
  • 4:03 - 4:05
    така че това ще е 40 клиенти.
  • 4:05 - 4:09
    В петък, 30% би било 60 клиенти.
  • 4:09 - 4:11
    А в събота отново 15%.
  • 4:11 - 4:14
    15% от 200 би било 30 клиенти.
  • 4:14 - 4:16
    Ако това разпределение е правилно,
  • 4:16 - 4:21
    това е реалният брой, който бих очаквал.
  • 4:21 - 4:24
    За да пресметнем ХИ-квадрат,
  • 4:24 - 4:27
    взимаме – нека ти покажа,
  • 4:27 - 4:29
    вместо да пиша "ХИ", ще
  • 4:29 - 4:30
    пиша главно Х на квадрат.
  • 4:30 - 4:33
    Понякога някои хора могат да пишат гръцката буква "хи".
  • 4:33 - 4:36
    Но ще запиша "Х на квадрат".
  • 4:36 - 4:37
    Нека го напиша така.
  • 4:37 - 4:45
    Това е нашият ХИ-квадрат,
  • 4:45 - 4:48
    но ще го запиша с главно Х, вместо с "хи",
  • 4:48 - 4:50
    понеже това ще има приблизително
  • 4:50 - 4:52
    разпределение ХИ-квадрат.
  • 4:52 - 4:54
    Не мога да приема, че това е точно,
  • 4:54 - 4:56
    така че тук се занимаваме с приблизителни изчисления.
  • 4:56 - 4:59
    Но е доста лесно да го изчислим.
  • 4:59 - 5:01
    За всеки от тези дни взимаме разликата
  • 5:01 - 5:03
    между наблюдаваните и очакваните проценти.
  • 5:03 - 5:08
    Това ще е 30 минус 20...
  • 5:08 - 5:12
    ще направя първото с различен цвят – на квадрат,
  • 5:12 - 5:14
    делено на очакваната стойност.
  • 5:14 - 5:16
    Взимаме квадрата
  • 5:16 - 5:19
    и можеш да намериш грешката между това, което
  • 5:19 - 5:22
    наблюдавахме и очаквахме, или разликата между това,
  • 5:22 - 5:24
    което наблюдавахме и очаквахме, и го нормализираме,
  • 5:24 - 5:26
    чрез очакваната стойност тук.
  • 5:26 - 5:28
    Но искаме да вземем сбора на всички тези числа.
  • 5:28 - 5:31
    Ще направя всички тях в жълто.
  • 5:31 - 5:45
    Плюс (14 минус 20) на квадрат върху 20, плюс (34 минус 30) на квадрат
  • 5:45 - 5:54
    върху 30 – ще продължа ето тук – плюс (45 минус 40) на квадрат
  • 5:54 - 6:05
    върху 40, плюс (57 минус 60) на квадрат върху 60,
  • 6:05 - 6:13
    а после, най-накрая, плюс (20 минус 30) на квадрат върху 30.
  • 6:13 - 6:15
    Просто взех наблюдаваната стойност минус очакваната,
  • 6:15 - 6:16
    на квадрат, върху очакваната.
  • 6:16 - 6:18
    Взех сбора на това и
  • 6:18 - 6:20
    той ни дава ХИ-квадрат.
  • 6:20 - 6:24
    Нека пресметнем на колко ще е равно това число.
  • 6:24 - 6:27
    Това ще е равно на – ще го направя тук,
  • 6:27 - 6:28
    за да не свърши мястото.
  • 6:28 - 6:30
    Ще го направим в нов цвят.
  • 6:30 - 6:31
    Ще го направим в оранжево.
  • 6:31 - 6:34
    Това ще е равно на...30 минус 20
  • 6:34 - 6:41
    е 10, на квадрат, което е 100, делено на 20, което е 5.
  • 6:41 - 6:43
    Може да не успея да направя всички наум.
  • 6:43 - 6:45
    Плюс, нека го запиша така,
  • 6:45 - 6:48
    за да виждаш какво правя.
  • 6:48 - 6:53
    Това тук е 100 върху 20 плюс – 14 минус 20
  • 6:53 - 6:56
    е 6 - на квадрат е +36.
  • 6:56 - 7:00
    Тоест, плюс 36 върху 20.
  • 7:00 - 7:04
    Плюс, 34 минус 30 е 4, на квадрат е 16.
  • 7:04 - 7:07
    Тоест, плюс 16 върху 30.
  • 7:07 - 7:11
    45 минус 40 е 5, на квадрат е 25.
  • 7:11 - 7:15
    Тоест, плюс 25 върху 40.
  • 7:15 - 7:18
    Разликата тук е 3, на квадрат е 9,
  • 7:18 - 7:20
    тоест, това е 9 върху 60.
  • 7:20 - 7:27
    Тук имаме разлика от 10, на квадрат е 100, тоест плюс 100 върху 30.
  • 7:27 - 7:30
    Това е равно на – ще извадя калкулатора си –
  • 7:30 - 7:36
    имаме 100 делено на 20
  • 7:36 - 7:42
    плюс 36 делено на 20,
  • 7:42 - 7:49
    плюс 16 делено на 30, плюс 25 делено на 40,
  • 7:49 - 8:02
    плюс 9 делено на 60, плюс 100 делено на 30, което ни дава 11,44.
  • 8:02 - 8:03
    Нека запиша това.
  • 8:03 - 8:10
    Това тук ще е 11,44.
  • 8:10 - 8:12
    Това е моят ХИ-квадрат или
  • 8:12 - 8:14
    можем да го наречем голямо главно Х на квадрат.
  • 8:14 - 8:17
    Понякога ще е записано като "ХИ-квадрат",
  • 8:17 - 8:20
    но тази статистика ще има приблизително
  • 8:20 - 8:22
    разпределение ХИ-квадрат.
  • 8:22 - 8:24
    Като казахме това, нека намерим,
  • 8:24 - 8:28
    ако приемем, че това има приблизително разпределение ХИ-квадрат,
  • 8:28 - 8:33
    каква е вероятността да получим толкова краен резултат или поне
  • 8:33 - 8:36
    по-малко краен, предполагам това е друг начин да си го представим.
  • 8:36 - 8:40
    Друг начин да го кажем е: "Това по-краен резултат ли е
  • 8:40 - 8:42
    от критичната стойност на ХИ-квадрат,
  • 8:42 - 8:45
    че има 5% шанс да получим толкова краен резултат?"
  • 8:45 - 8:46
    Нека го направим по този начин.
  • 8:46 - 8:49
    Нека намерим критичната стойност на ХИ-квадрат.
  • 8:49 - 8:50
    Ако това (изчисленото ХИ-квадрат) е по-голямо от това (критичната стойност),
  • 8:50 - 8:53
    тогава ще отхвърлим нулевата си хипотеза.
  • 8:53 - 8:57
    Нека намерим критичните стойности на ХИ-квадрат.
  • 8:57 - 8:58
    Имаме алфа от 5%.
  • 8:58 - 9:00
    Другото нещо, което трябва да открием,
  • 9:00 - 9:03
    са степените на свобода.
  • 9:03 - 9:07
    Степените на свобода, взимаме едно, две, три, четири,
  • 9:07 - 9:09
    пет, шест сбора, така че може да ти се иска
  • 9:09 - 9:11
    да кажеш, че степените на свобода са шест.
  • 9:11 - 9:13
    Но нещо, което трябва да осъзнаеш, е, че ако
  • 9:13 - 9:15
    имаш всички тези данни тук,
  • 9:15 - 9:20
    можеш да откриеш тази последна част информация,
  • 9:20 - 9:22
    така че всъщност имаш пет степени на свобода.
  • 9:22 - 9:24
    Когато имаш n точки информация
  • 9:24 - 9:27
    и измерваш наблюдаваната стойност срещу очакваната,
  • 9:27 - 9:29
    степените ти на свобода ще са n минус 1,
  • 9:29 - 9:31
    понеже можеш да откриеш n-тата точка информация, просто
  • 9:31 - 9:33
    въз основа на всичко друго, което имаш,
  • 9:33 - 9:35
    всичката останала информация.
  • 9:35 - 9:37
    Степените ти на свобода тук ще са 5.
  • 9:37 - 9:40
    Това е n минус 1.
  • 9:40 - 9:43
    Нивото ни на значимост е 5%.
  • 9:43 - 9:48
    Степените ни на свобода също ще са равни на 5.
  • 9:48 - 9:51
    Нека погледнем нашето ХИ-квадратно разпределение.
  • 9:51 - 9:56
    Имаме степен на свобода от 5.
  • 9:56 - 9:59
    Имаме ниво на значимост от 5%.
  • 9:59 - 10:04
    Тоест, критичната стойност на ХИ-квадрат тук е 11,07.
  • 10:04 - 10:05
    Нека използваме тази диаграма.
  • 10:05 - 10:07
    Имаме ХИ-квадратно разпределение
  • 10:07 - 10:09
    със степен на свобода от 5.
  • 10:09 - 10:12
    Това е разпределението тук в пурпурен цвят.
  • 10:12 - 10:16
    Интересува ни критичната стойност от 11,07.
  • 10:16 - 10:17
    Това ето тук.
  • 10:17 - 10:19
    Всъщност на това не можеш да я видиш.
  • 10:19 - 10:21
    Ако продължа да рисувам това нещо в пурпурния цвят
  • 10:21 - 10:27
    навсякъде тук, ако пурпурната линия просто продължи,
  • 10:27 - 10:29
    ще имаш 8.
  • 10:29 - 10:30
    Тук ще имаш 10.
  • 10:30 - 10:32
    Тук ще имаш 12.
  • 10:32 - 10:36
    11,07 е, може би, някъде тук.
  • 10:36 - 10:38
    Това ни казва, че вероятността
  • 10:38 - 10:50
    да получим резултат, поне толкова екстремен като 11,07, е 5%.
  • 10:50 - 10:52
    Можем да го запишем дори и тук.
  • 10:52 - 10:58
    Критичната стойност на ХИ-квадрат е равна на – току-що видяхме – 11,07.
  • 10:58 - 11:00
    Нека погледна диаграмата отново.
  • 11:00 - 11:07
    11,07.
  • 11:07 - 11:09
    Резултатът, който получихме за нашата статистика,
  • 11:09 - 11:13
    е дори по-малко вероятен от това.
  • 11:13 - 11:16
    Вероятността е по-малка от нивото ни на значимост.
  • 11:16 - 11:19
    Така че ще отхвърлим това.
  • 11:19 - 11:21
    Вероятността да получим –
  • 11:21 - 11:27
    нека го кажа така – 11,44 е
  • 11:27 - 11:31
    по-крайна от критичното ниво на ХИ-квадрата.
  • 11:31 - 11:36
    Така че е много не вероятно това разпределение да е вярно.
  • 11:36 - 11:42
    Така че ще отхвърлим това, което той ни казва.
  • 11:42 - 11:44
    Ще отхвърлим това разпределение.
  • 11:44 - 11:48
    Не пасва добре въз основа на това ниво на значимост.
Title:
Критерий на Пирсън (проверка на хипотезите)
Description:

Критерий на Пирсън, наричан още критерий Хи-квадрат или критерий на съгласието, използван при проверка на хипотезите.

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
11:48

Bulgarian subtitles

Revisions Compare revisions