-
-
Мисля да купя ресторант,
-
така че отивам и питам настоящия собственик
-
какво е разпределението на броя клиенти,
-
които има всеки ден.
-
И той казва, че вече е открил това.
-
Дава ми това разпределение ето тук, което казва,
-
че 10% от клиентите му идват в понеделник, 10% във вторник, 15% в сряда и така нататък.
-
В неделя е затворено.
-
Това са 100% от клиентите за една седмица.
-
Ако събереш това, ще получиш 100%.
-
Очевидно съм малко подозрителен,
-
така че решавам да видя колко добре това разпределение, което
-
той описва, съвпада с наблюдаваните данни.
-
Наблюдавам броя клиенти, които идват
-
през седмицата и получавам
-
това от наблюдаваните данни.
-
За да открия дали да приема, или да отхвърля
-
неговата хипотеза, аз ще
-
направя един тест на хипотезата.
-
Ще направя нулевата хипотеза, че разпределението на собственика –
-
това нещо тук – е вярно.
-
После алтернативната хипотеза
-
ще е, че това не е вярно,
-
това не е правилно разпределение,
-
че не виждам логика да разчитам на това.
-
Това не е вярно – трябва да отхвърля
-
разпределението на собственика.
-
Искам да направя това с ниво на значимост от 5%.
-
Друг начин да си го представим:
-
ще пресметна статистическите стойности въз основа на тези данни ето тук.
-
Това ще е статистическото "ХИ-квадрат".
-
Друг начин да си го представим е, че тази статистика,
-
която ще пресметна, има приблизително
-
ХИ-квадратно разпределение.
-
При положение, че има ХИ-квадратно разпределение
-
с определен брой степени на свобода
-
и ще пресметнем това, искам да видя
-
вероятността да получа този резултат
-
или да получа такъв резултат или резултат, който е много
-
по-малък от 5%.
-
Ако вероятността да получа резултат като този или
-
нещо по-малко вероятно от това, е по-малко от 5%,
-
тогава ще отхвърля нулевата хипотеза, което означава,
-
че отхвърлям разпределението на собственика.
-
Ако не получа това, ако кажа,
-
че вероятността да получа статистика ХИ-квадрат, която
-
е толкова или повече екстремна, е по-голяма от алфа,
-
от нивото ми на значимост, тогава няма да я отхвърля.
-
Ще си кажа, че нямам причина
-
да приема, че той лъже.
-
Нека направим това.
-
За да пресметна ХИ-квадрат, ще...
-
тук приемаме, че разпределението на собственика е вярно.
-
Приемам, че разпределението на собственика
-
е било вярно, тогава какво ще е очакваното наблюдение?
-
Тук имаме очаквания процент,
-
но каква щеше да е очакваното наблюдавано разпределение?
-
Нека запиша това тук.
-
Очаквано.
-
Ще добавя още един ред, Очаквано.
-
За общия брой клиенти, които идват през тази седмица,
-
ще очакваме 10% от тях да дойдат в понеделник,
-
10% от общия брой клиенти тази седмица
-
ще дойдат във вторник, 15% ще дойдат в сряда.
-
За да открием какво е истинското число,
-
трябва да намерим общия брой клиенти.
-
Нека съберем тези числа.
-
Ще извадя калкулатора си.
-
Имаме 30 плюс 14, плюс 34, плюс 45, плюс 57, плюс 20.
-
Тук имаме общо 200 клиенти, които
-
са дошли в ресторанта тази седмица.
-
Нека запиша това.
-
Това е равно на – записах общия брой тук.
-
Игнорирай ето това.
-
Тази седмица има 200 клиенти.
-
Какъв е очакваният брой в понеделник?
-
В понеделник бихме очаквали 10% от 200-те
-
клиенти да дойдат.
-
Това ще е 20 клиенти, 10% по 200.
-
Във вторник – още 10%.
-
Тоест, щяхме да очакваме 20 клиенти.
-
Сряда, 15% от 200, това е 30 клиенти.
-
В четвъртък бихме очаквали 20% от 200 клиенти,
-
така че това ще е 40 клиенти.
-
В петък, 30% би било 60 клиенти.
-
А в събота отново 15%.
-
15% от 200 би било 30 клиенти.
-
Ако това разпределение е правилно,
-
това е реалният брой, който бих очаквал.
-
За да пресметнем ХИ-квадрат,
-
взимаме – нека ти покажа,
-
вместо да пиша "ХИ", ще
-
пиша главно Х на квадрат.
-
Понякога някои хора могат да пишат гръцката буква "хи".
-
Но ще запиша "Х на квадрат".
-
Нека го напиша така.
-
Това е нашият ХИ-квадрат,
-
но ще го запиша с главно Х, вместо с "хи",
-
понеже това ще има приблизително
-
ХИ-квадратно разпределение.
-
Не мога да приема, че това е точно,
-
така че тук се занимаваме с приблизителни изчисления.
-
Но е доста лесно да го изчислим.
-
За всеки от тези дни взимаме разликата
-
между наблюдаваните и очакваните проценти.
-
Това ще е 30 минус 20...
-
ще направя първото с различен цвят – на квадрат,
-
делено на очакваната стойност.
-
Взимаме квадрата
-
и можеш да намериш грешката между това, което
-
наблюдавахме и очаквахме, или разликата между това,
-
което наблюдавахме и очаквахме, и го нормализираме,
-
чрез очакваната стойност тук.
-
Но искаме да вземем сбора на всички тези.
-
Ще направя всички тях в жълто.
-
Плюс (14 минус 20) на квадрат върху 20, плюс (34 минус 30) на квадрат
-
върху 30 – ще продължа ето тук – (45 минус 40) на квадрат
-
върху 40, плюс (57 минус 60) на квадрат върху 60,
-
а после, най-накрая, плюс (20 минус 30) на квадрат върху 30.
-
Просто взех наблюдаваната стойност минус очакваната,
-
на квадрат, върху очакваната.
-
Взех сбора на това и
-
той ни дава ХИ-квадрат.
-
Нека пресметнем на колко ще е равно това число.
-
Това ще е равно на – ще го направя тук,
-
за да не свърши мястото.
-
Ще го направим в нов цвят.
-
Ще го направим в оранжево.
-
Това ще е равно на...30 минус 20
-
е 10, на квадрат, което е 100, делено на 20, което е 5.
-
Може да не успея да направя всички наум.
-
Плюс, нека го запиша така,
-
за да виждаш какво правя.
-
Това тук е 100 върху 20 плюс – 14 минус 20
-
е –6, на квадрат е +36.
-
Тоест, плюс 36 върху 20.
-
Плюс, 34 минус 30 е 4, на квадрат е 16.
-
Тоест, плюс 16 върху 30.
-
45 минус 40 е 5, на квадрат е 25.
-
Тоест, плюс 25 върху 40.
-
Разликата тук е 3, на квадрат е 9,
-
тоест, това е 9 върху 60.
-
Тук имаме разлика от 10, на квадрат е 100, тоест плюс 100 върху 30.
-
Това е равно на – ще извадя калкулатора си –
-
имаме 100 делено на 20
-
плюс 36 делено на 20,
-
плюс 16 делено на 30, плюс 25 делено на 40,
-
плюс 9 делено на 60, плюс 100 делено на 30, което ни дава 11,44.
-
Нека запиша това.
-
Това тук ще е 11,44.
-
Това е моят ХИ-квадрат или
-
можем да го наречем голямо главно Х на квадрат.
-
Понякога ще е записано като "ХИ-квадрат",
-
но тази статистика ще има приблизително
-
ХИ-квадратно разпределение.
-
Като казахме това, нека намерим,
-
ако приемем, че това има приблизително ХИ-квадратно разпределение,
-
каква е вероятността да получим толкова екстремен резултат или поне
-
толкова екстремен, предполагам това е друг начин да си го представим.
-
Друг начин да го кажем е: "Това по-екстремен резултат ли е
-
от критичната стойност на ХИ-квадрат,
-
че има 5% шанс да получим толкова екстремен резултат?"
-
Нека го направим по този начин.
-
Нека намерим критичната стойност на ХИ-квадрат.
-
Ако това е по-екстремно от това,
-
тогава ще отхвърлим нулевата си хипотеза.
-
Нека намерим критичните стойности на ХИ-квадрат.
-
Имаме алфа от 5%.
-
Другото нещо, което трябва да открием,
-
са степените на свобода.
-
Степените на свобода, взимаме едно, две, три, четири,
-
пет, шест сбора, така че може да ти се иска
-
да кажеш, че степените на свобода са шест.
-
Но нещо, което трябва да осъзнаеш, е, че ако
-
имаш всички тези данни тук,
-
можеш да откриеш тази последна част информация,
-
така че всъщност имаш пет степени на свобода.
-
Когато имаш n точки информация
-
и измерваш наблюдаваната стойност срещу очакваната,
-
степените ти на свобода ще са n минус 1,
-
понеже можеш да откриеш n-тата точка информация, просто
-
въз основа на всичко друго, което имаш,
-
всичката останала информация.
-
Степените ти на свобода тук ще са 5.
-
Това е n минус 1.
-
Нивото ни на значимост е 5%.
-
Степените ни на свобода също ще са равни на 5.
-
Нека погледнем нашето ХИ-квадратно разпределение.
-
Имаме степен на свобода от 5.
-
Имаме ниво на значимост от 5%.
-
Тоест, критичната стойност на ХИ-квадрат тук е 11,07.
-
Нека използваме тази диаграма.
-
Имаме ХИ-квадратно разпределение
-
със степен на свобода от 5.
-
Това е разпределението тук в пурпурен цвят.
-
Интересува ни критичната стойност от 11,07.
-
Това ето тук.
-
Всъщност на това не можеш да я видиш.
-
Ако продължа да рисувам това нещо в пурпурния цвят
-
навсякъде тук, ако пурпурната линия просто продължи,
-
ще имаш 8.
-
Тук ще имаш 10.
-
Тук ще имаш 12.
-
11,07 е, може би, някъде тук.
-
Това ни казва, че вероятността
-
да получим резултат, поне толкова екстремен като 11,07, е 5%.
-
Можем да го запишем дори и тук.
-
Критичната стойност на ХИ-квадрат е равна на – току-що видяхме – 11,07.
-
Нека погледна диаграмата отново.
-
11,07.
-
Резултатът, който получихме за нашата статистика,
-
е дори по-малко вероятен от това.
-
Вероятността е по-малка от нивото ни на значимост.
-
Така че ще отхвърлим това.
-
Вероятността да получим –
-
нека го кажа така – 11,44 е
-
по-екстремна от критичното ниво на ХИ-квадрата.
-
Така че е много невероятно това разпределение да е вярно.
-
Така че ще отхвърлим това, което той ни казва.
-
Ще отхвърлим това разпределение.
-
Не пасва добре въз основа на това ниво на значимост.