-
Имаме девет ученици, които наскоро
-
са завършили малко училище, в което
имало клас с девет души,
-
и те искат да разберат
каква е централната тенденция
-
за заплатите една година
след завършването?
-
Те искат също да разберат какво е разпространението около
-
тази централна тенденция една година след завършване.
-
Те се съгласяват да въведат
заплатите си в компютър
-
и това са техните заплати.
-
Те биват измервани в хиляди.
-
Заплатите са 35 000; 50 000; 50 000; 50 000; 56 000;
-
двама изкарват по 60 000; един изкарва 75 000 и един изкарва 250 000.
-
Последният доста добре се справя.
-
Компютърът извежда няколко параметъра,
-
въз основа на тази информация тук.
-
Той изважда два типични показателя
за централна тенденция.
-
Средната стойност е приблизително 76,2.
-
Компютърът я изчислява,
като събира всички тези
-
числа, тези девет числа,
и после ги дели на девет,
-
а медианата е 56, тя е
много лесна за изчисляване.
-
Просто подреждаш
числата и взимаш
-
числото по средата, което тук е 56.
-
Сега искам да поставиш
това видео на пауза
-
и да помислиш върху
този набор данни.
-
За тази група заплати
-
кой показател за централна тенденция
е по-добър?
-
Нека помислим върху това.
-
Ще направя една линия тук.
-
Ще направя схема на информацията си,
за да я разберем по-добре,
-
така че да не виждаме
нещата само като числа,
-
но и да видим къде тези числа се
-
намират едно спрямо друго.
-
Нека това е нула.
-
Да кажем, че това е едно, две,
три, четири, пет.
-
Това ще е 350, това е 50,
100, 150, 200, 200.
-
Да видим.
-
Да кажем, че ако това е 50,
тогава това
-
тук ще е приблизително 40.
-
Това ще е около 60, 70, 80, 90.
-
Можех да направя това
малко по-спретнато,
-
60, 70, 80, 90.
-
Нека разчистя малко повече тук.
-
Това ето тук ще е
-
малко по-близо до това.
-
Нека го направя правилно.
-
Това е 40, а това ще е 30, 20, 10.
-
Така е доста добре.
-
Нека нанесем тази информация.
-
Един ученик изкарва 35 000,
което е ето тук.
-
Трима изкарват 50 000,
-
така че имаме едно, две, три.
-
Ще го направя така.
-
Един изкарва 56 000,
което го поставя ето тук.
-
Двама изкарват по 60 000,
-
което е ето така.
-
Един изкарва 75 000,
това е 60, 70, 75 000.
-
Това ще е някъде тук.
-
А един изкарва 250 000.
-
Една заплата е чак тук.
-
После, когато пресметнем
средната стойност като 76,2
-
и като мярка за
нашата централна тенденция,
-
76,2 е ето тук.
-
Добро ли е това измерване
на централната тенденция?
-
Не ми се струва така,
-
понеже нашето измерване за централната тенденция
е по-високо от всички
-
тези стойности, освен една,
и причината за това е,
-
че информацията ни е изкривена
-
значително от тази стойност
от 250 000 долара.
-
Тя е толкова далеч
от останалото разпределение,
-
от останалата информация,
че е изкривила средната стойност
-
и това е нещо, което
може да се види като цяло.
-
Ако имаш изкривена информация
и особено неща като
-
информация за заплата,
където повечето хора изкарват
-
50, 60, 70 000 долара, но някой
може да изкарва два милиона долара,
-
това ще изкриви
средната стойност,
-
когато ги събереш и
разделиш на броя
-
стойности, които имаш.
-
В този случай, особено, когато
имаш стойности, които
-
биха изкривили средната стойност,
медианата е много по-ясна.
-
Медианата 56 стои ето тук,
което изглежда
-
много по-показателно за
централната тенденция.
-
Замисли се.
-
Дори ако изкарваш толкова,
вместо 250 000,
-
ако правиш 250 милиона долара,
-
което е огромна сума пари,
-
то ще изкриви изключително много средната стойност,
-
но няма да промени медианата,
-
понеже за медианата няма значение
-
колко голямо е това число.
-
Може да е милиард долара.
-
Може да е квартилион долара.
-
Медианата ще си остане същата.
-
Така че медианата е много по-ясна,
-
ако имаш изкривен набор данни.
-
Средната стойност има малко повече смисъл, ако имаш симетричен
-
набор данни или ако имаш неща, които са
-
приблизително над или под средната стойност,
-
или нещата не са изкривени изключително много в една посока,
-
особено от малко точки
-
информация, както тук.
-
В този пример медианата е много
-
по-добро измерване за централната тенденция.
-
А какво да кажем за разпределението?
-
Може да си помислиш, че вече казах,
-
че средната стойност не е толкова добра
-
и стандартната девиация се базира на средната стойност.
-
Ако вземеш всяка една от тези точки информация, намериш разстоянието им
-
от средната стойност, повдигнеш числото на квадрат, събереш тези
-
повдигнати на квадрат отклонения, разделиш на броя точки информация, ако
-
работим върху стандартно отклонение на извадка,
-
а после намираш
корен квадратен от цялото нещо.
-
След като това се базира на
средната стойност, която не е добро
-
измерване за централната тенденция в тази ситуация,
-
това също ще изкриви и
стандартното отклонение.
-
Това ще е много по-дълго,
-
отколкото ако погледнеш реалния случай,
-
ако искаш индикация за разпространението.
-
Имаш тази една точка информация, която е много далече
-
от средната стойност или от медианата, в зависимост как
-
си го представяш, но повечето точки информация изглеждат
-
доста по-приближени, така че за тази ситуация,
-
не само използваме медианата,
-
но интерквартилният размах
също е по-ясен.
-
Как пресмятаме интерквартилния размах ?
-
Взимаме медианата и взимаме долната
-
група числа и пресмятаме тяхната медиана.
-
Това тук е 50, а после взимаме горната
-
група числа
-
и те са 60 и 75, като медианата е 67,5.
-
Ако това не ти изглежда познато,
имаме много видеа
-
за интерквартилен размах
и пресмятане
-
на стандартно отклонение, и за медиана, и засредна стойност.
-
Това е нещо като преговор.
-
И разликата между тези двете е 17,5.
-
Забележи, разстоянието
между тези две стойности е 17,5.
-
Това няма да се промени,
-
дори ако това е
250 милиарда долара.
-
Отново, и двата показателя
са по-ясни,
-
когато имаш
изкривен набор данни.
-
Това, което трябва да запомниш тук е, че средната стойност и стандартното отклонение
-
не са лоши, ако имаш приблизително
симетричен набор данни,
-
ако нямаш значителни големи
разлики в стойностите,
-
неща, които наистина
изкривяват набора данни,
-
средната стойност и стандартното отклонение
могат да са доста надеждни.
-
Но ако гледаш нещо, което
може доста да бъде
-
изкривено от няколко стойности,
-
медианата и интерквартилният размах, медианата за централната тенденция,
-
а интерквартилният размах за разсейването
около тази централна тенденция.
-
Затова, когато хората говорят за заплати,
-
те често говорят за медиани,
понеже може да има
-
някои твърде различни стойности на заплатите,
особено в горния край.
-
Когато говорим за неща като
цени на домове, ще видиш,
-
че медианата по-често бива пресмятана,
отколкото средната стойност,
-
понеже цените на домовете
в даден квартал
-
или град, цените на къщите
могат да са около 200 000
-
или 300 000 долара,
но може да има едно огромно имение,
-
което е 100 милиона долара и
ако пресметнеш средната стойност,
-
това ще се изкриви и ще даде
фалшива представа за средната
-
или централната тенденция
на цените в този град.