WEBVTT 00:00:00.413 --> 00:00:06.502 Сега ще започнем пътешествие в света на статистиката, 00:00:06.502 --> 00:00:11.402 което е всъщност начин да се запознаем с данните. 00:00:11.402 --> 00:00:14.556 И така, статистиката е всичко, свързано с данни. 00:00:14.566 --> 00:00:18.782 И тъй като започваме пътешествие в света на статистиката, 00:00:18.782 --> 00:00:20.893 ние ще правим много от така наречената 00:00:20.893 --> 00:00:22.983 описателна (дескриптивна) статистика. 00:00:22.994 --> 00:00:25.224 Ако имаме един куп данни 00:00:25.224 --> 00:00:27.877 и искаме да кажем нещо за всички тези данни, 00:00:27.877 --> 00:00:29.862 без да предоставяме всичките данни, 00:00:29.862 --> 00:00:33.832 можем ли по някакъв начин да ги изобразим с по-малък набор от числа? 00:00:33.832 --> 00:00:35.764 Сега ще се съсредоточим върху това. 00:00:35.764 --> 00:00:38.667 И щом се екипираме с инструментариума за описателната статистика, 00:00:38.667 --> 00:00:41.971 след това можем да започнем да правим изводи за тези данни – 00:00:41.971 --> 00:00:44.224 ще започнем да правим заключения, ще започнем да правим преценки. 00:00:44.224 --> 00:00:50.438 Тоест ще започнем да работим с изходната (инференциална) статистика – 00:00:51.286 --> 00:00:53.461 Като имаме предвид всичко това, нека помислим 00:00:53.461 --> 00:00:55.831 как можем да опишем данните. 00:00:55.831 --> 00:01:00.326 Нека кажем, че имаме множество от числа. 00:01:00.326 --> 00:01:02.401 Можем да приемем, че това ще бъдат данните. 00:01:02.401 --> 00:01:04.521 Може би измерваме височината на растенията 00:01:04.521 --> 00:01:05.711 в нашата градина. 00:01:05.712 --> 00:01:07.548 И нека кажем, че имаме 6 растения. 00:01:07.548 --> 00:01:13.638 И височините им са 4 см, 3 см, 1 см, 6 см 00:01:13.638 --> 00:01:17.482 и имаме още едно от 1 см, и друго от 7 см. 00:01:17.489 --> 00:01:22.568 И нека кажем, че някой в другата стая, без да гледа растенията, те попита: 00:01:22.590 --> 00:01:24.490 "Колко са високи твоите растения?" 00:01:24.495 --> 00:01:26.205 И този някой иска да чуе едно число. 00:01:26.207 --> 00:01:30.398 Иска да чуе едно число, което представя 00:01:30.398 --> 00:01:33.590 всички различни височини на растенията. 00:01:33.590 --> 00:01:35.960 Какво ще направиш? 00:01:35.974 --> 00:01:38.861 Може би ще си помислиш, че трябва да намериш нещо, 00:01:38.861 --> 00:01:43.935 някакво символично число, което някак изобразява средата. 00:01:43.936 --> 00:01:46.206 Може би най-често срещаното число? 00:01:46.206 --> 00:01:48.946 Може би числото, което по някакъв начин изобразява 00:01:48.946 --> 00:01:51.052 центъра на всичките тези числа? 00:01:51.052 --> 00:01:52.970 И ако си помислиш някое от тези неща, 00:01:52.970 --> 00:01:55.779 ти всъщност ще правиш същото като хората, 00:01:55.779 --> 00:01:58.089 измислили описателната статистика. 00:01:58.089 --> 00:02:00.168 Те са си казали: "Добре, как да направим това?" 00:02:00.168 --> 00:02:04.639 Да започнем от идеята за средата. 00:02:04.639 --> 00:02:07.497 В ежедневния език думата "средно" 00:02:07.497 --> 00:02:09.656 има много специфично значение, както ще видим. 00:02:09.656 --> 00:02:13.361 Когато казват средно, много хора имат предвид средно аритметично, 00:02:13.361 --> 00:02:14.861 ще разгледаме това след малко. 00:02:14.861 --> 00:02:18.384 Но в статистиката средна стойност означава нещо по-общо. 00:02:18.384 --> 00:02:22.744 Означава "представително число", 00:02:22.744 --> 00:02:29.919 или "средно число", или... 00:02:29.919 --> 00:02:32.056 И това са опити да се намери 00:02:32.056 --> 00:02:34.370 дадена мярка на централната тенденция. 00:02:34.370 --> 00:02:38.571 Централна тенденция. 00:02:38.571 --> 00:02:40.481 Още веднъж – имаме множество числа. 00:02:40.486 --> 00:02:42.756 Опитваме се по някакъв начин да ги изобразим с едно число, 00:02:42.756 --> 00:02:45.906 което ще наречем средно, което е 00:02:45.911 --> 00:02:50.175 представително, средно или централно на тези числа. 00:02:50.175 --> 00:02:53.906 И както ще видим, има много видове средни величини. 00:02:53.906 --> 00:02:56.785 Първата вероятно я познаваш. 00:02:56.785 --> 00:03:01.018 Често се казва "средна оценка на изпита" или "среден ръст". 00:03:01.018 --> 00:03:03.201 И това е средното аритметично. 00:03:03.201 --> 00:03:05.486 Нека го напиша с... 00:03:05.486 --> 00:03:13.081 Ще го напиша с жълто, средно аритметично. 00:03:13.081 --> 00:03:15.980 Съществителното е аритметика. 00:03:15.980 --> 00:03:19.840 Прилагателното става "аритметично". 00:03:19.840 --> 00:03:21.586 Средно аритметично. 00:03:21.586 --> 00:03:25.966 И това е просто сумата от всичките числа, разделена на... 00:03:25.966 --> 00:03:29.988 Това е дефиниция, дадена от нас, хората, която е полезна. 00:03:29.988 --> 00:03:34.168 Сумата от всички числа, делена на броя на дадените числа. 00:03:34.445 --> 00:03:36.705 Знаейки това, колко ще е средното аритметично 00:03:36.713 --> 00:03:39.053 на този набор от данни? 00:03:39.071 --> 00:03:40.471 Добре, нека просто да го изчислим. 00:03:40.490 --> 00:03:46.040 Това ще бъде 4 плюс 3, плюс 1, плюс 6, плюс 1, 00:03:46.040 --> 00:03:51.185 плюс 7, върху броя на точките с данни, които имаме. 00:03:51.202 --> 00:03:53.180 И така, ние имаме шест точки с данни. 00:03:53.180 --> 00:03:54.828 Така че, ще разделим на 6. 00:03:54.828 --> 00:04:01.708 И получаваме, 4 плюс 3 е 7, плюс 1 е 8, плюс 6 е 14, 00:04:01.729 --> 00:04:05.059 плюс 1 е 15, плюс 7. 00:04:05.069 --> 00:04:07.950 15 плюс 7 е 22. 00:04:07.950 --> 00:04:09.271 Нека го направя още веднъж. 00:04:09.271 --> 00:04:14.971 Имаме 7, 8, 14, 15, 22, всичкото това върху 6. 00:04:14.971 --> 00:04:17.071 Можем да го запишем като смесено число. 00:04:17.071 --> 00:04:20.856 6 се съдържа в 22 три пъти с остатък от 4. 00:04:20.856 --> 00:04:25.026 Така че това е 3 цяло и 4/6, което е същото нещо като 3 цяло и 2/3. 00:04:25.034 --> 00:04:28.256 Можем да го запишем и като десетично число: 3 цяло и 6 в период. 00:04:28.256 --> 00:04:32.306 Така че това е също 3,6 в период. 00:04:32.325 --> 00:04:34.474 Бихме могли да го напишем по всеки един от тези начини. 00:04:34.474 --> 00:04:36.652 Но това е един вид представително число. 00:04:36.652 --> 00:04:39.592 То се опитва да ни покаже основната тенденция. 00:04:39.604 --> 00:04:42.026 Още веднъж, това е измислено от хората. 00:04:42.026 --> 00:04:45.788 Не е като някой да е намерил религиозни документи, в които да пише: 00:04:45.788 --> 00:04:49.292 "средната стойност трябва да бъде определена по този начин". 00:04:49.292 --> 00:04:52.264 Това не е чисто пресмятане, 00:04:52.264 --> 00:04:54.942 като, да кажем, намирането на обиколката на окръжност, 00:04:54.942 --> 00:05:00.252 Което наистина е факт, на който сме попаднали при изучаването на вселената. 00:05:00.320 --> 00:05:02.170 А това тук е дефиниция, измислена от хората, 00:05:02.177 --> 00:05:03.667 която сме намерили за полезна. 00:05:03.677 --> 00:05:07.027 Сега, има други начини да измерим средното, 00:05:07.027 --> 00:05:09.937 да намерим типичната, средната стойност. 00:05:09.950 --> 00:05:14.530 Другият много типичен начин е медианата. 00:05:14.535 --> 00:05:15.644 И аз ще напиша медиана. 00:05:15.644 --> 00:05:16.684 Свършват ми цветовете. 00:05:16.688 --> 00:05:18.673 Ще напиша медиана в розово. 00:05:18.673 --> 00:05:21.233 И така, ето я медианата. 00:05:21.234 --> 00:05:25.124 И медианата е буквално средното число. 00:05:25.124 --> 00:05:27.237 Ако подредиш всичките числа във възходящ ред, 00:05:27.237 --> 00:05:31.442 това в средата ще бъде твоята медиана. 00:05:31.442 --> 00:05:35.429 Та колко ще бъде медианата на дадения ни набор от числа? 00:05:35.499 --> 00:05:36.949 Нека се опитаме да я намерим. 00:05:36.949 --> 00:05:38.139 Нека ги подредим. 00:05:38.139 --> 00:05:39.609 И така, имаме 1. 00:05:39.626 --> 00:05:41.055 След това имаме друго 1. 00:05:41.055 --> 00:05:42.730 След това имаме 3. 00:05:42.730 --> 00:05:46.540 След това имаме 4, 6 и 7. 00:05:46.540 --> 00:05:48.300 Просто ги пренаредих. 00:05:48.313 --> 00:05:50.443 И така, кое е средното число? 00:05:50.762 --> 00:05:54.782 Тъй като имаме четен брой числа, в случая 6 числа, 00:05:54.782 --> 00:05:57.356 няма едно средно число. 00:05:57.356 --> 00:05:59.308 В действителност има две средни числа тук. 00:05:59.308 --> 00:06:01.748 Имаме две средни числа тук. 00:06:01.748 --> 00:06:03.268 Имаме 3 и 4. 00:06:03.291 --> 00:06:05.861 И в този случай, когато имаме две средни числа, 00:06:05.873 --> 00:06:09.619 всъщност ни трябва средата между тези две числа. 00:06:09.619 --> 00:06:12.089 По същество вземаме средното аритметично 00:06:12.093 --> 00:06:14.253 тези две числа, за да намерим медианата. 00:06:14.253 --> 00:06:17.101 Така че медианата ще бъде по средата между 3 и 4, 00:06:17.101 --> 00:06:19.201 което е 3,5. 00:06:19.207 --> 00:06:24.147 Така че медианата в този случай е 3,5. 00:06:24.168 --> 00:06:26.608 И така, ако имаме четен брой числа, медианата е 00:06:26.625 --> 00:06:31.405 средното аритметично на двете в средата, или половината между двете средни числа... 00:06:31.418 --> 00:06:32.959 Ако имаме нечетен брой числа, 00:06:32.959 --> 00:06:34.344 е малко по-лесно да се изчисли. 00:06:34.473 --> 00:06:36.912 Ще дам друг набор от данни. 00:06:36.912 --> 00:06:39.652 Даден ни е набор от данни, и ще ти го подредя. 00:06:39.652 --> 00:06:42.013 Нека кажем, че числата ни са 00:06:42.022 --> 00:06:55.692 е 0, 7, 50, 10 000 и 1 милион. 00:06:55.692 --> 00:06:56.928 Нека кажем, че това е наборът от данни. 00:06:56.928 --> 00:06:58.336 Малко странен набор от данни. 00:06:58.336 --> 00:07:02.430 Но в тази ситуация колко е медианата? 00:07:02.430 --> 00:07:04.170 Тук имаме пет числа. 00:07:04.170 --> 00:07:05.479 Имаме нечетен брой числа. 00:07:05.479 --> 00:07:07.115 Така че е по-лесно да изберем средата. 00:07:07.115 --> 00:07:12.025 Средата е числото, което е по-голямо от две от числата 00:07:12.025 --> 00:07:13.586 и е по-малко от две от числата. 00:07:13.586 --> 00:07:14.674 То е точно в средата. 00:07:14.674 --> 00:07:18.624 Така че в този случай медианата е 50. 00:07:18.628 --> 00:07:21.161 Сега, третата мярка на основната тенденция, 00:07:21.161 --> 00:07:25.039 която вероятно се използва най-рядко в живота, 00:07:25.039 --> 00:07:26.360 е модата. 00:07:26.360 --> 00:07:27.802 Хората често забравят за нея. 00:07:27.802 --> 00:07:29.812 Звучи като нещо много сложно. 00:07:29.825 --> 00:07:32.983 Но ще видим, че всъщност е много просто понятие. 00:07:33.203 --> 00:07:35.782 И в известен смисъл, то е най-простото понятие. 00:07:35.782 --> 00:07:40.562 Модата е най-повтарящото се число в набора от данни, 00:07:40.562 --> 00:07:42.141 ако има такова. 00:07:42.141 --> 00:07:43.882 Ако всички числа са представени поравно 00:07:43.882 --> 00:07:45.741 и няма нито едно най-повтарящо се число, 00:07:45.741 --> 00:07:47.021 тогава нямаме мода. 00:07:47.035 --> 00:07:50.295 Но предвид тази дефиниция за модата, 00:07:50.312 --> 00:07:53.925 кое е най-повтарящото се число в нашия първоначален набор 00:07:53.925 --> 00:07:58.055 от данни, в този набор от данни ето тук? 00:07:58.055 --> 00:08:00.047 Имаме само едно 4. 00:08:00.047 --> 00:08:01.477 Имаме само едно 3. 00:08:01.477 --> 00:08:03.077 Но имаме две единици. 00:08:03.084 --> 00:08:04.859 Имаме едно 6 и едно 7. 00:08:04.859 --> 00:08:08.439 Така че числото, което се явява най-повтарящо се тук, 00:08:09.802 --> 00:08:11.075 е 1. 00:08:11.075 --> 00:08:13.705 Така че модата, най-типичното число, най-повтарящото се число, 00:08:15.865 --> 00:08:17.410 тук е 1. 00:08:17.410 --> 00:08:19.711 И така, виждаш, че всичко това са различни начини 00:08:19.711 --> 00:08:23.228 при опитите ни да получим типична, средна, основна тенденция. 00:08:23.228 --> 00:08:25.667 Но начините са много различни. 00:08:25.667 --> 00:08:27.388 И когато учим все повече статистика, 00:08:27.388 --> 00:08:29.538 ще видим, че те са подходящи за различни неща. 00:08:29.556 --> 00:08:31.576 Средното аритметично се използва много често. 00:08:31.577 --> 00:08:34.587 Медианата е подходяща, ако имаш някакво странно число, 00:08:34.592 --> 00:08:37.915 което би изкривило средното аритметично. 00:08:37.936 --> 00:08:41.275 Модата може също да бъде полезна в ситуации като тази, 00:08:41.292 --> 00:08:43.347 особено ако имаме едно число, което 00:08:43.347 --> 00:08:45.838 се показва много по-често. 00:08:45.838 --> 00:08:47.548 Както и да е, ще приключим дотук. 00:08:47.549 --> 00:08:52.564 И в следващите няколко клипа ще изучаваме статистиката дори по-подробно.