WEBVTT 00:00:00.494 --> 00:00:06.749 Nyní se vydáme na cestu do světa statistiky, 00:00:06.749 --> 00:00:11.411 což je ve skutečnosti cesta k tomu, porozumět datům. 00:00:11.411 --> 00:00:14.531 Statistika je celá o datech. 00:00:14.531 --> 00:00:19.044 Když se vydáme na tuto cestu do světa statistiky, 00:00:19.044 --> 00:00:23.615 budeme se hodně věnovat něčemu, co nazýváme "popisná statistika." 00:00:23.615 --> 00:00:29.728 Pokud máme kupu dat a chceme o nich něco zjistit, 00:00:29.728 --> 00:00:34.196 můžeme tato data nějak popsat pomocí menšího množství čísel? 00:00:34.196 --> 00:00:35.692 Na tohle se nyní zaměříme. 00:00:35.692 --> 00:00:39.096 Jakmile budeme vybaveni znalostmi z popisné statistiky, 00:00:39.096 --> 00:00:52.059 můžeme začít data analyzovat a vyvozovat z nich závěry a úsudky, čili se začneme věnovat "statistické indukci," 00:00:52.059 --> 00:00:55.130 Takže když jsme si toto vyjasnili, zamysleme se nad tím, 00:00:55.130 --> 00:00:56.760 jak můžeme popsat data. 00:00:56.760 --> 00:01:03.808 Řekněme, že máme množinu čísel, budeme je považovat za "data." 00:01:03.808 --> 00:01:06.379 Například bychom mohli měřit výšku rostlin v naší zahraně. 00:01:06.379 --> 00:01:08.897 Řekněme, že máme šest květin, jejichž výšky jsou: 00:01:08.897 --> 00:01:18.159 4 palce, 3 palce, 1 palec, 6 palců, 1 palec a 7 palců. 00:01:18.159 --> 00:01:23.097 Řekněme, že se někdo ve vedlejším pokoji zeptá, aniž by na tyto květiny díval: 00:01:23.097 --> 00:01:33.829 "Jak vysoké jsou tvé květiny?" A chce slyšet pouze jedno číslo, které co nejlépe odpovídá výšce našich květin. 00:01:33.829 --> 00:01:36.717 Co bychom mu měli odpovědět? 00:01:36.717 --> 00:01:40.997 Jak to vůbec můžeme zjistit? Možná, že chceme nějaké typické číslo. 00:01:40.997 --> 00:01:44.137 Možná, že chceme číslo, které nějakým způsobem zachycuje střední výšku květin? 00:01:44.137 --> 00:01:46.522 Nebo raději číslo odpovídající výšce, kterou má většina květin? 00:01:46.522 --> 00:01:51.492 Nebo spíše číslo, které je v řadě těchto čísel někde uprostřed? 00:01:51.492 --> 00:01:55.504 Ať už bychom vybrali kterýkoli z těchto způsobů, udělali bychom vlastně totéž, 00:01:55.504 --> 00:01:58.103 s čím přišli i tvůrci popisné statistiky. 00:01:58.103 --> 00:02:00.348 Ti se také nejprve zeptali: "No... tak co s tím?" 00:02:00.348 --> 00:02:05.290 Nejprve si povíme, co to je Průměr. 00:02:05.290 --> 00:02:09.020 Slovo průměr se používá v běžné řeči, kde má poměrně specifický význam. 00:02:09.020 --> 00:02:15.040 Když lidé mluví o průměru, mají na mysli "aritmetický průměr," u kterého se také na chvíli zastavíme. 00:02:15.040 --> 00:02:18.301 Ale ve statistice, průměr je něčím obecnějším. 00:02:18.301 --> 00:02:29.487 Znamená to: řekněte mi "typické" nebo "střední" číslo. 00:02:29.487 --> 00:02:38.767 Je to vlastně pokus najít měřítko střední hodnoty. 00:02:38.767 --> 00:02:45.804 Takže ještě jednou, máme kupu čísel a snažíme se najít jedno číslo (průměr), 00:02:45.824 --> 00:02:50.664 které reprezentuje typickou či střední hodnotu těchto čísel. 00:02:50.664 --> 00:02:54.165 Uvidíme, že existuje více druhů průměrů. 00:02:54.165 --> 00:02:58.125 První z nich znáte asi nejlépe. Právě ten mají lidé na mysli, 00:02:58.125 --> 00:03:00.835 když mluví o průměrné známce ze zkoušky nebo průměrné výšce. 00:03:00.835 --> 00:03:03.865 Je to aritmetický průměr. 00:03:03.865 --> 00:03:13.843 Napíšu to žlutě: "aritmetický průměr." 00:03:13.843 --> 00:03:22.193 Pochází ze slova aritmetika, což je matematická disciplína zabývající se čísly. 00:03:22.193 --> 00:03:26.761 A je to vlastně jen součet všech čísel dělený... 00:03:26.761 --> 00:03:29.756 A je to jen něco, co si vymysleli lidé, protože jim to přišlo užitečné. 00:03:29.756 --> 00:03:34.391 ... je to tedy součet všech čísel dělený jejich počtem. 00:03:34.391 --> 00:03:39.539 Jaký je tedy aritmetický průměr této množiny dat? 00:03:39.539 --> 00:03:55.947 Spočítejme si to. Bude to 4 + 3 + 1 + 6 + 1 + 7, a protože máme 6 čísel, vydělíme tento součet šesti. 00:03:55.947 --> 00:04:08.196 A dostaneme: 4 plus 3 se rovná 7 plus 1 se rovná 8 plus 6 se rovná 14 plus 1 se rovná 15 plus 7 se rovná 22. 00:04:08.196 --> 00:04:14.776 Ještě jednou, to máme 7, 8, 14, 15, 22. A tohle vydělíme šesti. 00:04:14.776 --> 00:04:20.876 Můžeme to napsat jako smíšený zlomek: 6 se vejde do 22 třikrát a zbytek bude 4. 00:04:20.876 --> 00:04:32.366 Takže to máme 3 a 4/6, což je totéž jako 3 a 2/3. Lze to vyjádřit i jako periodické číslo 3,6. 00:04:32.366 --> 00:04:34.398 Můžeme to napsat jakýmkoli z těchto způsobů. 00:04:34.398 --> 00:04:39.818 Každopádně jde o jakési reprezentativní číslo, které zachycuje střední hodnotu. 00:04:39.818 --> 00:04:41.613 Ještě jednou si připomeňme, že tohle všechno si vymysleli lidé. 00:04:41.613 --> 00:04:45.985 Není to tak, že by někdo našel třeba jakýsi náboženský dokument a řekl si: 00:04:45.985 --> 00:04:49.475 "Takhle se musí definovat aritmetický průměr." 00:04:49.475 --> 00:04:54.936 Není to výsledek žádného zázračného výpočtu jako třeba zjištění, jak spočítat obvod kružnice. 00:04:54.936 --> 00:05:00.446 Což skutečně vzešlo z jakéhosi záhadného zkoumání vesmíru. 00:05:00.446 --> 00:05:04.440 Je to jen lidský výtvor, který považujeme za užitečný. 00:05:04.440 --> 00:05:10.355 Existují ale i jiné způsoby, jak najít "typickou" hodnotu pro skupinu dat. 00:05:10.355 --> 00:05:21.382 Dalším běžným způsobem je medián. Napíšu růžově "medián." Dochází mi barvy... 00:05:21.382 --> 00:05:25.354 Medián je vlastně číslo nacházející se uprostřed. 00:05:25.354 --> 00:05:31.604 Pokud seřadíte všechna čísla a vyberete to prostřední, tak získáte medián. 00:05:31.604 --> 00:05:36.543 Tak jaký je medián této skupiny dat? 00:05:36.543 --> 00:05:48.641 Zkusíme si je seřadit. Máme číslo 1, znovu 1, 3, 4, 6 a 7. 00:05:48.641 --> 00:05:51.021 Které číslo je uprostřed? 00:05:51.021 --> 00:06:02.435 Vidíme, že máme sudý počet čísel, takže uprostřed se nachází dvě čísla, 00:06:02.435 --> 00:06:03.702 a to 3 a 4. 00:06:03.702 --> 00:06:10.856 Pokud máme 2 prostřední čísla, pak vezmeme jejich prostředek, 00:06:10.856 --> 00:06:14.582 tedy vlastně aritmetický průměr těchto dvou čísel, čímž najdeme medián. 00:06:14.582 --> 00:06:24.446 Medián tedy leží uprostřed mezi čísly 3 a 4. V našem případě je roven 3,5. 00:06:24.446 --> 00:06:31.946 Pokud tedy máme sudý počet čísel, medián je aritmetickým průměrem dvou prostředních. 00:06:31.946 --> 00:06:35.761 Pokud máme lichý počet čísel, je to jednodušší. 00:06:35.761 --> 00:06:38.730 Vezměme si jinou skupinu dat. 00:06:38.730 --> 00:06:41.829 Vezměme si tato data, která jsem už seřadil. 00:06:41.829 --> 00:06:57.723 Tato data jsou 0, 7, 50, 10 000 a 1 000 000. 00:06:57.723 --> 00:07:02.945 Trochu bláznivá data... Co je v tomto případě medián? 00:07:02.945 --> 00:07:08.249 Máme 5 čísel, což je lichý počet. Je tedy snadné najít prostřední z nich. 00:07:08.249 --> 00:07:13.636 Medián je číslo, které je větší než dvě z nich a menší než dvě z nich. 00:07:13.636 --> 00:07:18.081 Tedy číslo přesně uprostřed. V našem případě je mediánem číslo 50. 00:07:18.081 --> 00:07:26.449 Třetím, asi nejméně používaným měřítkem střední hodnoty je modus. 00:07:26.449 --> 00:07:42.372 Zní to složitě, ale jde zkrátka o číslo, které se mezi daty vyskytuje nejčastěji, pokud mezi nimi nějaké takové je. 00:07:42.372 --> 00:07:47.069 Pokud by se každá hodnota v datech vyskytla jen jednou, pak by tato data žádný modus neměla. 00:07:47.069 --> 00:07:58.650 Jaký je modus v našich původních datech? 00:07:58.650 --> 00:08:04.670 Máme tady jedenkrát 4, jedenkrát 3, dvakrát 1, pak máme jedenkrát 6 a jedenkrát 7. 00:08:04.670 --> 00:08:17.690 Nejčastěji tady máme číslo 1, takže toto je modus. 00:08:17.690 --> 00:08:23.257 Tohle všechno byly způsoby, jak zjistit typickou nebo prostřední hodnotu skupiny dat. 00:08:23.257 --> 00:08:25.687 Dělali jsme to ale několika různými způsoby. 00:08:25.687 --> 00:08:29.512 A časem uvidíme, že každý z těchto způsobů se hodí k něčemu jinému. 00:08:29.512 --> 00:08:31.948 Průměr je používaný nejčastěji. 00:08:31.948 --> 00:08:38.146 Medián je důležitý, pokud máme nějakou bláznivou skupinu dat, která by nám mohla s průměrem pěkně zamávat. 00:08:38.146 --> 00:08:41.337 Modus může být v některých situacích také užitečný. 00:08:41.337 --> 00:08:45.647 Zvlášť pokud se v datech jedno číslo vyskytuje mnohem častěji než ostatní. 00:08:45.647 --> 00:08:52.700 Tak to bychom měli. V dalším videu se na to podíváme více do hloubky.