Čemu jsme se naučili z 5 milionů knih
-
0:00 - 0:02Erez Lieberman Aiden: Každý ví,
-
0:02 - 0:05že jeden obraz vydá za tisíc slov.
-
0:07 - 0:09My na Harvardu
-
0:09 - 0:12jsme si to chtěli ověřit.
-
0:12 - 0:14(smích)
-
0:14 - 0:18A tak jsme dali dohromady tým expertů
-
0:18 - 0:20z Harvardu, MIT,
-
0:20 - 0:23The American Heritage Dictionary, The Encyclopedia Britannica
-
0:23 - 0:25a dokonce i našeho hrdého sponzora,
-
0:25 - 0:28Google.
-
0:28 - 0:30A bádali jsme
-
0:30 - 0:324 roky.
-
0:32 - 0:37A přišli jsme na překvapující závěr.
-
0:37 - 0:40Dámy a pánové, jeden obraz nevydá za tisíc slov.
-
0:40 - 0:42Nášli jsme obrazy, které
-
0:42 - 0:47vydají i za 500 miliard slov.
-
0:47 - 0:49Jean-Baptiste Michel: Jak jsme na to přišli?
-
0:49 - 0:51Erez a já jsme přemýšleli nad tím,
-
0:51 - 0:53jak získat celkový obrázek lidské
-
0:53 - 0:56kultury, historie a jejich vývoje v čase.
-
0:56 - 0:58V historii vzniklo mnoho a mnoho knih.
-
0:58 - 1:00Takže jsme si řekli, že nejlepší způsob, jak se z nich
-
1:00 - 1:02poučit, je přečíst všechny ty miliony knih.
-
1:02 - 1:05Takže, na škále úžasnosti je takový postup
-
1:05 - 1:08opravdu, velmi vysoká..
-
1:08 - 1:10Nicméně je zde i osa X,
-
1:10 - 1:12a to osa praktičnosti.
-
1:12 - 1:14A ta je velmi, velmi nízká.
-
1:14 - 1:17(potlesk)
-
1:17 - 1:20Takže lidé zkouší různé alternativní přístupy,
-
1:20 - 1:22například vzít si pár zdrojů a pečlivě je pročíst.
-
1:22 - 1:24Velmi praktické, ale ani trochu cool.
-
1:24 - 1:27Nejraději bychom
-
1:27 - 1:30získali úžasné a praktické řešení zároveň.
-
1:30 - 1:33No a kousek od nás byla společnost Google, která před pár lety
-
1:33 - 1:35začala projekt digitalizace
-
1:35 - 1:37který toto umožnil.
-
1:37 - 1:39Zdigitalizovali milióny knih.
-
1:39 - 1:42To znamená, že za použití počítačů můžete
-
1:42 - 1:44přečíst všechny ty knihy na jedno kliknutí.
-
1:44 - 1:47To je velmi praktické a naprosto úžasné.
-
1:48 - 1:50ELA: Dovolte mi říci něco o původu těchto knih.
-
1:50 - 1:53Od pradávných časů jsme měli spisovatele.
-
1:53 - 1:56Tito autoři toužili psát knihy.
-
1:56 - 1:58Což se stalo výrazně snazším
-
1:58 - 2:00s vynálezem knihtisku před pár stoletími.
-
2:00 - 2:03Od té doby se autorům podařilo
-
2:03 - 2:05ve 129 milionech různých případů,
-
2:05 - 2:07své knihy vydat.
-
2:07 - 2:09Pokud tyto knihy nezapadly v čase,
-
2:09 - 2:11staly se součástí nějaké knihovny,
-
2:11 - 2:14a mnoho z nich se z těchto knihoven i dostalo, a byly
-
2:14 - 2:16zdigitalizovány Googlem,
-
2:16 - 2:18který má dnes naskenováno asi 15 miliónů knih.
-
2:18 - 2:21Když Google naskenuje knihu, převede jí do velmi pěkného formátu.
-
2:21 - 2:23Takže teď máme data a k tomu metadata.
-
2:23 - 2:26Máme informaci například o tom, kde byla kniha vydaná,
-
2:26 - 2:28kdo byl její autor, nebo kdy byla vydaná.
-
2:28 - 2:31A to, co jsme my udělali bylo, že jsme prošli
-
2:31 - 2:35všechny tyto záznamy a vypustili vše co nebylo nejvyšší kvality.
-
2:35 - 2:37A nakonec nám
-
2:37 - 2:40zbyla sbírka 5 miliónů knih,
-
2:40 - 2:43500 miliard slov,
-
2:43 - 2:45řada písmen tisíckrát delší
-
2:45 - 2:48než lidský genom -
-
2:48 - 2:50text, který, když by byl přepsán,
-
2:50 - 2:52by dosáhl odsud na Měsíc a zpátky
-
2:52 - 2:54desetkrát
-
2:54 - 2:58- opravdový střípek našeho kulturního genomu.
-
2:58 - 3:00Samozřejmě,
-
3:00 - 3:03když jsme čelili tak nehorázné hyperbole..
-
3:03 - 3:05(smích)
-
3:05 - 3:08udělali jsme to, co by každý výzkumník
-
3:08 - 3:11s trochou sebeúcty udělal.
-
3:11 - 3:13Vzali jsme stránku z XKCD,
-
3:13 - 3:15a řekli: "Ustupte,
-
3:15 - 3:17zkusíme vědu!"
-
3:17 - 3:19(Smích)
-
3:19 - 3:21JM: No a pochopitelně jsme si
-
3:21 - 3:23říkali, že nejprve ty data zveřejníme,
-
3:23 - 3:25aby na nich lidi mohli tu vědu dělat.
-
3:25 - 3:27Takže jsme přemýšleli, jaká data můžeme zveřejnit?
-
3:27 - 3:29Pochopitelně chtěli jsme vzít obsah všech
-
3:29 - 3:31těch pěti miliónů knih a všechen zveřejnit.
-
3:31 - 3:33Na to Google, a zejména Jon Orwant,
-
3:33 - 3:35nás seznámili s jednou pěknou rovnicí.
-
3:35 - 3:38Máte pět miliónů knih. To je pět miliónů autorů
-
3:38 - 3:41a pět miliónů žalob je už pořádný proces.
-
3:41 - 3:43Takže, i když by to bylo opravdu úžasné,
-
3:43 - 3:46opět to bylo i opravdu nepraktické.
-
3:46 - 3:48(Smích)
-
3:48 - 3:50Takže jsme ustoupili
-
3:50 - 3:53a pojali velmi praktický přístup, který byl však trochu méně úžasný.
-
3:53 - 3:55Řekli jsme si, že namísto plného znění,
-
3:55 - 3:57vydáme o těchto knihách statistiky.
-
3:57 - 3:59Takže například: "Záblesk štěstí"
-
3:59 - 4:01To jsou dvě slova; říkáme tomu dvou-gram.
-
4:01 - 4:03Takže Vám můžeme říci, kolikrát se daný dvou-gram
-
4:03 - 4:05objevil v knihách v roce 1801, 2, 3
-
4:05 - 4:07až do roku 2008.
-
4:07 - 4:09To nám dá časovou řadu
-
4:09 - 4:11stopující jak často se tato věta v danné době použila.
-
4:11 - 4:14Děláme to se všemi slovy a frázemi, které se v těchto knihách
-
4:14 - 4:17objevují a to nám dá jednu velkou mapu
-
4:17 - 4:19dvou mliard řádků zrcadlící proměny kultury.
-
4:19 - 4:21ELA: Takže tyto řádky
-
4:21 - 4:23nazýváme dvě milardy n-gramů.
-
4:23 - 4:25Co nám umí říct?
-
4:25 - 4:27Jednotlivé n-gramy měří kulturní trendy.
-
4:27 - 4:29Dám Vám příklad.
-
4:29 - 4:31Řekněme, že se mám fajn a
-
4:31 - 4:33druhý den vám o tom chci říci. Mohl bych
-
4:33 - 4:36říci: "Včera mi bylo fajn."
-
4:36 - 4:39Nebo bych mohl říct: "Včera mi bylo dobře."
-
4:39 - 4:42Co bych měl říct správně?
-
4:42 - 4:44Jak se rozhodnout?
-
4:44 - 4:46Přibližně před šesti měsíci
-
4:46 - 4:48by situace v této oblasti
-
4:48 - 4:50vypada asi takto - šli byste
-
4:50 - 4:52za tímto psychologem s úžasným účesem
-
4:52 - 4:54a řekli:
-
4:54 - 4:57"Steve, ty jsi expert na nepravidelná slovesa.
-
4:57 - 4:59Co bych měl říct?"
-
4:59 - 5:01A on by Vám řekl: "No, většina lidí by řekla "fajn"
-
5:01 - 5:04ale někteří by řekli "dobře".
-
5:04 - 5:06Ale, když byste se vrátili, zhruba,
-
5:06 - 5:09200 let nazpátek, a oslovili byste dalšího
-
5:09 - 5:12odborníka s neméně úžasným účesem:
-
5:12 - 5:15(Smích)
-
5:15 - 5:17"Tome, co bych měl říci?"
-
5:17 - 5:19Řekl by: "Inu, v mé době většina lidí řekne
-
5:19 - 5:22"dobře", ale někteří i "fajn".
-
5:22 - 5:24Takže nyní Vám ukáži původní data.
-
5:24 - 5:28Tyto dvě linky vznikly také z oněch dvou
-
5:28 - 5:30miliard údajů. To, co vidíte je frekvence užití
-
5:30 - 5:33dvou podobných slov rok po roce.
-
5:34 - 5:36A toto jsou pouze
-
5:36 - 5:39dvě z dvou miliard linek.
-
5:39 - 5:41Takže všechna ta data
-
5:41 - 5:44jsou ještě mnohem úžasnější než tento slide.
-
5:44 - 5:46(Smích)
-
5:46 - 5:50(potlesk)
-
5:50 - 5:52JM: Existuje mnoho dalších obrázků, které vydají za 500 miliard slov.
-
5:52 - 5:54Například toto.
-
5:54 - 5:56Když bychom vzali třeba
-
5:56 - 5:58"chřipku", uvidíte maxima v dobách, kdy víte,
-
5:58 - 6:01že velké chřipkové epidemie zabíjely po celém světě.
-
6:01 - 6:04ELA: pokud ještě nejste přesvědčeni,
-
6:04 - 6:06hladiny moře stoupají,
-
6:06 - 6:09stejně jako obsah CO2 v atmosféře či globální teplota.
-
6:09 - 6:12JM: Možná byste také stáli o to vidět tento n-gram,
-
6:12 - 6:15který říká Nietzschemu, že Bůh není mrtvý,
-
6:15 - 6:18i když byste mohli usoudit, že by mohl užít lepšího PR agenta..
-
6:18 - 6:20(Smích)
-
6:20 - 6:23ELA: S tímto se můžete dostat k pár dosti abstraktním pojmům.
-
6:23 - 6:25Tak například, dovolte mi Vás seznámit
-
6:25 - 6:27s historií roku 1950.
-
6:27 - 6:29Po drtivou většinu celé historie
-
6:29 - 6:31o samotný rok 1950 nikdo ani nezavadil.
-
6:31 - 6:33V roce 1700, 188, ani 1900.
-
6:33 - 6:36Ani trochu.
-
6:37 - 6:39Ani v 30. nebo 40. letech
-
6:39 - 6:41nikoho nezajímal.
-
6:41 - 6:43Najednou, uprostřed 40. let
-
6:43 - 6:45to začalo vřít.
-
6:45 - 6:47Lidé si uvědomili, že přijde rok 1950 a že to
-
6:47 - 6:49může být velké.
-
6:49 - 6:52(Smích)
-
6:52 - 6:55Ale nic lidi nezajímalo na roku 1950
-
6:55 - 6:58více, než rok 1950.
-
6:58 - 7:01(Smích)
-
7:01 - 7:03Lidé byli celí bez sebe.
-
7:03 - 7:05Nemohli přestat mluvit
-
7:05 - 7:08o všem, co v tom roce dělali,
-
7:08 - 7:11co plánovali do té doby dosáhnout a jaké sny
-
7:11 - 7:16si chtěli splnit v roce 1950.
-
7:16 - 7:18Ve skutečnosti byl rok 1950
-
7:18 - 7:20tak fascinující,
-
7:20 - 7:23že i v dalších letech lidé vydrželi mluvit o tom, jak úžasné věci se staly
-
7:23 - 7:25i v roce 51, 2, 3..
-
7:25 - 7:27Až konečně
-
7:27 - 7:29v roce 1954 se lidé z ničeho nic
-
7:29 - 7:33probrali a zjistili, že rok 1950 je poněkud pasé.
-
7:33 - 7:35(Smích)
-
7:35 - 7:37A stejně tak splaskla i ta bublina.
-
7:37 - 7:39(Smích)
-
7:39 - 7:41A příběh roku 1950
-
7:41 - 7:43je příběh každého roku, který jsme zaznamenali
-
7:43 - 7:46trochu jinak, díky těmto krásným tabulkám, co máme.
-
7:46 - 7:49A protože tyto úžasné tabulky máme, můžeme věci měřit.
-
7:49 - 7:51Můžeme říct: "Takže, jak rychle ta bublina splaskla?"
-
7:51 - 7:54Ukázalo se, že to dokážeme změřit velmi přesně.
-
7:54 - 7:57Rovnice byly odvozeny, grafy vytvořeny
-
7:57 - 7:59a čistý výsledek
-
7:59 - 8:02říká, že zjistíme, jak ta bublina splaskává rychleji
-
8:02 - 8:04a rychleji každ rok.
-
8:04 - 8:09O minulost ztrácíme zájem čím dál rychleji.
-
8:09 - 8:11JM: A nyní malý kariérní tip.
-
8:11 - 8:13Pro ty z Vás, kdo se chcete stát slavnými,
-
8:13 - 8:15můžeme vzít inspiraci od 25 nejslavnějších politických
-
8:15 - 8:17osobností, autorů a herců atd.
-
8:17 - 8:20Pokud se chcete stát slavnými spíše hned, měli byste být herci,
-
8:20 - 8:22neboť tehdy zazáříte pravděpodobně před 30. rokem.
-
8:22 - 8:24Jste stále mladí, takže je to skvělé.
-
8:24 - 8:26Pokud jste ochotni si trochu počkat, měli byste být
-
8:26 - 8:28spisovatel, protože pak Vás nejvyšší pocty
-
8:28 - 8:30čekají později, jako třeba úspěch Marka Twaina.
-
8:30 - 8:32Ale pokud se chcete dostat opravdu
-
8:32 - 8:34na vrchol, měli byste odložit
-
8:34 - 8:36uspokojení ještě více a pochopitelně
-
8:36 - 8:38se stát politikem. Slavným se stanete před 60tým rokem
-
8:38 - 8:40a velmi slavným poté.
-
8:40 - 8:43Také vědci tíhnout k slávě ve výrazně starším věku.
-
8:43 - 8:45Jako například biologové a fyzici
-
8:45 - 8:47tíhnou k slávě srovnatelné s herci.
-
8:47 - 8:50Jediná chyba by byla, když byste se dali na dráhu matematika.
-
8:50 - 8:52(Smích)
-
8:52 - 8:54Pokud byste to udělali,
-
8:54 - 8:57mohli byste si říct: "Oh, skvěle. To nejlepší udělám mezi 20-30 lety.
-
8:57 - 8:59Jenže, ouha. Nikoho to nezaujme.
-
8:59 - 9:02(Smích)
-
9:02 - 9:04ELA: Mezi n-gramy najdeme ještě
-
9:04 - 9:06více varování.
-
9:06 - 9:08Například tady vidíme trajektorii Marc Chagalla,
-
9:08 - 9:10malíře narozeného 1887.
-
9:10 - 9:13Která vypadá jako běžná trajektorie slavné osobnosti.
-
9:13 - 9:17Stává se slavnějším a slavnějším všude,
-
9:17 - 9:19kromě Německa.
-
9:19 - 9:21Pokud se podíváte na Německo, zjistíte něco velmi
-
9:21 - 9:23bizardního, co se jen tak nevidí.
-
9:23 - 9:25A to je to, že se stává extrémně slavným
-
9:25 - 9:27a pak zničeho nic sláva opadne,
-
9:27 - 9:30s nejnižším bodem v letech 1933 až 1945,
-
9:30 - 9:33kdy se odrazil ode dna.
-
9:33 - 9:35A pochopitelně to, co zjistíme je,
-
9:35 - 9:38že Marc Chagall je židovský umělec
-
9:38 - 9:40v nacistickém Německu.
-
9:40 - 9:42Tyto signály jsou
-
9:42 - 9:44ve skutečnosti tak silné,
-
9:44 - 9:47že nepotřebujeme ani vědět, že tu byl někdo cenzorován.
-
9:47 - 9:49Můžeme to zjistit
-
9:49 - 9:51užitím základních metod zpracování dat.
-
9:51 - 9:53Toto je jedna jednoduchá metoda.
-
9:53 - 9:55A sice: rozumné očekávání
-
9:55 - 9:57je, že míra slávy jednoho člověka v daném čase
-
9:57 - 9:59by se měla rovnat cca průměru jeho slávy
-
9:59 - 10:01před tím a potom.
-
10:01 - 10:03Něco takového očekáváme.
-
10:03 - 10:06A srovnáváme to se slávou, kterou pozorujeme.
-
10:06 - 10:08A jen dělíme jedno druhým,
-
10:08 - 10:10abychom se dostali k tzv. indexu potlačení.
-
10:10 - 10:13Pokud je index potlačení velmi, ale velmi nízký,
-
10:13 - 10:15pak asi se jedná o nějaký útisk, cenzuru.
-
10:15 - 10:18Pokud je velmi vysoký, můze to být výsledek propagandy.
-
10:19 - 10:21JM: Nyní se můžeme podívat na
-
10:21 - 10:24několik příkladů rozdělení indexů potlačení napříč populací.
-
10:24 - 10:26Zde je například je
-
10:26 - 10:28index potlačení pro asi 5 000 lidí
-
10:28 - 10:30vybraných z anglické literatury, kde nebylo žádné známé potlačení,
-
10:30 - 10:32vypadá takto, v podstatě těsně vycentrované na jedné.
-
10:32 - 10:34To, co očekáváte je to, co vidíte.
-
10:34 - 10:36Toto je rozložení je viděno v Německu -
-
10:36 - 10:38velmi odlišné - posunuté doleva.
-
10:38 - 10:41Lidé o tom mluvili dvakrát méně, než by měli.
-
10:41 - 10:43Ale co je ještě důležitější, rozdělení je mnohem širší.
-
10:43 - 10:46Mnoho lidí se umístilo daleko vlevo na této škále a o nich
-
10:46 - 10:49se mluvilo 10 krát méně, než by se mělo.
-
10:49 - 10:51Mnoho lidí se ale také umístilo daleko
-
10:51 - 10:53v pravo, které podporovala propaganda.
-
10:53 - 10:56Tento obrázek je znak cenzury v knihách.
-
10:56 - 10:58ELA: Tuto metodu
-
10:58 - 11:00nazýváme kulturomikou.
-
11:00 - 11:02Je to trochu jako genomika.
-
11:02 - 11:04S tím rozdílem, že genomika je biologie, nahlížena
-
11:04 - 11:07skrze pohled na posloupnosti bází lidského genomu.
-
11:07 - 11:09Kulturomika je podobná.
-
11:09 - 11:12Aplikuje analyzu masivní sbírky dat
-
11:12 - 11:14ke studiu lidské kultury.
-
11:14 - 11:16Zde však namísto pohledu skrze lidský genom
-
11:16 - 11:19nahlížíme člověka skrze digitální kusy historických záznamů.
-
11:19 - 11:21Na kulturomice je skvělé to,
-
11:21 - 11:23že se jí může věnovat každý.
-
11:23 - 11:25Jak to?
-
11:25 - 11:27Je to možné díky třem chlapíkům,
-
11:27 - 11:30Jonovi Orwantovi, Mattotvi Graymu a Willovi Brockmanovi z Googlu,
-
11:30 - 11:32kteří, když viděli prototyp Ngrame Vieweru,
-
11:32 - 11:34řekli, "Tohle je fakt supr,
-
11:34 - 11:37tuhle věc musíme dostat k lidem."
-
11:37 - 11:39Takže dva týdny před tím, než jsme vydali svou studii
-
11:39 - 11:42vytvořili kódy pro verzi Ngram Vieweru, která by byla dostupná
-
11:42 - 11:45všem. Takže i vy si můžete napsat jakoukoliv frázi či slovo, které vás
-
11:45 - 11:47zajímá a vidět je okamžitě v n-gramu
-
11:47 - 11:49a také si zabrouzdat ukázkou všech možných
-
11:49 - 11:51knih, ve kterých se Váš n-gram vyskytuje.
-
11:51 - 11:53JM: Během prvního dne byly užity více než
-
11:53 - 11:55miliónkrát a to je nejlepší ze všech statistik.
-
11:55 - 11:58Takže lidé chtějí být co nejlepší a dělat to nejlepší.
-
11:58 - 12:01Ale ukazuje se, že v 18. století se o to lidé o toto nezajímali.
-
12:01 - 12:04Nechtěli být co nejlepší. Chtěli být co "nejlepčí".
-
12:04 - 12:07To, co jste viděli byla samozřejmě chyba.
-
12:07 - 12:09Není to pokus o jakousi prostřednost.
-
12:09 - 12:12Spousta slov se historicky psala s jinými písmeny. Například S jako Beta,
-
12:12 - 12:15v angličtině jako F apod. Google si to samozřejmě
-
12:15 - 12:18sám od sebe nepřeložil a tak jsme to popsali ve vědedckém
-
12:18 - 12:20článku, který jsme vydali. Ale ukázalo se,
-
12:20 - 12:22že je to připomínka, toho, že i když
-
12:22 - 12:24je to celé velká zábava, když interpretujete tyto grafy,
-
12:24 - 12:27musíte být velmi opatrní a použít to nejlepší co věda nabízí.
-
12:27 - 12:30ELA: Lidé to využívali pro mnoho rozličných zábavných účelů.
-
12:30 - 12:37(Smích)
-
12:37 - 12:39Ve skutečnosti nebudeme muset ani
-
12:39 - 12:42moc mluvit, jen Vám ukážeme zbylé slidy a můžeme mlčet.
-
12:42 - 12:45Tato osoba se zajímala o historii frustrace.
-
12:45 - 12:48Jsou různé typy frustrací.
-
12:48 - 12:51Pokud se praštíte do palce, zakřičíte "argh".
-
12:51 - 12:53Pokud planetu Zemi zničí Vogoni, aby
-
12:53 - 12:55si udělali prostor pro mezihvězdný bypass,
-
12:55 - 12:57bude to osmimístné "aaaaaaaargh."
-
12:57 - 12:59Tato osoba studovala všechny "arghy."
-
12:59 - 13:01od jednoho po osmimístné.
-
13:01 - 13:03A ukázalo se, že
-
13:03 - 13:05méně frekventovaná "argh"
-
13:05 - 13:08se pochopitelně váží k více frustrujícím situacím, s jednou zvláštní výjimkou
-
13:08 - 13:11v 80. letech.
-
13:11 - 13:13Domníváme se, že to bude mít něco společného s Reaganem.
-
13:13 - 13:15(Smích)
-
13:15 - 13:18JM: Tato data mají mnohotvárné využití,
-
13:18 - 13:21ale základ je vždy digitalizace historických záznamů.
-
13:21 - 13:23Google začal a zdigitalizoval 15 miliónů knih.
-
13:23 - 13:25To je 12 procent všech knih, které kdy byly vydané.
-
13:25 - 13:28To je slušný kousek z lidské kultury.
-
13:28 - 13:31Ale kultura má mnohem víc: manuskripty, noviny,
-
13:31 - 13:33věci, které nejsou v textech - jako umění a obrazy.
-
13:33 - 13:35Ale všechny se nalézají v nějaké podobě
-
13:35 - 13:37v našich počítačech kolem světa.
-
13:37 - 13:40A až budou všechny zdigitalizované, nastane změna
-
13:40 - 13:42v chápání naší minulosti, současnosti a kultury lidstva.
-
13:42 - 13:44Velice Vám děkuji.
-
13:44 - 13:47(potlesk)
- Title:
- Čemu jsme se naučili z 5 milionů knih
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
more » « less
Zkoušeli jste někdy Google Labs´ Ngram Viewer? Je to návykový nástroj, který Vás nechá vyhledávat slova a nápady v databázi 5 miliónů knih napříč stoletími. Erez Lieberman Aiden a Jean-Baptiste Michel nám ukazuje, jak funguje, a pár pěkných vychytávek, které můžeme z 500 biliónů slov vyčíst.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48