1 00:00:00,000 --> 00:00:02,000 Erez Lieberman Aiden: Każdy wie, 2 00:00:02,000 --> 00:00:05,000 że jeden obraz jest wart tysiąca słów. 3 00:00:07,000 --> 00:00:09,000 Ale my na Harvardzie 4 00:00:09,000 --> 00:00:12,000 zastanawialiśmy się, czy to rzeczywiście prawda. 5 00:00:12,000 --> 00:00:14,000 (Śmiech) 6 00:00:14,000 --> 00:00:18,000 Więc zebraliśmy zespół ekspertów, 7 00:00:18,000 --> 00:00:20,000 obejmujący Harvard, MIT, 8 00:00:20,000 --> 00:00:23,000 słownik American Heritage Dictionary, encyklopedię Britannica, 9 00:00:23,000 --> 00:00:25,000 a nawet naszych dumnych sponsorów - 10 00:00:25,000 --> 00:00:28,000 Google. 11 00:00:28,000 --> 00:00:30,000 I rozmyślaliśmy nad tym 12 00:00:30,000 --> 00:00:32,000 przez około czterech lat. 13 00:00:32,000 --> 00:00:37,000 I doszliśmy do zaskakującego wniosku. 14 00:00:37,000 --> 00:00:40,000 Panie i panowie, obraz nie jest wart tysiąca słów. 15 00:00:40,000 --> 00:00:42,000 W rzeczywistości dowiedzieliśmy się, że niektóre obrazy 16 00:00:42,000 --> 00:00:47,000 są warte 500 miliardów słów. 17 00:00:47,000 --> 00:00:49,000 Jean-Baptiste Michel: Więc jak doszliśmy do tego wniosku? 18 00:00:49,000 --> 00:00:51,000 Erez i ja myśleliśmy o sposobach 19 00:00:51,000 --> 00:00:53,000 uzyskania pełnego obrazu ludzkiej kultury 20 00:00:53,000 --> 00:00:56,000 i historii: zmiany na przestrzeni lat. 21 00:00:56,000 --> 00:00:58,000 Tak wiele książek zostało napisanych przez lata. 22 00:00:58,000 --> 00:01:00,000 Więc myśleliśmy, najlepszą drogą do nauczenia się z nich 23 00:01:00,000 --> 00:01:02,000 jest przeczytanie tych wszystkich milionów książek. 24 00:01:02,000 --> 00:01:05,000 Oczywiście jeśli jest skala tego, jak bardzo jest to wspaniałe, 25 00:01:05,000 --> 00:01:08,000 musi się to plasować bardzo, bardzo wysoko. 26 00:01:08,000 --> 00:01:10,000 Problem polega na tym, że jest także oś X, 27 00:01:10,000 --> 00:01:12,000 która jest osią praktyczności. 28 00:01:12,000 --> 00:01:14,000 Ta jest bardzo, bardzo niska. 29 00:01:14,000 --> 00:01:17,000 (Oklaski) 30 00:01:17,000 --> 00:01:20,000 Ludzie używają innego podejścia, 31 00:01:20,000 --> 00:01:22,000 które polega na wzięci kilku źródeł i przeczytania ich bardzo uważnie. 32 00:01:22,000 --> 00:01:24,000 To jest bardzo praktyczne, ale nie tak wspaniałe. 33 00:01:24,000 --> 00:01:27,000 Tak naprawdę chcielibyśmy 34 00:01:27,000 --> 00:01:30,000 mieścić się w jednocześnie wspaniałej i praktycznej części tej przestrzeni. 35 00:01:30,000 --> 00:01:33,000 Więc okazuje się, że była za morzem firma o nazwie Google, 36 00:01:33,000 --> 00:01:35,000 która zaczęła kilka lat temu projekt cyfryzacji, 37 00:01:35,000 --> 00:01:37,000 który może pozwolić na takie podejście. 38 00:01:37,000 --> 00:01:39,000 Zcyfryzowali miliony książek. 39 00:01:39,000 --> 00:01:42,000 Oznacza to, że można by użyć metod obliczeniowych, 40 00:01:42,000 --> 00:01:44,000 by przeczytać wszystkie te książki za jednym kliknięciem. 41 00:01:44,000 --> 00:01:47,000 To bardzo praktyczne i niezwykle wspaniałe. 42 00:01:48,000 --> 00:01:50,000 ELA: Opowiem wam trochę o tym, skąd wzięły się książki. 43 00:01:50,000 --> 00:01:53,000 Od niepamiętnych czasów byli autorzy. 44 00:01:53,000 --> 00:01:56,000 Ci autorzy pisali książki. 45 00:01:56,000 --> 00:01:58,000 A to stało się znacznie łatwiejsze 46 00:01:58,000 --> 00:02:00,000 z rozwojem prasy drukarskiej kilka wieków temu. 47 00:02:00,000 --> 00:02:03,000 Od tego czasu, autorom udało sie 48 00:02:03,000 --> 00:02:05,000 129 milionów razy 49 00:02:05,000 --> 00:02:07,000 wydać książkę. 50 00:02:07,000 --> 00:02:09,000 Jeśli te książki nie są stracone dla historii, 51 00:02:09,000 --> 00:02:11,000 wówczas są gdzieś w bibliotece, 52 00:02:11,000 --> 00:02:14,000 a wiele z tych książek zostało wyciągniętych z bibliotek 53 00:02:14,000 --> 00:02:16,000 i zcyfryzowanych przez Google, 54 00:02:16,000 --> 00:02:18,000 które do dzisiejszego dnia zeskanowało 15 milionów książek. 55 00:02:18,000 --> 00:02:21,000 Kiedy Google zmienia postać książki na cyfrową, umieszcza ją w bardzo ładnym formacie. 56 00:02:21,000 --> 00:02:23,000 Mamy teraz dane, plus mamy metadane. 57 00:02:23,000 --> 00:02:26,000 Mamy informacje o rzeczach takich jak gdzie została ona wydana, 58 00:02:26,000 --> 00:02:28,000 kim był autor, kiedy była ona wydana. 59 00:02:28,000 --> 00:02:31,000 I przechodzimy przez te wszystkie zapisy 60 00:02:31,000 --> 00:02:35,000 i wykluczamy wszystko, co nie jest danymi najwyższej jakości. 61 00:02:35,000 --> 00:02:37,000 Zostajemy ze 62 00:02:37,000 --> 00:02:40,000 zbiorem pięciu milionów książek, 63 00:02:40,000 --> 00:02:43,000 500 miliardów słów, 64 00:02:43,000 --> 00:02:45,000 ciąg znaków tysiąc razy dłuższy 65 00:02:45,000 --> 00:02:48,000 niż ludzki genom - 66 00:02:48,000 --> 00:02:50,000 tekst który, po jego zapisaniu, 67 00:02:50,000 --> 00:02:52,000 rozciągałby się stąd do księżyca i z powrotem 68 00:02:52,000 --> 00:02:54,000 10 razy - 69 00:02:54,000 --> 00:02:58,000 prawdziwy kryształ naszego genomu kulturowego. 70 00:02:58,000 --> 00:03:00,000 Oczywiście to, co zrobiliśmy 71 00:03:00,000 --> 00:03:03,000 w obliczu takiej wygórowanej hiperboli... 72 00:03:03,000 --> 00:03:05,000 (Śmiech) 73 00:03:05,000 --> 00:03:08,000 było tym, co każdy szanujący się naukowiec 74 00:03:08,000 --> 00:03:11,000 by zrobił. 75 00:03:11,000 --> 00:03:13,000 Wzięliśmy pasek komiksu o nauce XKDC 76 00:03:13,000 --> 00:03:15,000 i powiedzieliśmy, "Cofnijcie się. 77 00:03:15,000 --> 00:03:17,000 Spróbujemy nauki." 78 00:03:17,000 --> 00:03:19,000 (Śmiech) 79 00:03:19,000 --> 00:03:21,000 JM: Oczywiście myśleliśmy 80 00:03:21,000 --> 00:03:23,000 o tym, by wydobyć dane 81 00:03:23,000 --> 00:03:25,000 dla ludzi, by zrobili z nimi naukę. 82 00:03:25,000 --> 00:03:27,000 Teraz pomyśleliśmy jakie dane możemy uwolnić? 83 00:03:27,000 --> 00:03:29,000 Oczywiście chcemy wziąć książki 84 00:03:29,000 --> 00:03:31,000 i uwolnić pełny tekst tych pięciu milionów książek. 85 00:03:31,000 --> 00:03:33,000 Google i Jon Orwant w szczególności 86 00:03:33,000 --> 00:03:35,000 powiedział nam o małym równaniu, które powinniśmy zapamiętać. 87 00:03:35,000 --> 00:03:38,000 Więc mamy pięć milionów, to znaczy, pięć milionów autorów 88 00:03:38,000 --> 00:03:41,000 a pięć milionów powodów to wielki pozew. 89 00:03:41,000 --> 00:03:43,000 Więc choć byłoby to naprawdę, naprawdę wspaniałe 90 00:03:43,000 --> 00:03:46,000 znów, jest to bardzo, bardzo niepraktyczne. 91 00:03:46,000 --> 00:03:48,000 (Śmiech) 92 00:03:48,000 --> 00:03:50,000 Jakoś się poddaliśmy 93 00:03:50,000 --> 00:03:53,000 i zastosowaliśmy to bardzo praktyczne podejście, które było troszkę mniej wspaniałe. 94 00:03:53,000 --> 00:03:55,000 Powiedzieliśmy, cóż zamiast uwalniania pełnego tekstu, 95 00:03:55,000 --> 00:03:57,000 uwolnimy statystyki dotyczące książek. 96 00:03:57,000 --> 00:03:59,000 Weźmy na przykład "błysk szczęścia" 97 00:03:59,000 --> 00:04:01,000 To dwa słowa. Nazywamy to dwugramem. 98 00:04:01,000 --> 00:04:03,000 Powiemy wam jak wiele razy poszczególny czterogram 99 00:04:03,000 --> 00:04:05,000 pojawił się w książkach w 1801, 1802, 1803, 100 00:04:05,000 --> 00:04:07,000 aż do 2008. 101 00:04:07,000 --> 00:04:09,000 Daje nam to szereg czasowy 102 00:04:09,000 --> 00:04:11,000 częstotliwości pojawiania się tego konkretnego zdania w ciągu tych lat. 103 00:04:11,000 --> 00:04:14,000 Robimy to dla wszystkich słów i zwrotów, które występują w tych książkach, 104 00:04:14,000 --> 00:04:17,000 a to daje nam wielką tabelę z dwóch miliardów linijek, 105 00:04:17,000 --> 00:04:19,000 która mówi nam o sposobie, w jaki zmieniała się kultura. 106 00:04:19,000 --> 00:04:21,000 ELA: Więc te dwa miliardy wierszy, 107 00:04:21,000 --> 00:04:23,000 nazywamy jest dwoma miliardami n-gramów. 108 00:04:23,000 --> 00:04:25,000 Co nam mówią? 109 00:04:25,000 --> 00:04:27,000 Poszczególne n-gramy mierzą trendy kulturowe. 110 00:04:27,000 --> 00:04:29,000 Pozwólcie, że podam wam przykład. 111 00:04:29,000 --> 00:04:31,000 Załóżmy, że kwitnę, 112 00:04:31,000 --> 00:04:33,000 a jutro będę chciał wam powiedzieć jak dobrze mi poszło. 113 00:04:33,000 --> 00:04:36,000 Więc mogę powiedzieć "Wczoraj kwitłem." 114 00:04:36,000 --> 00:04:39,000 Względnie, mogę powiedzieć "Wczoraj kwitnąłem." 115 00:04:39,000 --> 00:04:42,000 Którego z tych zwrotów powinienem użyć? 116 00:04:42,000 --> 00:04:44,000 Skąd to wiedzieć? 117 00:04:44,000 --> 00:04:46,000 Około sześć miesięcy temu, 118 00:04:46,000 --> 00:04:48,000 praktyką w tej dziedzinie 119 00:04:48,000 --> 00:04:50,000 było, na przykład, 120 00:04:50,000 --> 00:04:52,000 pójście do tego psychologa z fantstycznymi włosami 121 00:04:52,000 --> 00:04:54,000 i powiedzenie: 122 00:04:54,000 --> 00:04:57,000 "Steve, jesteś ekspertem od czasowników nieregularnych. 123 00:04:57,000 --> 00:04:59,000 Co powinienem zrobić?" 124 00:04:59,000 --> 00:05:01,000 A on by powiedział "Cóż, większość ludzi mówi "kwitnąć", 125 00:05:01,000 --> 00:05:04,000 ale niektórzy mówią "kwiść". 126 00:05:04,000 --> 00:05:06,000 I wiadomo także było, 127 00:05:06,000 --> 00:05:09,000 że jeśli cofnąłbyś się w czasie o 200 lat 128 00:05:09,000 --> 00:05:12,000 i spytał tego męża stanu z równie fantastycznymi włosami, 129 00:05:12,000 --> 00:05:15,000 (Śmiech) 130 00:05:15,000 --> 00:05:17,000 "Tom, co powinienem zrobić?" 131 00:05:17,000 --> 00:05:19,000 Powiedziałby, "Cóż, w moich czasach, większość ludzi kwitła, 132 00:05:19,000 --> 00:05:22,000 ale niektórzy kwitnęli." 133 00:05:22,000 --> 00:05:24,000 Teraz pokażę wam surowe dane. 134 00:05:24,000 --> 00:05:28,000 Dwa wiersze z tej tabeli dwóch miliardów danych. 135 00:05:28,000 --> 00:05:30,000 Widzicie częstotliwość z roku na rok 136 00:05:30,000 --> 00:05:33,000 "kwitnęłem" i "kwitnąłem" na przestrzeni czasu. 137 00:05:34,000 --> 00:05:36,000 To tylko dwa 138 00:05:36,000 --> 00:05:39,000 z dwóch miliardów wierszy. 139 00:05:39,000 --> 00:05:41,000 Więc cały zestaw danych 140 00:05:41,000 --> 00:05:44,000 jest miliard razy wspanialszy niż tej slajd. 141 00:05:44,000 --> 00:05:46,000 (Śmiech) 142 00:05:46,000 --> 00:05:50,000 (Oklaski) 143 00:05:50,000 --> 00:05:52,000 JM:Jest wiele innych obrazków, które są warte 500 miliardów słów. 144 00:05:52,000 --> 00:05:54,000 Na przykład ten. 145 00:05:54,000 --> 00:05:56,000 Jeśli weźmiecie grypę, 146 00:05:56,000 --> 00:05:58,000 zobaczycie wzrosty w czasie, kiedy wiadomo, 147 00:05:58,000 --> 00:06:01,000 że wielkie epidemie grypy zabijały ludzi na świecie. 148 00:06:01,000 --> 00:06:04,000 ELA: Jeśli jeszcze nie jesteście przekonani, 149 00:06:04,000 --> 00:06:06,000 poziomy morza się podnoszą, 150 00:06:06,000 --> 00:06:09,000 tak samo jak poziom CO2 w atmosferze i temperatura na Ziemi. 151 00:06:09,000 --> 00:06:12,000 JM: Moglibyście także chcieć się przyjrzeć temu n-gramowi, 152 00:06:12,000 --> 00:06:15,000 żeby powiedzieć Nietzschemu, że Bóg nie umarł, 153 00:06:15,000 --> 00:06:18,000 choć moglibyście się zgodzić, że potrzebuje lepszego publicysty. 154 00:06:18,000 --> 00:06:20,000 (Śmiech) 155 00:06:20,000 --> 00:06:23,000 ELA: Można dojść do całkiem abstrakcyjnych koncepcji z takimi rzeczami. 156 00:06:23,000 --> 00:06:25,000 Na przykład, opowiem wam historię 157 00:06:25,000 --> 00:06:27,000 roku 1950. 158 00:06:27,000 --> 00:06:29,000 Przez większość historii, 159 00:06:29,000 --> 00:06:31,000 nikogo nie obchodził 1950. 160 00:06:31,000 --> 00:06:33,000 W 1700, 1800, w 1900, 161 00:06:33,000 --> 00:06:36,000 nikt się nie przejmował. 162 00:06:37,000 --> 00:06:39,000 W latach 30-tych i 40-tych, 163 00:06:39,000 --> 00:06:41,000 nikt się nie przejmował. 164 00:06:41,000 --> 00:06:43,000 Nagle, w połowie lat 40-tych 165 00:06:43,000 --> 00:06:45,000 zrobił się wokół tego szum. 166 00:06:45,000 --> 00:06:47,000 Ludzie zdali sobie sprawę, że 1950 nadejdzie 167 00:06:47,000 --> 00:06:49,000 i może być czymś wielkim. 168 00:06:49,000 --> 00:06:52,000 (Śmiech) 169 00:06:52,000 --> 00:06:55,000 Ale nic nie interesowało ludzi w 1950 tak, 170 00:06:55,000 --> 00:06:58,000 jak rok 1950. 171 00:06:58,000 --> 00:07:01,000 (Śmiech) 172 00:07:01,000 --> 00:07:03,000 Ludzie chodzili jak opętami. 173 00:07:03,000 --> 00:07:05,000 Nie mogli przestać opowiadać 174 00:07:05,000 --> 00:07:08,000 o wszystkich rzeczach, które robili w 1950, 175 00:07:08,000 --> 00:07:11,000 wszystkich rzeczach, które planowali zrobić w 1950, 176 00:07:11,000 --> 00:07:16,000 wszystkich marzeniach o tym, co chcieli osiągnąć w 1950. 177 00:07:16,000 --> 00:07:18,000 W rzeczywistości 1950 był tak fascynujący, 178 00:07:18,000 --> 00:07:20,000 że przez dwa lata po nim, 179 00:07:20,000 --> 00:07:23,000 ludzie po prostu wciąż opowiadali o niezwykłych rzeczach, które się wydarzyły, 180 00:07:23,000 --> 00:07:25,000 w '51, '52, '53. 181 00:07:25,000 --> 00:07:27,000 Wreszcie w 1954 182 00:07:27,000 --> 00:07:29,000 ktoś się ocknął i zdał sobie sprawę, 183 00:07:29,000 --> 00:07:33,000 że 1950 jest cokolwiek passe. 184 00:07:33,000 --> 00:07:35,000 (Śmiech) 185 00:07:35,000 --> 00:07:37,000 I tak pękła bańka. 186 00:07:37,000 --> 00:07:39,000 (Śmiech) 187 00:07:39,000 --> 00:07:41,000 I historia 1950 188 00:07:41,000 --> 00:07:43,000 jest historią każdego roku, który mamy w zapisach, 189 00:07:43,000 --> 00:07:46,000 z pewnym urozmaiceniem, ponieważ mamy te ładne wykresy. 190 00:07:46,000 --> 00:07:49,000 A ponieważ mamy te ładne wykresy, możemy mierzyć różne rzeczy. 191 00:07:49,000 --> 00:07:51,000 Możemy powiedzieć "Jak szybko pęka bańka?" 192 00:07:51,000 --> 00:07:54,000 I okazuje się, że możemy to zmierzyć bardzo dokładnie. 193 00:07:54,000 --> 00:07:57,000 Stworzony równania, narysowano wykresy 194 00:07:57,000 --> 00:07:59,000 i wynik sieciowy jest taki, 195 00:07:59,000 --> 00:08:02,000 że bańka pęka szybko i szybciej 196 00:08:02,000 --> 00:08:04,000 z każdym mijającym rokiem. 197 00:08:04,000 --> 00:08:09,000 Tracimy zainteresowanie przeszłością coraz szybciej. 198 00:08:09,000 --> 00:08:11,000 JM: Teraz drobna rada dotycząca kariery. 199 00:08:11,000 --> 00:08:13,000 Dla tych z was, którzy chcą zostać sławni, 200 00:08:13,000 --> 00:08:15,000 możemy się uczyć od 25 najsławniejszych polityków, 201 00:08:15,000 --> 00:08:17,000 autorów, aktorów itd. 202 00:08:17,000 --> 00:08:20,000 Więc jeśli chcesz zostać sławny wcześnie, powinieneś być aktorem, 203 00:08:20,000 --> 00:08:22,000 ponieważ wówczas sława zaczyna rosnąć do końca trzeciej dekady życia - 204 00:08:22,000 --> 00:08:24,000 wciąż jesteś młody, to naprawdę wspaniałe. 205 00:08:24,000 --> 00:08:26,000 Teraz jeśli możesz trochę poczekać, powinieneś być autorem, 206 00:08:26,000 --> 00:08:28,000 ponieważ wówczas wzrasta się do prawdziwej wielkości, 207 00:08:28,000 --> 00:08:30,000 jak na przykład Mark Twain: bardzo sławny. 208 00:08:30,000 --> 00:08:32,000 Ale jeśli chcesz osiągnąć sam szczyt, 209 00:08:32,000 --> 00:08:34,000 powinieneś opóźnić gratyfikację 210 00:08:34,000 --> 00:08:36,000 i, oczywiście, zostać politykiem. 211 00:08:36,000 --> 00:08:38,000 Tak zostaniecie sławni do końca szóstej dekady życia, 212 00:08:38,000 --> 00:08:40,000 i zostaniecie bardzo, bardzo sławni potem. 213 00:08:40,000 --> 00:08:43,000 Naukowcy także stają się sławni, jeśli są znacznie starsi. 214 00:08:43,000 --> 00:08:45,000 Jak na przykład, biolodzy i fizycy 215 00:08:45,000 --> 00:08:47,000 są tak sławni jak aktorzy. 216 00:08:47,000 --> 00:08:50,000 Jedynym błędem, którego nie należy robić jest zostanie matematykiem. 217 00:08:50,000 --> 00:08:52,000 (Śmiech 218 00:08:52,000 --> 00:08:54,000 Jeśli to zrobisz, 219 00:08:54,000 --> 00:08:57,000 możesz myśleć: "Wspaniale, wykonam swoje najwspanialsze dzieła w wieku lat dwudziestu kilku". 220 00:08:57,000 --> 00:08:59,000 Ale wiecie co, nikogo to nie będzie obchodzić. 221 00:08:59,000 --> 00:09:02,000 (Śmiech) 222 00:09:02,000 --> 00:09:04,000 ELA: Są bardziej otrzeźwiające informacje 223 00:09:04,000 --> 00:09:06,000 w n-gramach. 224 00:09:06,000 --> 00:09:08,000 Na przykład, to trajektoria Marca Chagalla, 225 00:09:08,000 --> 00:09:10,000 artysty urodzonego w 1887. 226 00:09:10,000 --> 00:09:13,000 Wygląda to jak normalna trajektoria dla sławnej osoby. 227 00:09:13,000 --> 00:09:17,000 Staje się bardziej i bardziej i bardziej sławny, 228 00:09:17,000 --> 00:09:19,000 z 229 00:09:19,000 --> 00:09:21,000 Jeśli sprawdzicie w Niemczech, zobaczycie coś dziwacznego, 230 00:09:21,000 --> 00:09:23,000 coś, czego nigdy się nie obserwuje, 231 00:09:23,000 --> 00:09:25,000 staje się ona bardzo sławny, 232 00:09:25,000 --> 00:09:27,000 a potem to zainteresowanie nagle spada, 233 00:09:27,000 --> 00:09:30,000 przeżywając kryzys między 1933 i 1945, 234 00:09:30,000 --> 00:09:33,000 by się potem znów odbić. 235 00:09:33,000 --> 00:09:35,000 I oczywiście, to, co widzimy, 236 00:09:35,000 --> 00:09:38,000 to fakt, że Marc Chagall był Żydowskim artystą 237 00:09:38,000 --> 00:09:40,000 w nazistowskich Niemczech. 238 00:09:40,000 --> 00:09:42,000 Te sygnały 239 00:09:42,000 --> 00:09:44,000 są tak silne, 240 00:09:44,000 --> 00:09:47,000 że nie musimy wiedzieć, że ktoś był ocenzurowany. 241 00:09:47,000 --> 00:09:49,000 Możemy to wywnioskować 242 00:09:49,000 --> 00:09:51,000 używając naprawdę podstawowego przetwarzania sygnałów. 243 00:09:51,000 --> 00:09:53,000 To prosty sposób. 244 00:09:53,000 --> 00:09:55,000 Racjonalnym oczekiwaniem 245 00:09:55,000 --> 00:09:57,000 jest to, że czyjaś sława w określonym okresie czasu 246 00:09:57,000 --> 00:09:59,000 powinna być średnią jego sławy przed 247 00:09:59,000 --> 00:10:01,000 i po. 248 00:10:01,000 --> 00:10:03,000 Tego oczekujemy. 249 00:10:03,000 --> 00:10:06,000 I porównujemy to z obserwowaną sławą. 250 00:10:06,000 --> 00:10:08,000 Po prostu dzielimy jedno przez drugie 251 00:10:08,000 --> 00:10:10,000 by uzyskać coś, co nazywamy wskaźnikiem tłumienia. 252 00:10:10,000 --> 00:10:13,000 Jeśli wskaźnik tłumienia jest bardzo, bardzo, bardzo mału, 253 00:10:13,000 --> 00:10:15,000 wówczas możesz być rzeczywiście tłumiony. 254 00:10:15,000 --> 00:10:18,000 Jeśli jest bardzo wielki, może korzystasz na propagandzie. 255 00:10:19,000 --> 00:10:21,000 JM: Można spojrzeć 256 00:10:21,000 --> 00:10:24,000 na rozkład wskaźników tłumienia całej populacji. 257 00:10:24,000 --> 00:10:26,000 Więc na przykład tutaj - 258 00:10:26,000 --> 00:10:28,000 wskaźnik tłumienia dla 5 000 osób 259 00:10:28,000 --> 00:10:30,000 wybranych z angielskich książek, gdzie nie ma tłumienia, o którym byśmy wiedzieli - 260 00:10:30,000 --> 00:10:32,000 będzie to wyglądało tak, ściśle upakowane koło jedynki. 261 00:10:32,000 --> 00:10:34,000 Obserwujemy to, czego byśmy oczekiwali. 262 00:10:34,000 --> 00:10:36,000 To rozkład w Niemczech - 263 00:10:36,000 --> 00:10:38,000 bardzo odmienny, przesunięty w lewo. 264 00:10:38,000 --> 00:10:41,000 Ludzie mówili o tym dwa razy mniej niż powinni. 265 00:10:41,000 --> 00:10:43,000 Ale co znacznie ważniejsze, rozkład jest znacznie szerszy. 266 00:10:43,000 --> 00:10:46,000 Jest wielu ludzi, którzy są skrajnie z lewej w tym rozkładzie, 267 00:10:46,000 --> 00:10:49,000 mówi się o nich około 10 razy rzadziej niż się powinno. 268 00:10:49,000 --> 00:10:51,000 Ale także jest wielu ludzi po prawej, 269 00:10:51,000 --> 00:10:53,000 którzy korzystają na propagandzie. 270 00:10:53,000 --> 00:10:56,000 Ten obrazek jest oznaką cenzury w książkach. 271 00:10:56,000 --> 00:10:58,000 ELA: Nazywamy tą metodę 272 00:10:58,000 --> 00:11:00,000 kulturomiką. 273 00:11:00,000 --> 00:11:02,000 To coś jak genomika. 274 00:11:02,000 --> 00:11:04,000 Poza tym, że genomika patrzy na biologię 275 00:11:04,000 --> 00:11:07,000 przez okno sekwencji zasad w ludzkim genomie. 276 00:11:07,000 --> 00:11:09,000 Kulturomika jest podobna. 277 00:11:09,000 --> 00:11:12,000 To zastosowanie analizy zbieranych danych na wielką skalę 278 00:11:12,000 --> 00:11:14,000 do badania ludzkiej kultury. 279 00:11:14,000 --> 00:11:16,000 Tutaj, zamiast przez genom, 280 00:11:16,000 --> 00:11:19,000 dokonuje się to przez zcyfryzowane dane historyczne. 281 00:11:19,000 --> 00:11:21,000 Wielką rzeczą w kulturomice 282 00:11:21,000 --> 00:11:23,000 jest to, że każdy może to robić. 283 00:11:23,000 --> 00:11:25,000 Dlaczego każdy może to robić? 284 00:11:25,000 --> 00:11:27,000 Każdy może ponieważ trzech gości, 285 00:11:27,000 --> 00:11:30,000 Jon Orwant, Matt Gray i Will Brockman z Google 286 00:11:30,000 --> 00:11:32,000 zobaczyli prototyp Ngram Viewera 287 00:11:32,000 --> 00:11:34,000 i powiedziało: "To jest taka frajda. 288 00:11:34,000 --> 00:11:37,000 Musimy to udostępnić ludziom." 289 00:11:37,000 --> 00:11:39,000 Więc przez dwa tygodnie - dwa tygodnie przed publikacją naszego artykułu - 290 00:11:39,000 --> 00:11:42,000 napisali kod wersji Ngram Viewera dla szerokiej publiczności. 291 00:11:42,000 --> 00:11:45,000 Więc wy także możecie wpisać każde słowo lub zwrot, który was interesuje 292 00:11:45,000 --> 00:11:47,000 i zobaczyć od razu jego n-gram - 293 00:11:47,000 --> 00:11:49,000 a także wyszukać przykłady różnych książek, 294 00:11:49,000 --> 00:11:51,000 w których pojawia się wasz n-gram. 295 00:11:51,000 --> 00:11:53,000 JM: Użyto tego przeszło milion razy w pierwszym dniu, 296 00:11:53,000 --> 00:11:55,000 a to jest najlepsze ze wszystkich wyszukiwań. 297 00:11:55,000 --> 00:11:58,000 Więc ludzie chcą się pokazać z najlepszej strony. 298 00:11:58,000 --> 00:12:01,000 Ale okazuje się, że w XVIII wieku ludzi to naprawdę nie obchodziło. 299 00:12:01,000 --> 00:12:04,000 Nie chcieli być najlepsi (best), a "beft". 300 00:12:04,000 --> 00:12:07,000 Oczywiście jest to pomyłka. 301 00:12:07,000 --> 00:12:09,000 To nie walka o przecietność, 302 00:12:09,000 --> 00:12:12,000 a fakt, że "s" pisano inaczej, raczej jak "f". 303 00:12:12,000 --> 00:12:15,000 Oczywiście Google nie wychwycił tego wówczas, 304 00:12:15,000 --> 00:12:18,000 więc zgłosiliśmy to w artykule naukowym, który napisaliśmy. 305 00:12:18,000 --> 00:12:20,000 Ale okazuje się to tylko przypomnieniem, 306 00:12:20,000 --> 00:12:22,000 że choć to wiele zabawy, 307 00:12:22,000 --> 00:12:24,000 kiedy interpretuje się te wykresy, trzeba być bardzo ostrożnym 308 00:12:24,000 --> 00:12:27,000 i przyjąć te podstawowe standardy naukowe. 309 00:12:27,000 --> 00:12:30,000 ELA: Ludzie używali tego do zabawy na różne sposoby. 310 00:12:30,000 --> 00:12:37,000 (Śmiech) 311 00:12:37,000 --> 00:12:39,000 Nie będziemy mówili, 312 00:12:39,000 --> 00:12:42,000 po prostu pokażemy wam te slajdy i będziemy cicho. 313 00:12:42,000 --> 00:12:45,000 Ta osoba była zainteresowana historią frustracji. 314 00:12:45,000 --> 00:12:48,000 To różne rodzaje frustracji. 315 00:12:48,000 --> 00:12:51,000 Jeśli uderzysz się w palec, to jedno "a" w "argh" 316 00:12:51,000 --> 00:12:53,000 Jeśli Ziemia jest anihilowana przez Vogonów, 317 00:12:53,000 --> 00:12:55,000 by zrobić miejsce na międzygwiezdny tunel, 318 00:12:55,000 --> 00:12:57,000 jest to "aaaaaaaargh" przez 8 "a". 319 00:12:57,000 --> 00:12:59,000 Ta osoba zbadała wszystkie "argh" 320 00:12:59,000 --> 00:13:01,000 przez od 1 do 8 "a". 321 00:13:01,000 --> 00:13:03,000 I okazuje się, 322 00:13:03,000 --> 00:13:05,000 że rzadsze "argh" 323 00:13:05,000 --> 00:13:08,000 są, oczywiście, tymi, które odpowiadają bardziej frustrującym rzeczom - 324 00:13:08,000 --> 00:13:11,000 poza, co dziwne, we wczesnych latach 80-tych. 325 00:13:11,000 --> 00:13:13,000 Myślimy, że to może mieć coś wspólnego z Reaganem. 326 00:13:13,000 --> 00:13:15,000 (Śmiech) 327 00:13:15,000 --> 00:13:18,000 JM: Jest wiele zastosowań dla tych danych, 328 00:13:18,000 --> 00:13:21,000 ale puenta jest taka, że dane historyczne są cyfryzowane. 329 00:13:21,000 --> 00:13:23,000 Google zaczęła cyfryzować 15 milionów książek. 330 00:13:23,000 --> 00:13:25,000 To 12% wszystkich książek, które kiedykolwiek zostały wydane. 331 00:13:25,000 --> 00:13:28,000 To pokaźny kawał ludzkiej kultury. 332 00:13:28,000 --> 00:13:31,000 Jest znacznie więcej aspektów: manuskrypty, gazety, 333 00:13:31,000 --> 00:13:33,000 rzeczy, które nie są tekstem, jak sztuka i malarstwo. 334 00:13:33,000 --> 00:13:35,000 Wszystkie są w naszych komputerach, 335 00:13:35,000 --> 00:13:37,000 na całym świecie. 336 00:13:37,000 --> 00:13:40,000 A kiedy to się stanie, odmieni to sposób, w jaki 337 00:13:40,000 --> 00:13:42,000 będziemy rozumieli naszą przeszłość, teraźniejszość, ludzką kulturę. 338 00:13:42,000 --> 00:13:44,000 Dziękujemy bardzo. 339 00:13:44,000 --> 00:13:47,000 (Oklaski)