WEBVTT 00:00:00.000 --> 00:00:02.000 Erez Lieberman Aiden: Każdy wie, 00:00:02.000 --> 00:00:05.000 że jeden obraz jest wart tysiąca słów. 00:00:07.000 --> 00:00:09.000 Ale my na Harvardzie 00:00:09.000 --> 00:00:12.000 zastanawialiśmy się, czy to rzeczywiście prawda. 00:00:12.000 --> 00:00:14.000 (Śmiech) 00:00:14.000 --> 00:00:18.000 Więc zebraliśmy zespół ekspertów, 00:00:18.000 --> 00:00:20.000 obejmujący Harvard, MIT, 00:00:20.000 --> 00:00:23.000 słownik American Heritage Dictionary, encyklopedię Britannica, 00:00:23.000 --> 00:00:25.000 a nawet naszych dumnych sponsorów - 00:00:25.000 --> 00:00:28.000 Google. 00:00:28.000 --> 00:00:30.000 I rozmyślaliśmy nad tym 00:00:30.000 --> 00:00:32.000 przez około czterech lat. 00:00:32.000 --> 00:00:37.000 I doszliśmy do zaskakującego wniosku. 00:00:37.000 --> 00:00:40.000 Panie i panowie, obraz nie jest wart tysiąca słów. 00:00:40.000 --> 00:00:42.000 W rzeczywistości dowiedzieliśmy się, że niektóre obrazy 00:00:42.000 --> 00:00:47.000 są warte 500 miliardów słów. NOTE Paragraph 00:00:47.000 --> 00:00:49.000 Jean-Baptiste Michel: Więc jak doszliśmy do tego wniosku? 00:00:49.000 --> 00:00:51.000 Erez i ja myśleliśmy o sposobach 00:00:51.000 --> 00:00:53.000 uzyskania pełnego obrazu ludzkiej kultury 00:00:53.000 --> 00:00:56.000 i historii: zmiany na przestrzeni lat. 00:00:56.000 --> 00:00:58.000 Tak wiele książek zostało napisanych przez lata. 00:00:58.000 --> 00:01:00.000 Więc myśleliśmy, najlepszą drogą do nauczenia się z nich 00:01:00.000 --> 00:01:02.000 jest przeczytanie tych wszystkich milionów książek. 00:01:02.000 --> 00:01:05.000 Oczywiście jeśli jest skala tego, jak bardzo jest to wspaniałe, 00:01:05.000 --> 00:01:08.000 musi się to plasować bardzo, bardzo wysoko. 00:01:08.000 --> 00:01:10.000 Problem polega na tym, że jest także oś X, 00:01:10.000 --> 00:01:12.000 która jest osią praktyczności. 00:01:12.000 --> 00:01:14.000 Ta jest bardzo, bardzo niska. NOTE Paragraph 00:01:14.000 --> 00:01:17.000 (Oklaski) NOTE Paragraph 00:01:17.000 --> 00:01:20.000 Ludzie używają innego podejścia, 00:01:20.000 --> 00:01:22.000 które polega na wzięci kilku źródeł i przeczytania ich bardzo uważnie. 00:01:22.000 --> 00:01:24.000 To jest bardzo praktyczne, ale nie tak wspaniałe. 00:01:24.000 --> 00:01:27.000 Tak naprawdę chcielibyśmy 00:01:27.000 --> 00:01:30.000 mieścić się w jednocześnie wspaniałej i praktycznej części tej przestrzeni. 00:01:30.000 --> 00:01:33.000 Więc okazuje się, że była za morzem firma o nazwie Google, 00:01:33.000 --> 00:01:35.000 która zaczęła kilka lat temu projekt cyfryzacji, 00:01:35.000 --> 00:01:37.000 który może pozwolić na takie podejście. 00:01:37.000 --> 00:01:39.000 Zcyfryzowali miliony książek. 00:01:39.000 --> 00:01:42.000 Oznacza to, że można by użyć metod obliczeniowych, 00:01:42.000 --> 00:01:44.000 by przeczytać wszystkie te książki za jednym kliknięciem. 00:01:44.000 --> 00:01:47.000 To bardzo praktyczne i niezwykle wspaniałe. NOTE Paragraph 00:01:48.000 --> 00:01:50.000 ELA: Opowiem wam trochę o tym, skąd wzięły się książki. 00:01:50.000 --> 00:01:53.000 Od niepamiętnych czasów byli autorzy. 00:01:53.000 --> 00:01:56.000 Ci autorzy pisali książki. 00:01:56.000 --> 00:01:58.000 A to stało się znacznie łatwiejsze 00:01:58.000 --> 00:02:00.000 z rozwojem prasy drukarskiej kilka wieków temu. 00:02:00.000 --> 00:02:03.000 Od tego czasu, autorom udało sie 00:02:03.000 --> 00:02:05.000 129 milionów razy 00:02:05.000 --> 00:02:07.000 wydać książkę. 00:02:07.000 --> 00:02:09.000 Jeśli te książki nie są stracone dla historii, 00:02:09.000 --> 00:02:11.000 wówczas są gdzieś w bibliotece, 00:02:11.000 --> 00:02:14.000 a wiele z tych książek zostało wyciągniętych z bibliotek 00:02:14.000 --> 00:02:16.000 i zcyfryzowanych przez Google, 00:02:16.000 --> 00:02:18.000 które do dzisiejszego dnia zeskanowało 15 milionów książek. NOTE Paragraph 00:02:18.000 --> 00:02:21.000 Kiedy Google zmienia postać książki na cyfrową, umieszcza ją w bardzo ładnym formacie. 00:02:21.000 --> 00:02:23.000 Mamy teraz dane, plus mamy metadane. 00:02:23.000 --> 00:02:26.000 Mamy informacje o rzeczach takich jak gdzie została ona wydana, 00:02:26.000 --> 00:02:28.000 kim był autor, kiedy była ona wydana. 00:02:28.000 --> 00:02:31.000 I przechodzimy przez te wszystkie zapisy 00:02:31.000 --> 00:02:35.000 i wykluczamy wszystko, co nie jest danymi najwyższej jakości. 00:02:35.000 --> 00:02:37.000 Zostajemy ze 00:02:37.000 --> 00:02:40.000 zbiorem pięciu milionów książek, 00:02:40.000 --> 00:02:43.000 500 miliardów słów, 00:02:43.000 --> 00:02:45.000 ciąg znaków tysiąc razy dłuższy 00:02:45.000 --> 00:02:48.000 niż ludzki genom - 00:02:48.000 --> 00:02:50.000 tekst który, po jego zapisaniu, 00:02:50.000 --> 00:02:52.000 rozciągałby się stąd do księżyca i z powrotem 00:02:52.000 --> 00:02:54.000 10 razy - 00:02:54.000 --> 00:02:58.000 prawdziwy kryształ naszego genomu kulturowego. 00:02:58.000 --> 00:03:00.000 Oczywiście to, co zrobiliśmy 00:03:00.000 --> 00:03:03.000 w obliczu takiej wygórowanej hiperboli... 00:03:03.000 --> 00:03:05.000 (Śmiech) 00:03:05.000 --> 00:03:08.000 było tym, co każdy szanujący się naukowiec 00:03:08.000 --> 00:03:11.000 by zrobił. 00:03:11.000 --> 00:03:13.000 Wzięliśmy pasek komiksu o nauce XKDC 00:03:13.000 --> 00:03:15.000 i powiedzieliśmy, "Cofnijcie się. 00:03:15.000 --> 00:03:17.000 Spróbujemy nauki." NOTE Paragraph 00:03:17.000 --> 00:03:19.000 (Śmiech) NOTE Paragraph 00:03:19.000 --> 00:03:21.000 JM: Oczywiście myśleliśmy 00:03:21.000 --> 00:03:23.000 o tym, by wydobyć dane 00:03:23.000 --> 00:03:25.000 dla ludzi, by zrobili z nimi naukę. 00:03:25.000 --> 00:03:27.000 Teraz pomyśleliśmy jakie dane możemy uwolnić? 00:03:27.000 --> 00:03:29.000 Oczywiście chcemy wziąć książki 00:03:29.000 --> 00:03:31.000 i uwolnić pełny tekst tych pięciu milionów książek. 00:03:31.000 --> 00:03:33.000 Google i Jon Orwant w szczególności 00:03:33.000 --> 00:03:35.000 powiedział nam o małym równaniu, które powinniśmy zapamiętać. 00:03:35.000 --> 00:03:38.000 Więc mamy pięć milionów, to znaczy, pięć milionów autorów 00:03:38.000 --> 00:03:41.000 a pięć milionów powodów to wielki pozew. 00:03:41.000 --> 00:03:43.000 Więc choć byłoby to naprawdę, naprawdę wspaniałe 00:03:43.000 --> 00:03:46.000 znów, jest to bardzo, bardzo niepraktyczne. 00:03:46.000 --> 00:03:48.000 (Śmiech) NOTE Paragraph 00:03:48.000 --> 00:03:50.000 Jakoś się poddaliśmy 00:03:50.000 --> 00:03:53.000 i zastosowaliśmy to bardzo praktyczne podejście, które było troszkę mniej wspaniałe. 00:03:53.000 --> 00:03:55.000 Powiedzieliśmy, cóż zamiast uwalniania pełnego tekstu, 00:03:55.000 --> 00:03:57.000 uwolnimy statystyki dotyczące książek. 00:03:57.000 --> 00:03:59.000 Weźmy na przykład "błysk szczęścia" 00:03:59.000 --> 00:04:01.000 To dwa słowa. Nazywamy to dwugramem. 00:04:01.000 --> 00:04:03.000 Powiemy wam jak wiele razy poszczególny czterogram 00:04:03.000 --> 00:04:05.000 pojawił się w książkach w 1801, 1802, 1803, 00:04:05.000 --> 00:04:07.000 aż do 2008. 00:04:07.000 --> 00:04:09.000 Daje nam to szereg czasowy 00:04:09.000 --> 00:04:11.000 częstotliwości pojawiania się tego konkretnego zdania w ciągu tych lat. 00:04:11.000 --> 00:04:14.000 Robimy to dla wszystkich słów i zwrotów, które występują w tych książkach, 00:04:14.000 --> 00:04:17.000 a to daje nam wielką tabelę z dwóch miliardów linijek, 00:04:17.000 --> 00:04:19.000 która mówi nam o sposobie, w jaki zmieniała się kultura. NOTE Paragraph 00:04:19.000 --> 00:04:21.000 ELA: Więc te dwa miliardy wierszy, 00:04:21.000 --> 00:04:23.000 nazywamy jest dwoma miliardami n-gramów. 00:04:23.000 --> 00:04:25.000 Co nam mówią? 00:04:25.000 --> 00:04:27.000 Poszczególne n-gramy mierzą trendy kulturowe. 00:04:27.000 --> 00:04:29.000 Pozwólcie, że podam wam przykład. 00:04:29.000 --> 00:04:31.000 Załóżmy, że kwitnę, 00:04:31.000 --> 00:04:33.000 a jutro będę chciał wam powiedzieć jak dobrze mi poszło. 00:04:33.000 --> 00:04:36.000 Więc mogę powiedzieć "Wczoraj kwitłem." 00:04:36.000 --> 00:04:39.000 Względnie, mogę powiedzieć "Wczoraj kwitnąłem." 00:04:39.000 --> 00:04:42.000 Którego z tych zwrotów powinienem użyć? 00:04:42.000 --> 00:04:44.000 Skąd to wiedzieć? NOTE Paragraph 00:04:44.000 --> 00:04:46.000 Około sześć miesięcy temu, 00:04:46.000 --> 00:04:48.000 praktyką w tej dziedzinie 00:04:48.000 --> 00:04:50.000 było, na przykład, 00:04:50.000 --> 00:04:52.000 pójście do tego psychologa z fantstycznymi włosami 00:04:52.000 --> 00:04:54.000 i powiedzenie: 00:04:54.000 --> 00:04:57.000 "Steve, jesteś ekspertem od czasowników nieregularnych. 00:04:57.000 --> 00:04:59.000 Co powinienem zrobić?" 00:04:59.000 --> 00:05:01.000 A on by powiedział "Cóż, większość ludzi mówi "kwitnąć", 00:05:01.000 --> 00:05:04.000 ale niektórzy mówią "kwiść". 00:05:04.000 --> 00:05:06.000 I wiadomo także było, 00:05:06.000 --> 00:05:09.000 że jeśli cofnąłbyś się w czasie o 200 lat 00:05:09.000 --> 00:05:12.000 i spytał tego męża stanu z równie fantastycznymi włosami, 00:05:12.000 --> 00:05:15.000 (Śmiech) 00:05:15.000 --> 00:05:17.000 "Tom, co powinienem zrobić?" 00:05:17.000 --> 00:05:19.000 Powiedziałby, "Cóż, w moich czasach, większość ludzi kwitła, 00:05:19.000 --> 00:05:22.000 ale niektórzy kwitnęli." 00:05:22.000 --> 00:05:24.000 Teraz pokażę wam surowe dane. 00:05:24.000 --> 00:05:28.000 Dwa wiersze z tej tabeli dwóch miliardów danych. 00:05:28.000 --> 00:05:30.000 Widzicie częstotliwość z roku na rok 00:05:30.000 --> 00:05:33.000 "kwitnęłem" i "kwitnąłem" na przestrzeni czasu. 00:05:34.000 --> 00:05:36.000 To tylko dwa 00:05:36.000 --> 00:05:39.000 z dwóch miliardów wierszy. 00:05:39.000 --> 00:05:41.000 Więc cały zestaw danych 00:05:41.000 --> 00:05:44.000 jest miliard razy wspanialszy niż tej slajd. NOTE Paragraph 00:05:44.000 --> 00:05:46.000 (Śmiech) NOTE Paragraph 00:05:46.000 --> 00:05:50.000 (Oklaski) NOTE Paragraph 00:05:50.000 --> 00:05:52.000 JM:Jest wiele innych obrazków, które są warte 500 miliardów słów. 00:05:52.000 --> 00:05:54.000 Na przykład ten. 00:05:54.000 --> 00:05:56.000 Jeśli weźmiecie grypę, 00:05:56.000 --> 00:05:58.000 zobaczycie wzrosty w czasie, kiedy wiadomo, 00:05:58.000 --> 00:06:01.000 że wielkie epidemie grypy zabijały ludzi na świecie. NOTE Paragraph 00:06:01.000 --> 00:06:04.000 ELA: Jeśli jeszcze nie jesteście przekonani, 00:06:04.000 --> 00:06:06.000 poziomy morza się podnoszą, 00:06:06.000 --> 00:06:09.000 tak samo jak poziom CO2 w atmosferze i temperatura na Ziemi. NOTE Paragraph 00:06:09.000 --> 00:06:12.000 JM: Moglibyście także chcieć się przyjrzeć temu n-gramowi, 00:06:12.000 --> 00:06:15.000 żeby powiedzieć Nietzschemu, że Bóg nie umarł, 00:06:15.000 --> 00:06:18.000 choć moglibyście się zgodzić, że potrzebuje lepszego publicysty. NOTE Paragraph 00:06:18.000 --> 00:06:20.000 (Śmiech) NOTE Paragraph 00:06:20.000 --> 00:06:23.000 ELA: Można dojść do całkiem abstrakcyjnych koncepcji z takimi rzeczami. 00:06:23.000 --> 00:06:25.000 Na przykład, opowiem wam historię 00:06:25.000 --> 00:06:27.000 roku 1950. 00:06:27.000 --> 00:06:29.000 Przez większość historii, 00:06:29.000 --> 00:06:31.000 nikogo nie obchodził 1950. 00:06:31.000 --> 00:06:33.000 W 1700, 1800, w 1900, 00:06:33.000 --> 00:06:36.000 nikt się nie przejmował. 00:06:37.000 --> 00:06:39.000 W latach 30-tych i 40-tych, 00:06:39.000 --> 00:06:41.000 nikt się nie przejmował. 00:06:41.000 --> 00:06:43.000 Nagle, w połowie lat 40-tych 00:06:43.000 --> 00:06:45.000 zrobił się wokół tego szum. 00:06:45.000 --> 00:06:47.000 Ludzie zdali sobie sprawę, że 1950 nadejdzie 00:06:47.000 --> 00:06:49.000 i może być czymś wielkim. 00:06:49.000 --> 00:06:52.000 (Śmiech) 00:06:52.000 --> 00:06:55.000 Ale nic nie interesowało ludzi w 1950 tak, 00:06:55.000 --> 00:06:58.000 jak rok 1950. 00:06:58.000 --> 00:07:01.000 (Śmiech) 00:07:01.000 --> 00:07:03.000 Ludzie chodzili jak opętami. 00:07:03.000 --> 00:07:05.000 Nie mogli przestać opowiadać 00:07:05.000 --> 00:07:08.000 o wszystkich rzeczach, które robili w 1950, 00:07:08.000 --> 00:07:11.000 wszystkich rzeczach, które planowali zrobić w 1950, 00:07:11.000 --> 00:07:16.000 wszystkich marzeniach o tym, co chcieli osiągnąć w 1950. 00:07:16.000 --> 00:07:18.000 W rzeczywistości 1950 był tak fascynujący, 00:07:18.000 --> 00:07:20.000 że przez dwa lata po nim, 00:07:20.000 --> 00:07:23.000 ludzie po prostu wciąż opowiadali o niezwykłych rzeczach, które się wydarzyły, 00:07:23.000 --> 00:07:25.000 w '51, '52, '53. 00:07:25.000 --> 00:07:27.000 Wreszcie w 1954 00:07:27.000 --> 00:07:29.000 ktoś się ocknął i zdał sobie sprawę, 00:07:29.000 --> 00:07:33.000 że 1950 jest cokolwiek passe. 00:07:33.000 --> 00:07:35.000 (Śmiech) 00:07:35.000 --> 00:07:37.000 I tak pękła bańka. NOTE Paragraph 00:07:37.000 --> 00:07:39.000 (Śmiech) NOTE Paragraph 00:07:39.000 --> 00:07:41.000 I historia 1950 00:07:41.000 --> 00:07:43.000 jest historią każdego roku, który mamy w zapisach, 00:07:43.000 --> 00:07:46.000 z pewnym urozmaiceniem, ponieważ mamy te ładne wykresy. 00:07:46.000 --> 00:07:49.000 A ponieważ mamy te ładne wykresy, możemy mierzyć różne rzeczy. 00:07:49.000 --> 00:07:51.000 Możemy powiedzieć "Jak szybko pęka bańka?" 00:07:51.000 --> 00:07:54.000 I okazuje się, że możemy to zmierzyć bardzo dokładnie. 00:07:54.000 --> 00:07:57.000 Stworzony równania, narysowano wykresy 00:07:57.000 --> 00:07:59.000 i wynik sieciowy jest taki, 00:07:59.000 --> 00:08:02.000 że bańka pęka szybko i szybciej 00:08:02.000 --> 00:08:04.000 z każdym mijającym rokiem. 00:08:04.000 --> 00:08:09.000 Tracimy zainteresowanie przeszłością coraz szybciej. NOTE Paragraph 00:08:09.000 --> 00:08:11.000 JM: Teraz drobna rada dotycząca kariery. 00:08:11.000 --> 00:08:13.000 Dla tych z was, którzy chcą zostać sławni, 00:08:13.000 --> 00:08:15.000 możemy się uczyć od 25 najsławniejszych polityków, 00:08:15.000 --> 00:08:17.000 autorów, aktorów itd. 00:08:17.000 --> 00:08:20.000 Więc jeśli chcesz zostać sławny wcześnie, powinieneś być aktorem, 00:08:20.000 --> 00:08:22.000 ponieważ wówczas sława zaczyna rosnąć do końca trzeciej dekady życia - 00:08:22.000 --> 00:08:24.000 wciąż jesteś młody, to naprawdę wspaniałe. 00:08:24.000 --> 00:08:26.000 Teraz jeśli możesz trochę poczekać, powinieneś być autorem, 00:08:26.000 --> 00:08:28.000 ponieważ wówczas wzrasta się do prawdziwej wielkości, 00:08:28.000 --> 00:08:30.000 jak na przykład Mark Twain: bardzo sławny. 00:08:30.000 --> 00:08:32.000 Ale jeśli chcesz osiągnąć sam szczyt, 00:08:32.000 --> 00:08:34.000 powinieneś opóźnić gratyfikację 00:08:34.000 --> 00:08:36.000 i, oczywiście, zostać politykiem. 00:08:36.000 --> 00:08:38.000 Tak zostaniecie sławni do końca szóstej dekady życia, 00:08:38.000 --> 00:08:40.000 i zostaniecie bardzo, bardzo sławni potem. 00:08:40.000 --> 00:08:43.000 Naukowcy także stają się sławni, jeśli są znacznie starsi. 00:08:43.000 --> 00:08:45.000 Jak na przykład, biolodzy i fizycy 00:08:45.000 --> 00:08:47.000 są tak sławni jak aktorzy. 00:08:47.000 --> 00:08:50.000 Jedynym błędem, którego nie należy robić jest zostanie matematykiem. 00:08:50.000 --> 00:08:52.000 (Śmiech 00:08:52.000 --> 00:08:54.000 Jeśli to zrobisz, 00:08:54.000 --> 00:08:57.000 możesz myśleć: "Wspaniale, wykonam swoje najwspanialsze dzieła w wieku lat dwudziestu kilku". 00:08:57.000 --> 00:08:59.000 Ale wiecie co, nikogo to nie będzie obchodzić. NOTE Paragraph 00:08:59.000 --> 00:09:02.000 (Śmiech) NOTE Paragraph 00:09:02.000 --> 00:09:04.000 ELA: Są bardziej otrzeźwiające informacje 00:09:04.000 --> 00:09:06.000 w n-gramach. 00:09:06.000 --> 00:09:08.000 Na przykład, to trajektoria Marca Chagalla, 00:09:08.000 --> 00:09:10.000 artysty urodzonego w 1887. 00:09:10.000 --> 00:09:13.000 Wygląda to jak normalna trajektoria dla sławnej osoby. 00:09:13.000 --> 00:09:17.000 Staje się bardziej i bardziej i bardziej sławny, 00:09:17.000 --> 00:09:19.000 z 00:09:19.000 --> 00:09:21.000 Jeśli sprawdzicie w Niemczech, zobaczycie coś dziwacznego, 00:09:21.000 --> 00:09:23.000 coś, czego nigdy się nie obserwuje, 00:09:23.000 --> 00:09:25.000 staje się ona bardzo sławny, 00:09:25.000 --> 00:09:27.000 a potem to zainteresowanie nagle spada, 00:09:27.000 --> 00:09:30.000 przeżywając kryzys między 1933 i 1945, 00:09:30.000 --> 00:09:33.000 by się potem znów odbić. 00:09:33.000 --> 00:09:35.000 I oczywiście, to, co widzimy, 00:09:35.000 --> 00:09:38.000 to fakt, że Marc Chagall był Żydowskim artystą 00:09:38.000 --> 00:09:40.000 w nazistowskich Niemczech. NOTE Paragraph 00:09:40.000 --> 00:09:42.000 Te sygnały 00:09:42.000 --> 00:09:44.000 są tak silne, 00:09:44.000 --> 00:09:47.000 że nie musimy wiedzieć, że ktoś był ocenzurowany. 00:09:47.000 --> 00:09:49.000 Możemy to wywnioskować 00:09:49.000 --> 00:09:51.000 używając naprawdę podstawowego przetwarzania sygnałów. 00:09:51.000 --> 00:09:53.000 To prosty sposób. 00:09:53.000 --> 00:09:55.000 Racjonalnym oczekiwaniem 00:09:55.000 --> 00:09:57.000 jest to, że czyjaś sława w określonym okresie czasu 00:09:57.000 --> 00:09:59.000 powinna być średnią jego sławy przed 00:09:59.000 --> 00:10:01.000 i po. 00:10:01.000 --> 00:10:03.000 Tego oczekujemy. 00:10:03.000 --> 00:10:06.000 I porównujemy to z obserwowaną sławą. 00:10:06.000 --> 00:10:08.000 Po prostu dzielimy jedno przez drugie 00:10:08.000 --> 00:10:10.000 by uzyskać coś, co nazywamy wskaźnikiem tłumienia. 00:10:10.000 --> 00:10:13.000 Jeśli wskaźnik tłumienia jest bardzo, bardzo, bardzo mału, 00:10:13.000 --> 00:10:15.000 wówczas możesz być rzeczywiście tłumiony. 00:10:15.000 --> 00:10:18.000 Jeśli jest bardzo wielki, może korzystasz na propagandzie. NOTE Paragraph 00:10:19.000 --> 00:10:21.000 JM: Można spojrzeć 00:10:21.000 --> 00:10:24.000 na rozkład wskaźników tłumienia całej populacji. 00:10:24.000 --> 00:10:26.000 Więc na przykład tutaj - 00:10:26.000 --> 00:10:28.000 wskaźnik tłumienia dla 5 000 osób 00:10:28.000 --> 00:10:30.000 wybranych z angielskich książek, gdzie nie ma tłumienia, o którym byśmy wiedzieli - 00:10:30.000 --> 00:10:32.000 będzie to wyglądało tak, ściśle upakowane koło jedynki. 00:10:32.000 --> 00:10:34.000 Obserwujemy to, czego byśmy oczekiwali. 00:10:34.000 --> 00:10:36.000 To rozkład w Niemczech - 00:10:36.000 --> 00:10:38.000 bardzo odmienny, przesunięty w lewo. 00:10:38.000 --> 00:10:41.000 Ludzie mówili o tym dwa razy mniej niż powinni. 00:10:41.000 --> 00:10:43.000 Ale co znacznie ważniejsze, rozkład jest znacznie szerszy. 00:10:43.000 --> 00:10:46.000 Jest wielu ludzi, którzy są skrajnie z lewej w tym rozkładzie, 00:10:46.000 --> 00:10:49.000 mówi się o nich około 10 razy rzadziej niż się powinno. 00:10:49.000 --> 00:10:51.000 Ale także jest wielu ludzi po prawej, 00:10:51.000 --> 00:10:53.000 którzy korzystają na propagandzie. 00:10:53.000 --> 00:10:56.000 Ten obrazek jest oznaką cenzury w książkach. NOTE Paragraph 00:10:56.000 --> 00:10:58.000 ELA: Nazywamy tą metodę 00:10:58.000 --> 00:11:00.000 kulturomiką. 00:11:00.000 --> 00:11:02.000 To coś jak genomika. 00:11:02.000 --> 00:11:04.000 Poza tym, że genomika patrzy na biologię 00:11:04.000 --> 00:11:07.000 przez okno sekwencji zasad w ludzkim genomie. 00:11:07.000 --> 00:11:09.000 Kulturomika jest podobna. 00:11:09.000 --> 00:11:12.000 To zastosowanie analizy zbieranych danych na wielką skalę 00:11:12.000 --> 00:11:14.000 do badania ludzkiej kultury. 00:11:14.000 --> 00:11:16.000 Tutaj, zamiast przez genom, 00:11:16.000 --> 00:11:19.000 dokonuje się to przez zcyfryzowane dane historyczne. 00:11:19.000 --> 00:11:21.000 Wielką rzeczą w kulturomice 00:11:21.000 --> 00:11:23.000 jest to, że każdy może to robić. 00:11:23.000 --> 00:11:25.000 Dlaczego każdy może to robić? 00:11:25.000 --> 00:11:27.000 Każdy może ponieważ trzech gości, 00:11:27.000 --> 00:11:30.000 Jon Orwant, Matt Gray i Will Brockman z Google 00:11:30.000 --> 00:11:32.000 zobaczyli prototyp Ngram Viewera 00:11:32.000 --> 00:11:34.000 i powiedziało: "To jest taka frajda. 00:11:34.000 --> 00:11:37.000 Musimy to udostępnić ludziom." 00:11:37.000 --> 00:11:39.000 Więc przez dwa tygodnie - dwa tygodnie przed publikacją naszego artykułu - 00:11:39.000 --> 00:11:42.000 napisali kod wersji Ngram Viewera dla szerokiej publiczności. 00:11:42.000 --> 00:11:45.000 Więc wy także możecie wpisać każde słowo lub zwrot, który was interesuje 00:11:45.000 --> 00:11:47.000 i zobaczyć od razu jego n-gram - 00:11:47.000 --> 00:11:49.000 a także wyszukać przykłady różnych książek, 00:11:49.000 --> 00:11:51.000 w których pojawia się wasz n-gram. NOTE Paragraph 00:11:51.000 --> 00:11:53.000 JM: Użyto tego przeszło milion razy w pierwszym dniu, 00:11:53.000 --> 00:11:55.000 a to jest najlepsze ze wszystkich wyszukiwań. 00:11:55.000 --> 00:11:58.000 Więc ludzie chcą się pokazać z najlepszej strony. 00:11:58.000 --> 00:12:01.000 Ale okazuje się, że w XVIII wieku ludzi to naprawdę nie obchodziło. 00:12:01.000 --> 00:12:04.000 Nie chcieli być najlepsi (best), a "beft". 00:12:04.000 --> 00:12:07.000 Oczywiście jest to pomyłka. 00:12:07.000 --> 00:12:09.000 To nie walka o przecietność, 00:12:09.000 --> 00:12:12.000 a fakt, że "s" pisano inaczej, raczej jak "f". 00:12:12.000 --> 00:12:15.000 Oczywiście Google nie wychwycił tego wówczas, 00:12:15.000 --> 00:12:18.000 więc zgłosiliśmy to w artykule naukowym, który napisaliśmy. 00:12:18.000 --> 00:12:20.000 Ale okazuje się to tylko przypomnieniem, 00:12:20.000 --> 00:12:22.000 że choć to wiele zabawy, 00:12:22.000 --> 00:12:24.000 kiedy interpretuje się te wykresy, trzeba być bardzo ostrożnym 00:12:24.000 --> 00:12:27.000 i przyjąć te podstawowe standardy naukowe. NOTE Paragraph 00:12:27.000 --> 00:12:30.000 ELA: Ludzie używali tego do zabawy na różne sposoby. 00:12:30.000 --> 00:12:37.000 (Śmiech) 00:12:37.000 --> 00:12:39.000 Nie będziemy mówili, 00:12:39.000 --> 00:12:42.000 po prostu pokażemy wam te slajdy i będziemy cicho. 00:12:42.000 --> 00:12:45.000 Ta osoba była zainteresowana historią frustracji. 00:12:45.000 --> 00:12:48.000 To różne rodzaje frustracji. 00:12:48.000 --> 00:12:51.000 Jeśli uderzysz się w palec, to jedno "a" w "argh" 00:12:51.000 --> 00:12:53.000 Jeśli Ziemia jest anihilowana przez Vogonów, 00:12:53.000 --> 00:12:55.000 by zrobić miejsce na międzygwiezdny tunel, 00:12:55.000 --> 00:12:57.000 jest to "aaaaaaaargh" przez 8 "a". 00:12:57.000 --> 00:12:59.000 Ta osoba zbadała wszystkie "argh" 00:12:59.000 --> 00:13:01.000 przez od 1 do 8 "a". 00:13:01.000 --> 00:13:03.000 I okazuje się, 00:13:03.000 --> 00:13:05.000 że rzadsze "argh" 00:13:05.000 --> 00:13:08.000 są, oczywiście, tymi, które odpowiadają bardziej frustrującym rzeczom - 00:13:08.000 --> 00:13:11.000 poza, co dziwne, we wczesnych latach 80-tych. 00:13:11.000 --> 00:13:13.000 Myślimy, że to może mieć coś wspólnego z Reaganem. NOTE Paragraph 00:13:13.000 --> 00:13:15.000 (Śmiech) NOTE Paragraph 00:13:15.000 --> 00:13:18.000 JM: Jest wiele zastosowań dla tych danych, 00:13:18.000 --> 00:13:21.000 ale puenta jest taka, że dane historyczne są cyfryzowane. 00:13:21.000 --> 00:13:23.000 Google zaczęła cyfryzować 15 milionów książek. 00:13:23.000 --> 00:13:25.000 To 12% wszystkich książek, które kiedykolwiek zostały wydane. 00:13:25.000 --> 00:13:28.000 To pokaźny kawał ludzkiej kultury. 00:13:28.000 --> 00:13:31.000 Jest znacznie więcej aspektów: manuskrypty, gazety, 00:13:31.000 --> 00:13:33.000 rzeczy, które nie są tekstem, jak sztuka i malarstwo. 00:13:33.000 --> 00:13:35.000 Wszystkie są w naszych komputerach, 00:13:35.000 --> 00:13:37.000 na całym świecie. 00:13:37.000 --> 00:13:40.000 A kiedy to się stanie, odmieni to sposób, w jaki 00:13:40.000 --> 00:13:42.000 będziemy rozumieli naszą przeszłość, teraźniejszość, ludzką kulturę. NOTE Paragraph 00:13:42.000 --> 00:13:44.000 Dziękujemy bardzo. NOTE Paragraph 00:13:44.000 --> 00:13:47.000 (Oklaski)