Erez Lieberman Aiden: Każdy wie, że jeden obraz jest wart tysiąca słów. Ale my na Harvardzie zastanawialiśmy się, czy to rzeczywiście prawda. (Śmiech) Więc zebraliśmy zespół ekspertów, obejmujący Harvard, MIT, słownik American Heritage Dictionary, encyklopedię Britannica, a nawet naszych dumnych sponsorów - Google. I rozmyślaliśmy nad tym przez około czterech lat. I doszliśmy do zaskakującego wniosku. Panie i panowie, obraz nie jest wart tysiąca słów. W rzeczywistości dowiedzieliśmy się, że niektóre obrazy są warte 500 miliardów słów. Jean-Baptiste Michel: Więc jak doszliśmy do tego wniosku? Erez i ja myśleliśmy o sposobach uzyskania pełnego obrazu ludzkiej kultury i historii: zmiany na przestrzeni lat. Tak wiele książek zostało napisanych przez lata. Więc myśleliśmy, najlepszą drogą do nauczenia się z nich jest przeczytanie tych wszystkich milionów książek. Oczywiście jeśli jest skala tego, jak bardzo jest to wspaniałe, musi się to plasować bardzo, bardzo wysoko. Problem polega na tym, że jest także oś X, która jest osią praktyczności. Ta jest bardzo, bardzo niska. (Oklaski) Ludzie używają innego podejścia, które polega na wzięci kilku źródeł i przeczytania ich bardzo uważnie. To jest bardzo praktyczne, ale nie tak wspaniałe. Tak naprawdę chcielibyśmy mieścić się w jednocześnie wspaniałej i praktycznej części tej przestrzeni. Więc okazuje się, że była za morzem firma o nazwie Google, która zaczęła kilka lat temu projekt cyfryzacji, który może pozwolić na takie podejście. Zcyfryzowali miliony książek. Oznacza to, że można by użyć metod obliczeniowych, by przeczytać wszystkie te książki za jednym kliknięciem. To bardzo praktyczne i niezwykle wspaniałe. ELA: Opowiem wam trochę o tym, skąd wzięły się książki. Od niepamiętnych czasów byli autorzy. Ci autorzy pisali książki. A to stało się znacznie łatwiejsze z rozwojem prasy drukarskiej kilka wieków temu. Od tego czasu, autorom udało sie 129 milionów razy wydać książkę. Jeśli te książki nie są stracone dla historii, wówczas są gdzieś w bibliotece, a wiele z tych książek zostało wyciągniętych z bibliotek i zcyfryzowanych przez Google, które do dzisiejszego dnia zeskanowało 15 milionów książek. Kiedy Google zmienia postać książki na cyfrową, umieszcza ją w bardzo ładnym formacie. Mamy teraz dane, plus mamy metadane. Mamy informacje o rzeczach takich jak gdzie została ona wydana, kim był autor, kiedy była ona wydana. I przechodzimy przez te wszystkie zapisy i wykluczamy wszystko, co nie jest danymi najwyższej jakości. Zostajemy ze zbiorem pięciu milionów książek, 500 miliardów słów, ciąg znaków tysiąc razy dłuższy niż ludzki genom - tekst który, po jego zapisaniu, rozciągałby się stąd do księżyca i z powrotem 10 razy - prawdziwy kryształ naszego genomu kulturowego. Oczywiście to, co zrobiliśmy w obliczu takiej wygórowanej hiperboli... (Śmiech) było tym, co każdy szanujący się naukowiec by zrobił. Wzięliśmy pasek komiksu o nauce XKDC i powiedzieliśmy, "Cofnijcie się. Spróbujemy nauki." (Śmiech) JM: Oczywiście myśleliśmy o tym, by wydobyć dane dla ludzi, by zrobili z nimi naukę. Teraz pomyśleliśmy jakie dane możemy uwolnić? Oczywiście chcemy wziąć książki i uwolnić pełny tekst tych pięciu milionów książek. Google i Jon Orwant w szczególności powiedział nam o małym równaniu, które powinniśmy zapamiętać. Więc mamy pięć milionów, to znaczy, pięć milionów autorów a pięć milionów powodów to wielki pozew. Więc choć byłoby to naprawdę, naprawdę wspaniałe znów, jest to bardzo, bardzo niepraktyczne. (Śmiech) Jakoś się poddaliśmy i zastosowaliśmy to bardzo praktyczne podejście, które było troszkę mniej wspaniałe. Powiedzieliśmy, cóż zamiast uwalniania pełnego tekstu, uwolnimy statystyki dotyczące książek. Weźmy na przykład "błysk szczęścia" To dwa słowa. Nazywamy to dwugramem. Powiemy wam jak wiele razy poszczególny czterogram pojawił się w książkach w 1801, 1802, 1803, aż do 2008. Daje nam to szereg czasowy częstotliwości pojawiania się tego konkretnego zdania w ciągu tych lat. Robimy to dla wszystkich słów i zwrotów, które występują w tych książkach, a to daje nam wielką tabelę z dwóch miliardów linijek, która mówi nam o sposobie, w jaki zmieniała się kultura. ELA: Więc te dwa miliardy wierszy, nazywamy jest dwoma miliardami n-gramów. Co nam mówią? Poszczególne n-gramy mierzą trendy kulturowe. Pozwólcie, że podam wam przykład. Załóżmy, że kwitnę, a jutro będę chciał wam powiedzieć jak dobrze mi poszło. Więc mogę powiedzieć "Wczoraj kwitłem." Względnie, mogę powiedzieć "Wczoraj kwitnąłem." Którego z tych zwrotów powinienem użyć? Skąd to wiedzieć? Około sześć miesięcy temu, praktyką w tej dziedzinie było, na przykład, pójście do tego psychologa z fantstycznymi włosami i powiedzenie: "Steve, jesteś ekspertem od czasowników nieregularnych. Co powinienem zrobić?" A on by powiedział "Cóż, większość ludzi mówi "kwitnąć", ale niektórzy mówią "kwiść". I wiadomo także było, że jeśli cofnąłbyś się w czasie o 200 lat i spytał tego męża stanu z równie fantastycznymi włosami, (Śmiech) "Tom, co powinienem zrobić?" Powiedziałby, "Cóż, w moich czasach, większość ludzi kwitła, ale niektórzy kwitnęli." Teraz pokażę wam surowe dane. Dwa wiersze z tej tabeli dwóch miliardów danych. Widzicie częstotliwość z roku na rok "kwitnęłem" i "kwitnąłem" na przestrzeni czasu. To tylko dwa z dwóch miliardów wierszy. Więc cały zestaw danych jest miliard razy wspanialszy niż tej slajd. (Śmiech) (Oklaski) JM:Jest wiele innych obrazków, które są warte 500 miliardów słów. Na przykład ten. Jeśli weźmiecie grypę, zobaczycie wzrosty w czasie, kiedy wiadomo, że wielkie epidemie grypy zabijały ludzi na świecie. ELA: Jeśli jeszcze nie jesteście przekonani, poziomy morza się podnoszą, tak samo jak poziom CO2 w atmosferze i temperatura na Ziemi. JM: Moglibyście także chcieć się przyjrzeć temu n-gramowi, żeby powiedzieć Nietzschemu, że Bóg nie umarł, choć moglibyście się zgodzić, że potrzebuje lepszego publicysty. (Śmiech) ELA: Można dojść do całkiem abstrakcyjnych koncepcji z takimi rzeczami. Na przykład, opowiem wam historię roku 1950. Przez większość historii, nikogo nie obchodził 1950. W 1700, 1800, w 1900, nikt się nie przejmował. W latach 30-tych i 40-tych, nikt się nie przejmował. Nagle, w połowie lat 40-tych zrobił się wokół tego szum. Ludzie zdali sobie sprawę, że 1950 nadejdzie i może być czymś wielkim. (Śmiech) Ale nic nie interesowało ludzi w 1950 tak, jak rok 1950. (Śmiech) Ludzie chodzili jak opętami. Nie mogli przestać opowiadać o wszystkich rzeczach, które robili w 1950, wszystkich rzeczach, które planowali zrobić w 1950, wszystkich marzeniach o tym, co chcieli osiągnąć w 1950. W rzeczywistości 1950 był tak fascynujący, że przez dwa lata po nim, ludzie po prostu wciąż opowiadali o niezwykłych rzeczach, które się wydarzyły, w '51, '52, '53. Wreszcie w 1954 ktoś się ocknął i zdał sobie sprawę, że 1950 jest cokolwiek passe. (Śmiech) I tak pękła bańka. (Śmiech) I historia 1950 jest historią każdego roku, który mamy w zapisach, z pewnym urozmaiceniem, ponieważ mamy te ładne wykresy. A ponieważ mamy te ładne wykresy, możemy mierzyć różne rzeczy. Możemy powiedzieć "Jak szybko pęka bańka?" I okazuje się, że możemy to zmierzyć bardzo dokładnie. Stworzony równania, narysowano wykresy i wynik sieciowy jest taki, że bańka pęka szybko i szybciej z każdym mijającym rokiem. Tracimy zainteresowanie przeszłością coraz szybciej. JM: Teraz drobna rada dotycząca kariery. Dla tych z was, którzy chcą zostać sławni, możemy się uczyć od 25 najsławniejszych polityków, autorów, aktorów itd. Więc jeśli chcesz zostać sławny wcześnie, powinieneś być aktorem, ponieważ wówczas sława zaczyna rosnąć do końca trzeciej dekady życia - wciąż jesteś młody, to naprawdę wspaniałe. Teraz jeśli możesz trochę poczekać, powinieneś być autorem, ponieważ wówczas wzrasta się do prawdziwej wielkości, jak na przykład Mark Twain: bardzo sławny. Ale jeśli chcesz osiągnąć sam szczyt, powinieneś opóźnić gratyfikację i, oczywiście, zostać politykiem. Tak zostaniecie sławni do końca szóstej dekady życia, i zostaniecie bardzo, bardzo sławni potem. Naukowcy także stają się sławni, jeśli są znacznie starsi. Jak na przykład, biolodzy i fizycy są tak sławni jak aktorzy. Jedynym błędem, którego nie należy robić jest zostanie matematykiem. (Śmiech Jeśli to zrobisz, możesz myśleć: "Wspaniale, wykonam swoje najwspanialsze dzieła w wieku lat dwudziestu kilku". Ale wiecie co, nikogo to nie będzie obchodzić. (Śmiech) ELA: Są bardziej otrzeźwiające informacje w n-gramach. Na przykład, to trajektoria Marca Chagalla, artysty urodzonego w 1887. Wygląda to jak normalna trajektoria dla sławnej osoby. Staje się bardziej i bardziej i bardziej sławny, z Jeśli sprawdzicie w Niemczech, zobaczycie coś dziwacznego, coś, czego nigdy się nie obserwuje, staje się ona bardzo sławny, a potem to zainteresowanie nagle spada, przeżywając kryzys między 1933 i 1945, by się potem znów odbić. I oczywiście, to, co widzimy, to fakt, że Marc Chagall był Żydowskim artystą w nazistowskich Niemczech. Te sygnały są tak silne, że nie musimy wiedzieć, że ktoś był ocenzurowany. Możemy to wywnioskować używając naprawdę podstawowego przetwarzania sygnałów. To prosty sposób. Racjonalnym oczekiwaniem jest to, że czyjaś sława w określonym okresie czasu powinna być średnią jego sławy przed i po. Tego oczekujemy. I porównujemy to z obserwowaną sławą. Po prostu dzielimy jedno przez drugie by uzyskać coś, co nazywamy wskaźnikiem tłumienia. Jeśli wskaźnik tłumienia jest bardzo, bardzo, bardzo mału, wówczas możesz być rzeczywiście tłumiony. Jeśli jest bardzo wielki, może korzystasz na propagandzie. JM: Można spojrzeć na rozkład wskaźników tłumienia całej populacji. Więc na przykład tutaj - wskaźnik tłumienia dla 5 000 osób wybranych z angielskich książek, gdzie nie ma tłumienia, o którym byśmy wiedzieli - będzie to wyglądało tak, ściśle upakowane koło jedynki. Obserwujemy to, czego byśmy oczekiwali. To rozkład w Niemczech - bardzo odmienny, przesunięty w lewo. Ludzie mówili o tym dwa razy mniej niż powinni. Ale co znacznie ważniejsze, rozkład jest znacznie szerszy. Jest wielu ludzi, którzy są skrajnie z lewej w tym rozkładzie, mówi się o nich około 10 razy rzadziej niż się powinno. Ale także jest wielu ludzi po prawej, którzy korzystają na propagandzie. Ten obrazek jest oznaką cenzury w książkach. ELA: Nazywamy tą metodę kulturomiką. To coś jak genomika. Poza tym, że genomika patrzy na biologię przez okno sekwencji zasad w ludzkim genomie. Kulturomika jest podobna. To zastosowanie analizy zbieranych danych na wielką skalę do badania ludzkiej kultury. Tutaj, zamiast przez genom, dokonuje się to przez zcyfryzowane dane historyczne. Wielką rzeczą w kulturomice jest to, że każdy może to robić. Dlaczego każdy może to robić? Każdy może ponieważ trzech gości, Jon Orwant, Matt Gray i Will Brockman z Google zobaczyli prototyp Ngram Viewera i powiedziało: "To jest taka frajda. Musimy to udostępnić ludziom." Więc przez dwa tygodnie - dwa tygodnie przed publikacją naszego artykułu - napisali kod wersji Ngram Viewera dla szerokiej publiczności. Więc wy także możecie wpisać każde słowo lub zwrot, który was interesuje i zobaczyć od razu jego n-gram - a także wyszukać przykłady różnych książek, w których pojawia się wasz n-gram. JM: Użyto tego przeszło milion razy w pierwszym dniu, a to jest najlepsze ze wszystkich wyszukiwań. Więc ludzie chcą się pokazać z najlepszej strony. Ale okazuje się, że w XVIII wieku ludzi to naprawdę nie obchodziło. Nie chcieli być najlepsi (best), a "beft". Oczywiście jest to pomyłka. To nie walka o przecietność, a fakt, że "s" pisano inaczej, raczej jak "f". Oczywiście Google nie wychwycił tego wówczas, więc zgłosiliśmy to w artykule naukowym, który napisaliśmy. Ale okazuje się to tylko przypomnieniem, że choć to wiele zabawy, kiedy interpretuje się te wykresy, trzeba być bardzo ostrożnym i przyjąć te podstawowe standardy naukowe. ELA: Ludzie używali tego do zabawy na różne sposoby. (Śmiech) Nie będziemy mówili, po prostu pokażemy wam te slajdy i będziemy cicho. Ta osoba była zainteresowana historią frustracji. To różne rodzaje frustracji. Jeśli uderzysz się w palec, to jedno "a" w "argh" Jeśli Ziemia jest anihilowana przez Vogonów, by zrobić miejsce na międzygwiezdny tunel, jest to "aaaaaaaargh" przez 8 "a". Ta osoba zbadała wszystkie "argh" przez od 1 do 8 "a". I okazuje się, że rzadsze "argh" są, oczywiście, tymi, które odpowiadają bardziej frustrującym rzeczom - poza, co dziwne, we wczesnych latach 80-tych. Myślimy, że to może mieć coś wspólnego z Reaganem. (Śmiech) JM: Jest wiele zastosowań dla tych danych, ale puenta jest taka, że dane historyczne są cyfryzowane. Google zaczęła cyfryzować 15 milionów książek. To 12% wszystkich książek, które kiedykolwiek zostały wydane. To pokaźny kawał ludzkiej kultury. Jest znacznie więcej aspektów: manuskrypty, gazety, rzeczy, które nie są tekstem, jak sztuka i malarstwo. Wszystkie są w naszych komputerach, na całym świecie. A kiedy to się stanie, odmieni to sposób, w jaki będziemy rozumieli naszą przeszłość, teraźniejszość, ludzką kulturę. Dziękujemy bardzo. (Oklaski)