< Return to Video

Czego nauczyliśmy się z 5 milionów książek

  • 0:00 - 0:02
    Erez Lieberman Aiden: Każdy wie,
  • 0:02 - 0:05
    że jeden obraz jest wart tysiąca słów.
  • 0:07 - 0:09
    Ale my na Harvardzie
  • 0:09 - 0:12
    zastanawialiśmy się, czy to rzeczywiście prawda.
  • 0:12 - 0:14
    (Śmiech)
  • 0:14 - 0:18
    Więc zebraliśmy zespół ekspertów,
  • 0:18 - 0:20
    obejmujący Harvard, MIT,
  • 0:20 - 0:23
    słownik American Heritage Dictionary, encyklopedię Britannica,
  • 0:23 - 0:25
    a nawet naszych dumnych sponsorów -
  • 0:25 - 0:28
    Google.
  • 0:28 - 0:30
    I rozmyślaliśmy nad tym
  • 0:30 - 0:32
    przez około czterech lat.
  • 0:32 - 0:37
    I doszliśmy do zaskakującego wniosku.
  • 0:37 - 0:40
    Panie i panowie, obraz nie jest wart tysiąca słów.
  • 0:40 - 0:42
    W rzeczywistości dowiedzieliśmy się, że niektóre obrazy
  • 0:42 - 0:47
    są warte 500 miliardów słów.
  • 0:47 - 0:49
    Jean-Baptiste Michel: Więc jak doszliśmy do tego wniosku?
  • 0:49 - 0:51
    Erez i ja myśleliśmy o sposobach
  • 0:51 - 0:53
    uzyskania pełnego obrazu ludzkiej kultury
  • 0:53 - 0:56
    i historii: zmiany na przestrzeni lat.
  • 0:56 - 0:58
    Tak wiele książek zostało napisanych przez lata.
  • 0:58 - 1:00
    Więc myśleliśmy, najlepszą drogą do nauczenia się z nich
  • 1:00 - 1:02
    jest przeczytanie tych wszystkich milionów książek.
  • 1:02 - 1:05
    Oczywiście jeśli jest skala tego, jak bardzo jest to wspaniałe,
  • 1:05 - 1:08
    musi się to plasować bardzo, bardzo wysoko.
  • 1:08 - 1:10
    Problem polega na tym, że jest także oś X,
  • 1:10 - 1:12
    która jest osią praktyczności.
  • 1:12 - 1:14
    Ta jest bardzo, bardzo niska.
  • 1:14 - 1:17
    (Oklaski)
  • 1:17 - 1:20
    Ludzie używają innego podejścia,
  • 1:20 - 1:22
    które polega na wzięci kilku źródeł i przeczytania ich bardzo uważnie.
  • 1:22 - 1:24
    To jest bardzo praktyczne, ale nie tak wspaniałe.
  • 1:24 - 1:27
    Tak naprawdę chcielibyśmy
  • 1:27 - 1:30
    mieścić się w jednocześnie wspaniałej i praktycznej części tej przestrzeni.
  • 1:30 - 1:33
    Więc okazuje się, że była za morzem firma o nazwie Google,
  • 1:33 - 1:35
    która zaczęła kilka lat temu projekt cyfryzacji,
  • 1:35 - 1:37
    który może pozwolić na takie podejście.
  • 1:37 - 1:39
    Zcyfryzowali miliony książek.
  • 1:39 - 1:42
    Oznacza to, że można by użyć metod obliczeniowych,
  • 1:42 - 1:44
    by przeczytać wszystkie te książki za jednym kliknięciem.
  • 1:44 - 1:47
    To bardzo praktyczne i niezwykle wspaniałe.
  • 1:48 - 1:50
    ELA: Opowiem wam trochę o tym, skąd wzięły się książki.
  • 1:50 - 1:53
    Od niepamiętnych czasów byli autorzy.
  • 1:53 - 1:56
    Ci autorzy pisali książki.
  • 1:56 - 1:58
    A to stało się znacznie łatwiejsze
  • 1:58 - 2:00
    z rozwojem prasy drukarskiej kilka wieków temu.
  • 2:00 - 2:03
    Od tego czasu, autorom udało sie
  • 2:03 - 2:05
    129 milionów razy
  • 2:05 - 2:07
    wydać książkę.
  • 2:07 - 2:09
    Jeśli te książki nie są stracone dla historii,
  • 2:09 - 2:11
    wówczas są gdzieś w bibliotece,
  • 2:11 - 2:14
    a wiele z tych książek zostało wyciągniętych z bibliotek
  • 2:14 - 2:16
    i zcyfryzowanych przez Google,
  • 2:16 - 2:18
    które do dzisiejszego dnia zeskanowało 15 milionów książek.
  • 2:18 - 2:21
    Kiedy Google zmienia postać książki na cyfrową, umieszcza ją w bardzo ładnym formacie.
  • 2:21 - 2:23
    Mamy teraz dane, plus mamy metadane.
  • 2:23 - 2:26
    Mamy informacje o rzeczach takich jak gdzie została ona wydana,
  • 2:26 - 2:28
    kim był autor, kiedy była ona wydana.
  • 2:28 - 2:31
    I przechodzimy przez te wszystkie zapisy
  • 2:31 - 2:35
    i wykluczamy wszystko, co nie jest danymi najwyższej jakości.
  • 2:35 - 2:37
    Zostajemy ze
  • 2:37 - 2:40
    zbiorem pięciu milionów książek,
  • 2:40 - 2:43
    500 miliardów słów,
  • 2:43 - 2:45
    ciąg znaków tysiąc razy dłuższy
  • 2:45 - 2:48
    niż ludzki genom -
  • 2:48 - 2:50
    tekst który, po jego zapisaniu,
  • 2:50 - 2:52
    rozciągałby się stąd do księżyca i z powrotem
  • 2:52 - 2:54
    10 razy -
  • 2:54 - 2:58
    prawdziwy kryształ naszego genomu kulturowego.
  • 2:58 - 3:00
    Oczywiście to, co zrobiliśmy
  • 3:00 - 3:03
    w obliczu takiej wygórowanej hiperboli...
  • 3:03 - 3:05
    (Śmiech)
  • 3:05 - 3:08
    było tym, co każdy szanujący się naukowiec
  • 3:08 - 3:11
    by zrobił.
  • 3:11 - 3:13
    Wzięliśmy pasek komiksu o nauce XKDC
  • 3:13 - 3:15
    i powiedzieliśmy, "Cofnijcie się.
  • 3:15 - 3:17
    Spróbujemy nauki."
  • 3:17 - 3:19
    (Śmiech)
  • 3:19 - 3:21
    JM: Oczywiście myśleliśmy
  • 3:21 - 3:23
    o tym, by wydobyć dane
  • 3:23 - 3:25
    dla ludzi, by zrobili z nimi naukę.
  • 3:25 - 3:27
    Teraz pomyśleliśmy jakie dane możemy uwolnić?
  • 3:27 - 3:29
    Oczywiście chcemy wziąć książki
  • 3:29 - 3:31
    i uwolnić pełny tekst tych pięciu milionów książek.
  • 3:31 - 3:33
    Google i Jon Orwant w szczególności
  • 3:33 - 3:35
    powiedział nam o małym równaniu, które powinniśmy zapamiętać.
  • 3:35 - 3:38
    Więc mamy pięć milionów, to znaczy, pięć milionów autorów
  • 3:38 - 3:41
    a pięć milionów powodów to wielki pozew.
  • 3:41 - 3:43
    Więc choć byłoby to naprawdę, naprawdę wspaniałe
  • 3:43 - 3:46
    znów, jest to bardzo, bardzo niepraktyczne.
  • 3:46 - 3:48
    (Śmiech)
  • 3:48 - 3:50
    Jakoś się poddaliśmy
  • 3:50 - 3:53
    i zastosowaliśmy to bardzo praktyczne podejście, które było troszkę mniej wspaniałe.
  • 3:53 - 3:55
    Powiedzieliśmy, cóż zamiast uwalniania pełnego tekstu,
  • 3:55 - 3:57
    uwolnimy statystyki dotyczące książek.
  • 3:57 - 3:59
    Weźmy na przykład "błysk szczęścia"
  • 3:59 - 4:01
    To dwa słowa. Nazywamy to dwugramem.
  • 4:01 - 4:03
    Powiemy wam jak wiele razy poszczególny czterogram
  • 4:03 - 4:05
    pojawił się w książkach w 1801, 1802, 1803,
  • 4:05 - 4:07
    aż do 2008.
  • 4:07 - 4:09
    Daje nam to szereg czasowy
  • 4:09 - 4:11
    częstotliwości pojawiania się tego konkretnego zdania w ciągu tych lat.
  • 4:11 - 4:14
    Robimy to dla wszystkich słów i zwrotów, które występują w tych książkach,
  • 4:14 - 4:17
    a to daje nam wielką tabelę z dwóch miliardów linijek,
  • 4:17 - 4:19
    która mówi nam o sposobie, w jaki zmieniała się kultura.
  • 4:19 - 4:21
    ELA: Więc te dwa miliardy wierszy,
  • 4:21 - 4:23
    nazywamy jest dwoma miliardami n-gramów.
  • 4:23 - 4:25
    Co nam mówią?
  • 4:25 - 4:27
    Poszczególne n-gramy mierzą trendy kulturowe.
  • 4:27 - 4:29
    Pozwólcie, że podam wam przykład.
  • 4:29 - 4:31
    Załóżmy, że kwitnę,
  • 4:31 - 4:33
    a jutro będę chciał wam powiedzieć jak dobrze mi poszło.
  • 4:33 - 4:36
    Więc mogę powiedzieć "Wczoraj kwitłem."
  • 4:36 - 4:39
    Względnie, mogę powiedzieć "Wczoraj kwitnąłem."
  • 4:39 - 4:42
    Którego z tych zwrotów powinienem użyć?
  • 4:42 - 4:44
    Skąd to wiedzieć?
  • 4:44 - 4:46
    Około sześć miesięcy temu,
  • 4:46 - 4:48
    praktyką w tej dziedzinie
  • 4:48 - 4:50
    było, na przykład,
  • 4:50 - 4:52
    pójście do tego psychologa z fantstycznymi włosami
  • 4:52 - 4:54
    i powiedzenie:
  • 4:54 - 4:57
    "Steve, jesteś ekspertem od czasowników nieregularnych.
  • 4:57 - 4:59
    Co powinienem zrobić?"
  • 4:59 - 5:01
    A on by powiedział "Cóż, większość ludzi mówi "kwitnąć",
  • 5:01 - 5:04
    ale niektórzy mówią "kwiść".
  • 5:04 - 5:06
    I wiadomo także było,
  • 5:06 - 5:09
    że jeśli cofnąłbyś się w czasie o 200 lat
  • 5:09 - 5:12
    i spytał tego męża stanu z równie fantastycznymi włosami,
  • 5:12 - 5:15
    (Śmiech)
  • 5:15 - 5:17
    "Tom, co powinienem zrobić?"
  • 5:17 - 5:19
    Powiedziałby, "Cóż, w moich czasach, większość ludzi kwitła,
  • 5:19 - 5:22
    ale niektórzy kwitnęli."
  • 5:22 - 5:24
    Teraz pokażę wam surowe dane.
  • 5:24 - 5:28
    Dwa wiersze z tej tabeli dwóch miliardów danych.
  • 5:28 - 5:30
    Widzicie częstotliwość z roku na rok
  • 5:30 - 5:33
    "kwitnęłem" i "kwitnąłem" na przestrzeni czasu.
  • 5:34 - 5:36
    To tylko dwa
  • 5:36 - 5:39
    z dwóch miliardów wierszy.
  • 5:39 - 5:41
    Więc cały zestaw danych
  • 5:41 - 5:44
    jest miliard razy wspanialszy niż tej slajd.
  • 5:44 - 5:46
    (Śmiech)
  • 5:46 - 5:50
    (Oklaski)
  • 5:50 - 5:52
    JM:Jest wiele innych obrazków, które są warte 500 miliardów słów.
  • 5:52 - 5:54
    Na przykład ten.
  • 5:54 - 5:56
    Jeśli weźmiecie grypę,
  • 5:56 - 5:58
    zobaczycie wzrosty w czasie, kiedy wiadomo,
  • 5:58 - 6:01
    że wielkie epidemie grypy zabijały ludzi na świecie.
  • 6:01 - 6:04
    ELA: Jeśli jeszcze nie jesteście przekonani,
  • 6:04 - 6:06
    poziomy morza się podnoszą,
  • 6:06 - 6:09
    tak samo jak poziom CO2 w atmosferze i temperatura na Ziemi.
  • 6:09 - 6:12
    JM: Moglibyście także chcieć się przyjrzeć temu n-gramowi,
  • 6:12 - 6:15
    żeby powiedzieć Nietzschemu, że Bóg nie umarł,
  • 6:15 - 6:18
    choć moglibyście się zgodzić, że potrzebuje lepszego publicysty.
  • 6:18 - 6:20
    (Śmiech)
  • 6:20 - 6:23
    ELA: Można dojść do całkiem abstrakcyjnych koncepcji z takimi rzeczami.
  • 6:23 - 6:25
    Na przykład, opowiem wam historię
  • 6:25 - 6:27
    roku 1950.
  • 6:27 - 6:29
    Przez większość historii,
  • 6:29 - 6:31
    nikogo nie obchodził 1950.
  • 6:31 - 6:33
    W 1700, 1800, w 1900,
  • 6:33 - 6:36
    nikt się nie przejmował.
  • 6:37 - 6:39
    W latach 30-tych i 40-tych,
  • 6:39 - 6:41
    nikt się nie przejmował.
  • 6:41 - 6:43
    Nagle, w połowie lat 40-tych
  • 6:43 - 6:45
    zrobił się wokół tego szum.
  • 6:45 - 6:47
    Ludzie zdali sobie sprawę, że 1950 nadejdzie
  • 6:47 - 6:49
    i może być czymś wielkim.
  • 6:49 - 6:52
    (Śmiech)
  • 6:52 - 6:55
    Ale nic nie interesowało ludzi w 1950 tak,
  • 6:55 - 6:58
    jak rok 1950.
  • 6:58 - 7:01
    (Śmiech)
  • 7:01 - 7:03
    Ludzie chodzili jak opętami.
  • 7:03 - 7:05
    Nie mogli przestać opowiadać
  • 7:05 - 7:08
    o wszystkich rzeczach, które robili w 1950,
  • 7:08 - 7:11
    wszystkich rzeczach, które planowali zrobić w 1950,
  • 7:11 - 7:16
    wszystkich marzeniach o tym, co chcieli osiągnąć w 1950.
  • 7:16 - 7:18
    W rzeczywistości 1950 był tak fascynujący,
  • 7:18 - 7:20
    że przez dwa lata po nim,
  • 7:20 - 7:23
    ludzie po prostu wciąż opowiadali o niezwykłych rzeczach, które się wydarzyły,
  • 7:23 - 7:25
    w '51, '52, '53.
  • 7:25 - 7:27
    Wreszcie w 1954
  • 7:27 - 7:29
    ktoś się ocknął i zdał sobie sprawę,
  • 7:29 - 7:33
    że 1950 jest cokolwiek passe.
  • 7:33 - 7:35
    (Śmiech)
  • 7:35 - 7:37
    I tak pękła bańka.
  • 7:37 - 7:39
    (Śmiech)
  • 7:39 - 7:41
    I historia 1950
  • 7:41 - 7:43
    jest historią każdego roku, który mamy w zapisach,
  • 7:43 - 7:46
    z pewnym urozmaiceniem, ponieważ mamy te ładne wykresy.
  • 7:46 - 7:49
    A ponieważ mamy te ładne wykresy, możemy mierzyć różne rzeczy.
  • 7:49 - 7:51
    Możemy powiedzieć "Jak szybko pęka bańka?"
  • 7:51 - 7:54
    I okazuje się, że możemy to zmierzyć bardzo dokładnie.
  • 7:54 - 7:57
    Stworzony równania, narysowano wykresy
  • 7:57 - 7:59
    i wynik sieciowy jest taki,
  • 7:59 - 8:02
    że bańka pęka szybko i szybciej
  • 8:02 - 8:04
    z każdym mijającym rokiem.
  • 8:04 - 8:09
    Tracimy zainteresowanie przeszłością coraz szybciej.
  • 8:09 - 8:11
    JM: Teraz drobna rada dotycząca kariery.
  • 8:11 - 8:13
    Dla tych z was, którzy chcą zostać sławni,
  • 8:13 - 8:15
    możemy się uczyć od 25 najsławniejszych polityków,
  • 8:15 - 8:17
    autorów, aktorów itd.
  • 8:17 - 8:20
    Więc jeśli chcesz zostać sławny wcześnie, powinieneś być aktorem,
  • 8:20 - 8:22
    ponieważ wówczas sława zaczyna rosnąć do końca trzeciej dekady życia -
  • 8:22 - 8:24
    wciąż jesteś młody, to naprawdę wspaniałe.
  • 8:24 - 8:26
    Teraz jeśli możesz trochę poczekać, powinieneś być autorem,
  • 8:26 - 8:28
    ponieważ wówczas wzrasta się do prawdziwej wielkości,
  • 8:28 - 8:30
    jak na przykład Mark Twain: bardzo sławny.
  • 8:30 - 8:32
    Ale jeśli chcesz osiągnąć sam szczyt,
  • 8:32 - 8:34
    powinieneś opóźnić gratyfikację
  • 8:34 - 8:36
    i, oczywiście, zostać politykiem.
  • 8:36 - 8:38
    Tak zostaniecie sławni do końca szóstej dekady życia,
  • 8:38 - 8:40
    i zostaniecie bardzo, bardzo sławni potem.
  • 8:40 - 8:43
    Naukowcy także stają się sławni, jeśli są znacznie starsi.
  • 8:43 - 8:45
    Jak na przykład, biolodzy i fizycy
  • 8:45 - 8:47
    są tak sławni jak aktorzy.
  • 8:47 - 8:50
    Jedynym błędem, którego nie należy robić jest zostanie matematykiem.
  • 8:50 - 8:52
    (Śmiech
  • 8:52 - 8:54
    Jeśli to zrobisz,
  • 8:54 - 8:57
    możesz myśleć: "Wspaniale, wykonam swoje najwspanialsze dzieła w wieku lat dwudziestu kilku".
  • 8:57 - 8:59
    Ale wiecie co, nikogo to nie będzie obchodzić.
  • 8:59 - 9:02
    (Śmiech)
  • 9:02 - 9:04
    ELA: Są bardziej otrzeźwiające informacje
  • 9:04 - 9:06
    w n-gramach.
  • 9:06 - 9:08
    Na przykład, to trajektoria Marca Chagalla,
  • 9:08 - 9:10
    artysty urodzonego w 1887.
  • 9:10 - 9:13
    Wygląda to jak normalna trajektoria dla sławnej osoby.
  • 9:13 - 9:17
    Staje się bardziej i bardziej i bardziej sławny,
  • 9:17 - 9:19
    z
  • 9:19 - 9:21
    Jeśli sprawdzicie w Niemczech, zobaczycie coś dziwacznego,
  • 9:21 - 9:23
    coś, czego nigdy się nie obserwuje,
  • 9:23 - 9:25
    staje się ona bardzo sławny,
  • 9:25 - 9:27
    a potem to zainteresowanie nagle spada,
  • 9:27 - 9:30
    przeżywając kryzys między 1933 i 1945,
  • 9:30 - 9:33
    by się potem znów odbić.
  • 9:33 - 9:35
    I oczywiście, to, co widzimy,
  • 9:35 - 9:38
    to fakt, że Marc Chagall był Żydowskim artystą
  • 9:38 - 9:40
    w nazistowskich Niemczech.
  • 9:40 - 9:42
    Te sygnały
  • 9:42 - 9:44
    są tak silne,
  • 9:44 - 9:47
    że nie musimy wiedzieć, że ktoś był ocenzurowany.
  • 9:47 - 9:49
    Możemy to wywnioskować
  • 9:49 - 9:51
    używając naprawdę podstawowego przetwarzania sygnałów.
  • 9:51 - 9:53
    To prosty sposób.
  • 9:53 - 9:55
    Racjonalnym oczekiwaniem
  • 9:55 - 9:57
    jest to, że czyjaś sława w określonym okresie czasu
  • 9:57 - 9:59
    powinna być średnią jego sławy przed
  • 9:59 - 10:01
    i po.
  • 10:01 - 10:03
    Tego oczekujemy.
  • 10:03 - 10:06
    I porównujemy to z obserwowaną sławą.
  • 10:06 - 10:08
    Po prostu dzielimy jedno przez drugie
  • 10:08 - 10:10
    by uzyskać coś, co nazywamy wskaźnikiem tłumienia.
  • 10:10 - 10:13
    Jeśli wskaźnik tłumienia jest bardzo, bardzo, bardzo mału,
  • 10:13 - 10:15
    wówczas możesz być rzeczywiście tłumiony.
  • 10:15 - 10:18
    Jeśli jest bardzo wielki, może korzystasz na propagandzie.
  • 10:19 - 10:21
    JM: Można spojrzeć
  • 10:21 - 10:24
    na rozkład wskaźników tłumienia całej populacji.
  • 10:24 - 10:26
    Więc na przykład tutaj -
  • 10:26 - 10:28
    wskaźnik tłumienia dla 5 000 osób
  • 10:28 - 10:30
    wybranych z angielskich książek, gdzie nie ma tłumienia, o którym byśmy wiedzieli -
  • 10:30 - 10:32
    będzie to wyglądało tak, ściśle upakowane koło jedynki.
  • 10:32 - 10:34
    Obserwujemy to, czego byśmy oczekiwali.
  • 10:34 - 10:36
    To rozkład w Niemczech -
  • 10:36 - 10:38
    bardzo odmienny, przesunięty w lewo.
  • 10:38 - 10:41
    Ludzie mówili o tym dwa razy mniej niż powinni.
  • 10:41 - 10:43
    Ale co znacznie ważniejsze, rozkład jest znacznie szerszy.
  • 10:43 - 10:46
    Jest wielu ludzi, którzy są skrajnie z lewej w tym rozkładzie,
  • 10:46 - 10:49
    mówi się o nich około 10 razy rzadziej niż się powinno.
  • 10:49 - 10:51
    Ale także jest wielu ludzi po prawej,
  • 10:51 - 10:53
    którzy korzystają na propagandzie.
  • 10:53 - 10:56
    Ten obrazek jest oznaką cenzury w książkach.
  • 10:56 - 10:58
    ELA: Nazywamy tą metodę
  • 10:58 - 11:00
    kulturomiką.
  • 11:00 - 11:02
    To coś jak genomika.
  • 11:02 - 11:04
    Poza tym, że genomika patrzy na biologię
  • 11:04 - 11:07
    przez okno sekwencji zasad w ludzkim genomie.
  • 11:07 - 11:09
    Kulturomika jest podobna.
  • 11:09 - 11:12
    To zastosowanie analizy zbieranych danych na wielką skalę
  • 11:12 - 11:14
    do badania ludzkiej kultury.
  • 11:14 - 11:16
    Tutaj, zamiast przez genom,
  • 11:16 - 11:19
    dokonuje się to przez zcyfryzowane dane historyczne.
  • 11:19 - 11:21
    Wielką rzeczą w kulturomice
  • 11:21 - 11:23
    jest to, że każdy może to robić.
  • 11:23 - 11:25
    Dlaczego każdy może to robić?
  • 11:25 - 11:27
    Każdy może ponieważ trzech gości,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray i Will Brockman z Google
  • 11:30 - 11:32
    zobaczyli prototyp Ngram Viewera
  • 11:32 - 11:34
    i powiedziało: "To jest taka frajda.
  • 11:34 - 11:37
    Musimy to udostępnić ludziom."
  • 11:37 - 11:39
    Więc przez dwa tygodnie - dwa tygodnie przed publikacją naszego artykułu -
  • 11:39 - 11:42
    napisali kod wersji Ngram Viewera dla szerokiej publiczności.
  • 11:42 - 11:45
    Więc wy także możecie wpisać każde słowo lub zwrot, który was interesuje
  • 11:45 - 11:47
    i zobaczyć od razu jego n-gram -
  • 11:47 - 11:49
    a także wyszukać przykłady różnych książek,
  • 11:49 - 11:51
    w których pojawia się wasz n-gram.
  • 11:51 - 11:53
    JM: Użyto tego przeszło milion razy w pierwszym dniu,
  • 11:53 - 11:55
    a to jest najlepsze ze wszystkich wyszukiwań.
  • 11:55 - 11:58
    Więc ludzie chcą się pokazać z najlepszej strony.
  • 11:58 - 12:01
    Ale okazuje się, że w XVIII wieku ludzi to naprawdę nie obchodziło.
  • 12:01 - 12:04
    Nie chcieli być najlepsi (best), a "beft".
  • 12:04 - 12:07
    Oczywiście jest to pomyłka.
  • 12:07 - 12:09
    To nie walka o przecietność,
  • 12:09 - 12:12
    a fakt, że "s" pisano inaczej, raczej jak "f".
  • 12:12 - 12:15
    Oczywiście Google nie wychwycił tego wówczas,
  • 12:15 - 12:18
    więc zgłosiliśmy to w artykule naukowym, który napisaliśmy.
  • 12:18 - 12:20
    Ale okazuje się to tylko przypomnieniem,
  • 12:20 - 12:22
    że choć to wiele zabawy,
  • 12:22 - 12:24
    kiedy interpretuje się te wykresy, trzeba być bardzo ostrożnym
  • 12:24 - 12:27
    i przyjąć te podstawowe standardy naukowe.
  • 12:27 - 12:30
    ELA: Ludzie używali tego do zabawy na różne sposoby.
  • 12:30 - 12:37
    (Śmiech)
  • 12:37 - 12:39
    Nie będziemy mówili,
  • 12:39 - 12:42
    po prostu pokażemy wam te slajdy i będziemy cicho.
  • 12:42 - 12:45
    Ta osoba była zainteresowana historią frustracji.
  • 12:45 - 12:48
    To różne rodzaje frustracji.
  • 12:48 - 12:51
    Jeśli uderzysz się w palec, to jedno "a" w "argh"
  • 12:51 - 12:53
    Jeśli Ziemia jest anihilowana przez Vogonów,
  • 12:53 - 12:55
    by zrobić miejsce na międzygwiezdny tunel,
  • 12:55 - 12:57
    jest to "aaaaaaaargh" przez 8 "a".
  • 12:57 - 12:59
    Ta osoba zbadała wszystkie "argh"
  • 12:59 - 13:01
    przez od 1 do 8 "a".
  • 13:01 - 13:03
    I okazuje się,
  • 13:03 - 13:05
    że rzadsze "argh"
  • 13:05 - 13:08
    są, oczywiście, tymi, które odpowiadają bardziej frustrującym rzeczom -
  • 13:08 - 13:11
    poza, co dziwne, we wczesnych latach 80-tych.
  • 13:11 - 13:13
    Myślimy, że to może mieć coś wspólnego z Reaganem.
  • 13:13 - 13:15
    (Śmiech)
  • 13:15 - 13:18
    JM: Jest wiele zastosowań dla tych danych,
  • 13:18 - 13:21
    ale puenta jest taka, że dane historyczne są cyfryzowane.
  • 13:21 - 13:23
    Google zaczęła cyfryzować 15 milionów książek.
  • 13:23 - 13:25
    To 12% wszystkich książek, które kiedykolwiek zostały wydane.
  • 13:25 - 13:28
    To pokaźny kawał ludzkiej kultury.
  • 13:28 - 13:31
    Jest znacznie więcej aspektów: manuskrypty, gazety,
  • 13:31 - 13:33
    rzeczy, które nie są tekstem, jak sztuka i malarstwo.
  • 13:33 - 13:35
    Wszystkie są w naszych komputerach,
  • 13:35 - 13:37
    na całym świecie.
  • 13:37 - 13:40
    A kiedy to się stanie, odmieni to sposób, w jaki
  • 13:40 - 13:42
    będziemy rozumieli naszą przeszłość, teraźniejszość, ludzką kulturę.
  • 13:42 - 13:44
    Dziękujemy bardzo.
  • 13:44 - 13:47
    (Oklaski)
Title:
Czego nauczyliśmy się z 5 milionów książek
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Bawiliście się Ngram Viewerem od Google? To wciągające narzędzie, które pozwala na wyszukiwanie słów i pomysłów w bazie danych obejmującej 5 milionów książek z różnych wieków. Erez Lieberman Aiden i Jean-Baptiste Michel pokazują nam jak to działa i kilka zaskakujących rzeczy, których możemy się dowiedzieć z 500 miliardów słów.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Agata Leśnicka added a translation

Polish subtitles

Revisions