Vad vi lärde oss från 5 miljoner böcker
-
0:00 - 0:02Erez Lieberman Aiden: Alla vet
-
0:02 - 0:05att en bild säger mer än tusen ord.
-
0:07 - 0:09Men vi på Harvard
-
0:09 - 0:12funderade på om detta verkligen var sant.
-
0:12 - 0:14(Skratt)
-
0:14 - 0:18Så vi satte ihop ett expertteam,
-
0:18 - 0:20från Harvard, MIT,
-
0:20 - 0:23The American Heritage Dictionary, Encyclopedia Britannica,
-
0:23 - 0:25och även vår stolta sponsor
-
0:25 - 0:28Google.
-
0:28 - 0:30Så vi grubblade på detta
-
0:30 - 0:32i ungefär fyra år.
-
0:32 - 0:37Och kom fram till en uppseendeväckande slutsats.
-
0:37 - 0:40Mina damer och herrar, en bild säger inte mer än tusen ord.
-
0:40 - 0:42Vi hittade faktiskt en del bilder
-
0:42 - 0:47som säger mer än 500 miljarder ord.
-
0:47 - 0:49Jean-Baptiste Michel: Så hur kom vi fram till den slutsatsen?
-
0:49 - 0:51Erez och jag funderade på hur
-
0:51 - 0:53vi skulle få en överblick över människans kultur
-
0:53 - 0:56och historia; förändringar över tiden.
-
0:56 - 0:58Så många böcker har ju faktiskt skrivits under åren.
-
0:58 - 1:00Så vi tänkte att det bästa sättet att lära sig från dem
-
1:00 - 1:02är att läsa alla dessa miljontals böcker.
-
1:02 - 1:05Och såklart, finns det en skala för hur häftigt det är,
-
1:05 - 1:08så måste det rankas extremt, extremt högt.
-
1:08 - 1:10Problemet är att det finns en X-axel för det,
-
1:10 - 1:12vilket är den praktiska axeln.
-
1:12 - 1:14Den är väldigt, väldigt låg.
-
1:14 - 1:17(Applåder)
-
1:17 - 1:20Folk tenderar att använda en alternativ approach,
-
1:20 - 1:22att ta ett fåtal källor och läsa dem väldigt noga.
-
1:22 - 1:24Det är extremt praktiskt, men inte särskilt häftigt.
-
1:24 - 1:27Det man verkligen vill göra
-
1:27 - 1:30är att nå den häftiga men ändå praktiska delen av det här utrymmet.
-
1:30 - 1:33Och så visade det sig att det fanns ett företag på andra sidan floden; Google,
-
1:33 - 1:35som hade börjat ett digitaliseringsprojekt några år tidigare
-
1:35 - 1:37som kanske skulle fixa den approachen.
-
1:37 - 1:39De har digitaliserat miljontals böcker.
-
1:39 - 1:42Vilket innebär att man med hjälp av datorberäkningar
-
1:42 - 1:44skulle kunna läsa alla böcker med ett knapptryck.
-
1:44 - 1:47Det är väldigt praktiskt och extremt häftigt.
-
1:48 - 1:50ELA: Låt mig berätta lite om var böckerna kommer från.
-
1:50 - 1:53Sedan urminnes tider har det funnits författare.
-
1:53 - 1:56Dessa författare har strävat efter att skriva böcker.
-
1:56 - 1:58Och detta blev betydligt enklare
-
1:58 - 2:00när tryckpressen uppfanns för några hundra år sedan.
-
2:00 - 2:03Sedan dess har författarna fått,
-
2:03 - 2:05vid 129 miljoner tillfällen,
-
2:05 - 2:07böcker publicerade.
-
2:07 - 2:09Om de böckerna inte är förlorade i historien,
-
2:09 - 2:11så finns de någonstans i ett bibliotek,
-
2:11 - 2:14och många av de böckerna har tagits upp från biblioteken
-
2:14 - 2:16och digitaliserats av Google,
-
2:16 - 2:18som till dags dato har scannat 15 miljoner böcker.
-
2:18 - 2:21När Google digitaliserar en bok, gör de den i ett mycket trevligt format.
-
2:21 - 2:23Så vi har data, och vi har dessutom metadata.
-
2:23 - 2:26Vi har information om saker som var den gavs ut,
-
2:26 - 2:28vem författaren var, när den gavs ut
-
2:28 - 2:31Det vi gör är att gå genom alla inmatningar
-
2:31 - 2:35och tar bort allt som inte är data av högsta kvalitet.
-
2:35 - 2:37Det vi har kvar
-
2:37 - 2:40är en samling av fem miljoner böcker,
-
2:40 - 2:43500 miljarder ord,
-
2:43 - 2:45en teckensträng tusen gånger längre
-
2:45 - 2:48än det mänskliga genomet --
-
2:48 - 2:50en text som, om den skrevs ut,
-
2:50 - 2:52skulle sträcka sig härifrån till månen och tillbaka
-
2:52 - 2:5410 gånger om --
-
2:54 - 2:58en skärva av vårt kulturella genom.
-
2:58 - 3:00Det vi förstås gjorde
-
3:00 - 3:03när vi stod inför sådana enorma överdrifter...
-
3:03 - 3:05(Skratt)
-
3:05 - 3:08var vad alla forskare med självrespekt
-
3:08 - 3:11skulle ha gjort.
-
3:11 - 3:13Vi tog en sida från XKCD
-
3:13 - 3:15och sa "Backa,
-
3:15 - 3:17vi ska testa vetenskap".
-
3:17 - 3:19(Skratt)
-
3:19 - 3:21JM: Vi tänkte förstås
-
3:21 - 3:23att vi först skulle lägga ut data
-
3:23 - 3:25så att folk skulle kunna göra vetenskap av det.
-
3:25 - 3:27Och så tänker vi, vilket data kan vi släppa?
-
3:27 - 3:29Man vill ju förstås ta böckerna
-
3:29 - 3:31och släppa den fulla texten från dessa fem miljoner böcker.
-
3:31 - 3:33Google, och Jon Orwant i synnerhet,
-
3:33 - 3:35visade oss en liten ekvation som vi skulle lära oss.
-
3:35 - 3:38Man har alltså fem miljoner, fem miljoner författare
-
3:38 - 3:41och fem miljoner målsägande i en enorm rättsprocess.
-
3:41 - 3:43Så även om det vore riktigt, riktigt häftigt,
-
3:43 - 3:46så vore det extremt opraktiskt.
-
3:46 - 3:48(Skratt)
-
3:48 - 3:50Så vi gav oss,
-
3:50 - 3:53och tog den väldigt praktiska vägen, som var lite mindre häftig.
-
3:53 - 3:55Vi sa att okej, istället för att släppa den fulla texten
-
3:55 - 3:57så skulle vi släppa statistik om böckerna.
-
3:57 - 3:59Ta till exempel "En glimt av lycka"
-
3:59 - 4:01Det är fyra ord; vi kallar det ett fyrgram.
-
4:01 - 4:03Vi ska tala om hur många gånger ett visst fyrgram
-
4:03 - 4:05dök upp i böcker under 1801, 1802, 1803,
-
4:05 - 4:07och hela vägen till 2008.
-
4:07 - 4:09Det ger oss en tidsserie
-
4:09 - 4:11på hur frekvent den specifika meningen användes över tiden.
-
4:11 - 4:14Vi gör detta för alla ord och fraser som finns i dessa böcker,
-
4:14 - 4:17vilket ger oss en tabell med två miljarder rader
-
4:17 - 4:19som berättar för oss om hur kulturen har förändrats.
-
4:19 - 4:21ELA: De två miljarder raderna,
-
4:21 - 4:23vi kallar dem två miljarder n-gram.
-
4:23 - 4:25Vad säger de oss?
-
4:25 - 4:27De individuella n-grammen mäter kulturella trender.
-
4:27 - 4:29Låt mig ge ett exempel.
-
4:29 - 4:31Låt oss säga att jag lyckas väl (I am thriving),
-
4:31 - 4:33och i morgon vill jag säga hur bra det gått för mig.
-
4:33 - 4:36Då kanske jag säger "Yesterday, I throve"
-
4:36 - 4:39Eller så skulle jag kunna säga "Yesterday, I thrived"
-
4:39 - 4:42Så vilken form ska jag använda?
-
4:42 - 4:44Hur ska jag veta?
-
4:44 - 4:46För ungefär sex månader sedan,
-
4:46 - 4:48var läget på det här området så
-
4:48 - 4:50att du, som exempel,
-
4:50 - 4:52skulle gå fram till den där psykologen med det fantastiska håret,
-
4:52 - 4:54och säga
-
4:54 - 4:57"Steve, du är ju expert på oregelbundna verb.
-
4:57 - 4:59Vad ska jag göra?"
-
4:59 - 5:01Och han skulle säga "Ja, de flesta säger thrived,
-
5:01 - 5:04men en del säger throve".
-
5:04 - 5:06Du vet också, mer eller mindre,
-
5:06 - 5:09att om du skulle gå 200 år bakåt i tiden
-
5:09 - 5:12och fråga den här statsmannen med lika fantastiskt hår,
-
5:12 - 5:15(Skratt)
-
5:15 - 5:17"Tom, vad ska jag säga?"
-
5:17 - 5:19Så skulle han svara "På min tid sa de flesta throve,
-
5:19 - 5:22men en del sa thrived"
-
5:22 - 5:24Så det jag nu ska visa är rådata.
-
5:24 - 5:28Två rader från den här tabellen med två miljarder poster.
-
5:28 - 5:30Det ni ser är frekvensen år för år
-
5:30 - 5:33för "thrived" och "throve" över tiden.
-
5:34 - 5:36Detta är bara två
-
5:36 - 5:39av två miljarder rader.
-
5:39 - 5:41Så hela datasetet
-
5:41 - 5:44är en miljard gånger häftigare än den här bilden.
-
5:44 - 5:46(Skratt)
-
5:46 - 5:50(Applåder)
-
5:50 - 5:52JM: Det finns många andra bilder som säger mer än 500 miljarder ord.
-
5:52 - 5:54Till exempel den här.
-
5:54 - 5:56Om man tar influensa
-
5:56 - 5:58så ser man toppar vid de tider då man vet
-
5:58 - 6:01att influensaepidemier dödade folk runtom i världen.
-
6:01 - 6:04ELA: Om du inte är övertygad än,
-
6:04 - 6:06havsnivåerna stiger,
-
6:06 - 6:09likaså koldioxidhalten i atmosfären och den globala temperaturen.
-
6:09 - 6:12JM: Du vill kanske också ta en titt på det här specifika n-grammet,
-
6:12 - 6:15för att tala om för Nietzsche att Gud inte är död,
-
6:15 - 6:18även om du håller med om att han behöver en bättre publicist.
-
6:18 - 6:20(Skratt)
-
6:20 - 6:23ELA: Man kan komma åt ganska abstrakta koncept på det här viset.
-
6:23 - 6:25Låt mig berätta en historia
-
6:25 - 6:27om året 1950.
-
6:27 - 6:29Under större delen av historien
-
6:29 - 6:31brydde sig ingen om 1950.
-
6:31 - 6:33År 1700, 1800, 1900,
-
6:33 - 6:36brydde sig ingen.
-
6:37 - 6:39Under 30- och 40-talen
-
6:39 - 6:41brydde sig ingen.
-
6:41 - 6:43Men plötsligt, i mitten av 40-talet,
-
6:43 - 6:45började det snackas.
-
6:45 - 6:47Folk insåg att 1950 skulle hända,
-
6:47 - 6:49och att det kunde bli stort.
-
6:49 - 6:52(Skratt)
-
6:52 - 6:55Men inget fick folk så intresserade av 1950
-
6:55 - 6:58som 1950 själv.
-
6:58 - 7:01(Skratt)
-
7:01 - 7:03Folk gick omkring som besatta.
-
7:03 - 7:05De kunde inte sluta prata
-
7:05 - 7:08om allt de gjorde 1950,
-
7:08 - 7:11allt de planerade att göra 1950
-
7:11 - 7:16alla drömmar de ville förverkliga under 1950.
-
7:16 - 7:18Faktum är att 1950 var så fascinerande
-
7:18 - 7:20att under flera år efteråt
-
7:20 - 7:23fortsatte folk prata om alla fantastiska saker som hände,
-
7:23 - 7:25-51, -52, -53.
-
7:25 - 7:27Till slut, 1954,
-
7:27 - 7:29vaknade någon upp och insåg
-
7:29 - 7:33att 1950 nu var ganska passé.
-
7:33 - 7:35(Skratt)
-
7:35 - 7:37Och vips så sprack bubblan.
-
7:37 - 7:39(Skratt)
-
7:39 - 7:41Och historien om 1950
-
7:41 - 7:43är historien om vartenda år som vi har dokumentation om,
-
7:43 - 7:46med en twist, för nu har vi ju de här fina diagrammen.
-
7:46 - 7:49Och eftersom vi har de fina diagrammen, kan vi mäta saker.
-
7:49 - 7:51Vi kan säga "Hur fort spricker bubblan?"
-
7:51 - 7:54Och det visar sig att vi kan mäta det väldigt exakt.
-
7:54 - 7:57Så ekvationer skapades, diagram producerades,
-
7:57 - 7:59och nettoresultatet
-
7:59 - 8:02är att vi ser att bubblan spricker fortare och fortare
-
8:02 - 8:04för varje år som går.
-
8:04 - 8:09Vi tappar intresset för det förgångna allt snabbare.
-
8:09 - 8:11JM: Nu lite karriärrådgivning.
-
8:11 - 8:13För er som vill bli berömda,
-
8:13 - 8:15vi kan lära från de 25 mest berömda politiska figurerna,
-
8:15 - 8:17författare, skådespelare och så vidare.
-
8:17 - 8:20Vill du bli berömd tidigt så ska du bli skådespelare,
-
8:20 - 8:22för då börjar berömmelsen stiga i slutet av 20-årsåldern --
-
8:22 - 8:24du är fortfarande ung, det är riktigt bra.
-
8:24 - 8:26Om du kan vänta lite så ska du hellre bli författare,
-
8:26 - 8:28för då kan du stiga till enorma höjder,
-
8:28 - 8:30som t.ex. Mark Twain, och bli extremt berömd.
-
8:30 - 8:32Men om du vill nå den yttersta toppen
-
8:32 - 8:34bör du senarelägga njutningen av berömmelse
-
8:34 - 8:36och förstås bli politiker.
-
8:36 - 8:38För då blir du berömd i slutet av 50-årsåldern,
-
8:38 - 8:40och väldigt väldigt berömd efteråt.
-
8:40 - 8:43Vetenskapsmän tenderar att bli berömda när de är mycket äldre.
-
8:43 - 8:45Biologer och fysiker
-
8:45 - 8:47tenderar att bli nästan lika berömda som skådespelare.
-
8:47 - 8:50Ett misstag du inte bör göra är att bli matematiker.
-
8:50 - 8:52(Skratt)
-
8:52 - 8:54Blir du det
-
8:54 - 8:57kan du tänka "Bra, jag kommer göra mitt bästa jobb i 20-årsåldern".
-
8:57 - 8:59Men vet du vad? Ingen kommer att bry sig.
-
8:59 - 9:02(Skratt)
-
9:02 - 9:04ELA: Det finns lugnande noter
-
9:04 - 9:06bland n-grammen.
-
9:06 - 9:08Här är till exempel Marc Chagalls bana,
-
9:08 - 9:10en konstnär, född 1887.
-
9:10 - 9:13Det ser ut som en normal bana för en berömd person.
-
9:13 - 9:17Han blir mer och mer berömd,
-
9:17 - 9:19förutom om man tittar på tyska.
-
9:19 - 9:21Om man tittar på tyska så ser man något helt bisarrt,
-
9:21 - 9:23något man nästan aldrig ser,
-
9:23 - 9:25och det är att han blir extremt berömd
-
9:25 - 9:27och plötsligt dyker
-
9:27 - 9:30till en lägsta punkt mellan 1933 och 1945,
-
9:30 - 9:33innan han återhämtar sig.
-
9:33 - 9:35Det vi förstås ser här
-
9:35 - 9:38är det faktum att Marc Chagall var en judisk konstnär
-
9:38 - 9:40i nazi-Tyskland.
-
9:40 - 9:42Dessa signaler
-
9:42 - 9:44är så starka
-
9:44 - 9:47att vi inte behöver veta att någon blev censurerad.
-
9:47 - 9:49Vi kan lista ut det
-
9:49 - 9:51genom att använda grundläggande signalbehandling.
-
9:51 - 9:53Här är ett enkelt sätt att göra det på.
-
9:53 - 9:55Ett rimligt antagande
-
9:55 - 9:57är att någons berömmelse under en given tidsperiod
-
9:57 - 9:59borde vara ungefär genomsnittet av deras berömmelse innan
-
9:59 - 10:01och deras berömmelse efter.
-
10:01 - 10:03Det är ungefär det vi väntar oss.
-
10:03 - 10:06Så vi jämför det med den berömmelse vi observerar.
-
10:06 - 10:08Och delar den ena med den andra
-
10:08 - 10:10för att skapa något vi kallar förtryck-index.
-
10:10 - 10:13Om förtryck-indexet är väldigt, väldigt, väldigt litet
-
10:13 - 10:15kan det mycket väl vara så att du blir förtryckt.
-
10:15 - 10:18Om det är väldigt stort kanske du drar nytta av propaganda.
-
10:19 - 10:21JM: Man kan faktiskt titta på
-
10:21 - 10:24fördelningen av förtryck-index över hela befolkningar.
-
10:24 - 10:26Till exempel, här --
-
10:26 - 10:28det här indexet är för 5.000 personer
-
10:28 - 10:30utvalda ur engelska böcker utan känt förtryck --
-
10:30 - 10:32det skulle vara så här, hårt centrerat kring en.
-
10:32 - 10:34Det man förväntar sig är i princip det man observerar.
-
10:34 - 10:36Det här är fördelningen sedd i Tyskland --
-
10:36 - 10:38väldigt annorlunda, förflyttad åt vänster.
-
10:38 - 10:41Folk talade om det hälften så lite som de borde ha gjort.
-
10:41 - 10:43Men mycket viktigare, fördelningen är mycket bredare.
-
10:43 - 10:46Det är många som hamnar långt till vänster i fördelningen
-
10:46 - 10:49som omtalas 10 gånger mindre än de borde ha omtalats.
-
10:49 - 10:51Men också många långt till höger
-
10:51 - 10:53som verkar dra nytta av propaganda.
-
10:53 - 10:56Den här bilden är stämpeln för censur i bokregistret.
-
10:56 - 10:58ELA: Så kulturomik
-
10:58 - 11:00är det vi kallar den här metoden.
-
11:00 - 11:02Det är ungefär som genomik.
-
11:02 - 11:04Förutom att genomik är en lins mot biologin
-
11:04 - 11:07genom fönstret av basernas ordningsföljd i det mänskliga genomet.
-
11:07 - 11:09Kulturomik är något liknande.
-
11:09 - 11:12Användandet av storskalig datainsamling och analys
-
11:12 - 11:14på studier av människans kultur.
-
11:14 - 11:16Och här, istället för att se det genom ett fönster mot genomet,
-
11:16 - 11:19genom ett fönster mot digitaliserade bitar av historien.
-
11:19 - 11:21Det bra med kulturomik
-
11:21 - 11:23är att alla kan göra det.
-
11:23 - 11:25Varför kan alla göra det?
-
11:25 - 11:27Alla kan göra det för att tre killar,
-
11:27 - 11:30Jon Orwant, Matt Gray och Will Brockman på Google
-
11:30 - 11:32såg prototypen av Ngram Viewer
-
11:32 - 11:34och sa "Det här är så kul.
-
11:34 - 11:37Vi måste göra detta tillgängligt för folk".
-
11:37 - 11:39Så på två veckor blankt -- de två veckorna innan vår rapport kom ut --
-
11:39 - 11:42kodade de en version av Ngram Viewer för allmänheten.
-
11:42 - 11:45Så du kan också mata ett ord eller en fras du är intresserad av
-
11:45 - 11:47och se dess n-gram omedelbart --
-
11:47 - 11:49och se exempel på alla möjliga böcker
-
11:49 - 11:51där ditt n-gram förekommer.
-
11:51 - 11:53JM: Det användes mer än en miljon gånger den första dagen,
-
11:53 - 11:55och detta är den bästa av alla sökningar.
-
11:55 - 11:58Folk ville vara sitt bästa, visa framfötterna.
-
11:58 - 12:01Men det visar sig att på 1700-talet brydde man sig inte om det alls.
-
12:01 - 12:04De ville inte vara sitt bästa, de ville vara sitt bäfta.
-
12:04 - 12:07Det som hände är förstås att det bara är ett misstag.
-
12:07 - 12:09De strävade inte efter att vara mediokra,
-
12:09 - 12:12det är bara det att S skrevs annorlunda, ungefär som F.
-
12:12 - 12:15Google såg inte detta direkt
-
12:15 - 12:18så vi rapporterade om det i en artikel vi skrev.
-
12:18 - 12:20Men det är bara en påminnelse
-
12:20 - 12:22om att, hur kul detta än är,
-
12:22 - 12:24så måste man vara försiktig när man tolkar diagrammen,
-
12:24 - 12:27och man måste anamma vetenskapliga standarder.
-
12:27 - 12:30ELA: Folk har använt det här för alla möjliga roliga syften.
-
12:30 - 12:37(Skratt)
-
12:37 - 12:39Vi behöver faktiskt inte ens prata,
-
12:39 - 12:42vi visar bara bilderna och håller tyst.
-
12:42 - 12:45Den här personen var intresserad av frustrationens historia.
-
12:45 - 12:48Det finns olika typer av frustration.
-
12:48 - 12:51Om du slår tån så är det ett en-A "argh"
-
12:51 - 12:53Om Jorden förintas av Vogoner
-
12:53 - 12:55för att göra plats för en interstellär motorväg
-
12:55 - 12:57så är det ett åtta-A "aaaaaaaargh"
-
12:57 - 12:59Den här personen studerade alla "arghs",
-
12:59 - 13:01från ett till åtta A.
-
13:01 - 13:03Och det visade sig
-
13:03 - 13:05att de mindre förekommande "arghs"
-
13:05 - 13:08är de som hör ihop med saker som är mer frustrerande --
-
13:08 - 13:11förutom, märkligt nog, i början av 80-talet.
-
13:11 - 13:13Vi tror att det kan ha att göra med Reagan.
-
13:13 - 13:15(Skratt)
-
13:15 - 13:18JM: Det finns många användningsområden för dessa data,
-
13:18 - 13:21men grunden är att historien digitaliseras.
-
13:21 - 13:23Google har börjat digitalisera 15 miljoner böcker.
-
13:23 - 13:25Det är 12 procent av alla böcker som någonsin givits ut.
-
13:25 - 13:28Det är en rätt stor bit mänsklig kultur.
-
13:28 - 13:31Det finns mycket mer i kultur: manuskript, tidningar,
-
13:31 - 13:33saker som inte är text, som konst och målningar.
-
13:33 - 13:35De kommer att finnas i våra datorer,
-
13:35 - 13:37i datorer runtom i världen.
-
13:37 - 13:40Och när det händer kommer det att förändra vårt sätt
-
13:40 - 13:42att förstå vårt förflutna, vår nutid och människans kultur.
-
13:42 - 13:44Tack så mycket.
-
13:44 - 13:47(Applåder)
- Title:
- Vad vi lärde oss från 5 miljoner böcker
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
Har du lekt med Google Labs Ngram Viewer? Det är ett beroendeframkallande verktyg som låter dig leta efter ord och idéer i en databas av fem miljoner böcker från flera århundraden. Erez Lieberman Aiden och Jean-Baptiste Michel visar oss hur det fungerar, och några av de överraskande saker vi kan lära oss från 500 miljarder ord.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48