Det har vi lært af 5 millioner bøger
-
0:00 - 0:02Erez Lieberman Aiden: Alle ved
-
0:02 - 0:05at et billede siger mere end tusind ord
-
0:07 - 0:09Men på Harvard
-
0:09 - 0:12spurgte vi os selv, om det egentlig er sandt.
-
0:12 - 0:14(Latter)
-
0:14 - 0:18Så vi samlede et hold eksperter,
-
0:18 - 0:20både fra Harvard, MIT,
-
0:20 - 0:23The American Heritage Dictionary, The Encyclopedia Britannica
-
0:23 - 0:25og sågar vores stolte sponsor...
-
0:25 - 0:28The Google.
-
0:28 - 0:30Og vi har funderet over dette
-
0:30 - 0:32i cirka fire år.
-
0:32 - 0:37Og vores konklusion er overraskende.
-
0:37 - 0:40Mine damer og herrer, et billede siger ikke mere end tusind ord.
-
0:40 - 0:42Det viste sig faktisk at nogle billeder
-
0:42 - 0:47siger mere end 500 milliarder ord.
-
0:47 - 0:49Jean-Baptiste Michel: Hvordan når vi denne konklusion?
-
0:49 - 0:51Erez og jeg tænkte på, hvordan man
-
0:51 - 0:53kunne få overblik over menneskets kultur og historie -
-
0:53 - 0:56- og ændringen over tid.
-
0:56 - 0:58Der skrevet så mange bøger gennem tiderne.
-
0:58 - 1:00Så vi tænkte at man kan lære mest af alle disse bøger
-
1:00 - 1:02ved at læse dem alle sammen.
-
1:02 - 1:05Hvis der er en skala for, hvor fantastisk det er
-
1:05 - 1:08må det selvfølgelig ligge meget, meget højt (Awesome).
-
1:08 - 1:10Problemet er, at der også er en X-akse,
-
1:10 - 1:12og det aksen for, om det også er praktisk.
-
1:12 - 1:14Den er meget, meget lav.
-
1:14 - 1:17(Bifald)
-
1:17 - 1:20Folk bruger som regel en anden tilgang,
-
1:20 - 1:22Man tager nogle få kilder og læser dem meget omhyggeligt.
-
1:22 - 1:24Dette er meget praktisk, men ikke særlig fantastisk.
-
1:24 - 1:27Det bedste må være
-
1:27 - 1:30at nå til dette fantastiske men alligevel praktiske område.
-
1:30 - 1:33Et firma på den anden side af floden - Google -
-
1:33 - 1:35startede et digitaliseringsprojekt for nogle år siden
-
1:35 - 1:37og det kan måske gøre denne tilgang mulig.
-
1:37 - 1:39De har digitaliseret millioner af bøger.
-
1:39 - 1:42Man kan således bruge computerbaserede metoder
-
1:42 - 1:44til at læse alle bøgerne med et enkelt klik.
-
1:44 - 1:47Det er meget praktisk og ekstremt fantastisk.
-
1:48 - 1:50ELA: Nu skal I høre, hvor bøger stammer fra.
-
1:50 - 1:53Der har altid eksisteret forfattere.
-
1:53 - 1:56Disse forfattere har bestræbt sig på at skrive bøger.
-
1:56 - 1:58Og det blev væsentligt nemmere
-
1:58 - 2:00da trykpressen blev opfundet for nogle hundrede år siden.
-
2:00 - 2:03Siden da, er det lykkedes forfattere
-
2:03 - 2:05at udgive bøger
-
2:05 - 2:07129 millioner gange.
-
2:07 - 2:09Hvis disse bøger ikke er gået tabt for historien,
-
2:09 - 2:11findes de på et bibliotek et sted,
-
2:11 - 2:14og mange bøgerne er blevet taget fra hylderne
-
2:14 - 2:16og er blevet digitaliseret af Google,
-
2:16 - 2:18som til dato har scannet 15 millioner bøger.
-
2:18 - 2:21Når Google digitaliserer en bog, får den et rigtig fint format.
-
2:21 - 2:23Nu har vi både data og metada.
-
2:23 - 2:26Vi har f.eks. oplysninger om, hvor den blev udgivet,
-
2:26 - 2:28hvem forfatteren var, og hvornår den blev udgivet.
-
2:28 - 2:31Og vi går gennem alle disse arkiver
-
2:31 - 2:35og udelukker alle data, der ikke er af højeste kvalitet.
-
2:35 - 2:37Det, der er tilbage, er en samling
-
2:37 - 2:40på fem millioner bøger,
-
2:40 - 2:43500 milliarder ord,
-
2:43 - 2:45en tegnstreng, der er tusind gange længere
-
2:45 - 2:48end menneskets arvemasse.
-
2:48 - 2:50Hvis teksten blev skrevet ud,
-
2:50 - 2:52ville den nå herfra til månen og tilbage igen
-
2:52 - 2:5410 gange!
-
2:54 - 2:58- Et sandt brudstykke af vores kulturelle arvemasse.
-
2:58 - 3:00Det vi gjorde,
-
3:00 - 3:03da vi stod over for så vanvittige sammenligninger...
-
3:03 - 3:05(Latter)
-
3:05 - 3:08var, hvad enhver forskere med respekt for sig selv
-
3:08 - 3:11ville have gjort.
-
3:11 - 3:13Vi gjorde som i tegneserien XKCD,
-
3:13 - 3:15og sagde "Gør plads!
-
3:15 - 3:17Vi prøver med videnskab".
-
3:17 - 3:19(Latter)
-
3:19 - 3:21JM: Først tænkte vi selvfølgelig,
-
3:21 - 3:23"Vi gør bare data tilgængelige,
-
3:23 - 3:25så andre kan bruge videnskab på dem."
-
3:25 - 3:27Nu tænker vi "Hvilke data kan vi lægge ud?"
-
3:27 - 3:29Egentlig vil vi gerne tage bøgerne
-
3:29 - 3:31og lægge teksten fra alle fem millioner bøger ud.
-
3:31 - 3:33Men Google - og særligt Jon Orwant -
-
3:33 - 3:35fortalte om en ligning, vi skulle lære.
-
3:35 - 3:38Vi har altså fem millioner forfattere
-
3:38 - 3:41altså fem millioner, der gerne vil sagsøge os.
-
3:41 - 3:43Så selvom det ville være virkelig, virkelig fantastisk,
-
3:43 - 3:46ville det også være helt ekstremt upraktisk.
-
3:46 - 3:48(Latter)
-
3:48 - 3:50Igen lod vi os overtale
-
3:50 - 3:53og fulgte den praktiske tilgang, der var lidt mindre fantastisk.
-
3:53 - 3:55I stedet for at lægge den fulde tekst ud ville vi
-
3:55 - 3:57gøre statistikker om bøgerne tilgængelige.
-
3:57 - 3:59Et eksempel er "A gleam of happiness" - Et glimpt af lykke
-
3:59 - 4:01Det er fire ord - det vi kalder et fire-gram
-
4:01 - 4:03Vi vil nu fortælle jer, hvor mange gange et bestemt fire-gram
-
4:03 - 4:05optrådte i bøger i 1801, 1802, 1803,
-
4:05 - 4:07og helt op til 2008
-
4:07 - 4:09Det giver os en tidsserie, der viser hvor hyppigt
-
4:09 - 4:11denne ene sætning er blevet brugt over tid.
-
4:11 - 4:14Det gør vi for alle ord og udtryk i disse bøger.
-
4:14 - 4:17Det giver os en stor tabel med to milliarder linjer
-
4:17 - 4:19som viser hvordan kulturen har ændret sig.
-
4:19 - 4:21ELA: Disse to milliarder linjer
-
4:21 - 4:23som vi kalder to milliarder n-grammer...
-
4:23 - 4:25Hvad fortæller de os?
-
4:25 - 4:27De enkelte n-grammer måler kulturelle tendenser.
-
4:27 - 4:29Lad mig give et eksempel.
-
4:29 - 4:31Jeg vil sige, at jeg trives,
-
4:31 - 4:33i morgen siger jeg så, hvor godt jeg havde det.
-
4:33 - 4:36Jeg ville sige "I går trivedes (throve) jeg".
-
4:36 - 4:39Man kan også bruge "thrived" i stedet for "throve".
-
4:39 - 4:42Hvilket af de to ord skal jeg bruge?
-
4:42 - 4:44Hvor skulle jeg vide det fra?
-
4:44 - 4:46Indtil for seks måneder siden
-
4:46 - 4:48var den anerkendte metode på dette område
-
4:48 - 4:50at du f.eks. kunne få fat i
-
4:50 - 4:52denne psykolog med lækkert hår
-
4:52 - 4:54og spørge ham:
-
4:54 - 4:57"Steve, du er ekspert i uregelmæssige verber.
-
4:57 - 4:59Hvad skal jeg gøre?"
-
4:59 - 5:01Og han ville sige: "De fleste mennesker bruger "thrived"
-
5:01 - 5:04men nogle siger "throve".
-
5:04 - 5:06Og du vidste også - mere eller mindre -
-
5:06 - 5:09at hvis du gik 200 år tilbage i tiden
-
5:09 - 5:12og spurgte denne statsmand med ligeså lækkert hår:
-
5:12 - 5:15(Latter)
-
5:15 - 5:17"Tom, hvad ville du sige?"
-
5:17 - 5:19Han ville sige: "På min tid brugte de fleste "throve,
-
5:19 - 5:22mens andre brugte "thrived".
-
5:22 - 5:24Så nu vil jeg bare vise jer rå data.
-
5:24 - 5:28To rækker i denne tabel ud af to millarder poster.
-
5:28 - 5:30Den viser hyppigheden pr. år
-
5:30 - 5:33af "thrived" og "throve" over tid.
-
5:34 - 5:36Det her er kun to
-
5:36 - 5:39ud af to milliarder rækker.
-
5:39 - 5:41Så hele datasættet
-
5:41 - 5:44er en milliard gange mere fantastisk end dette slide.
-
5:44 - 5:46(Latter)
-
5:46 - 5:50(Bifald)
-
5:50 - 5:52JM: Der er jo mange andre billeder, der siger mere end 500 milliarder ord.
-
5:52 - 5:54For eksempel dette.
-
5:54 - 5:56Hvis vi bare ser på influenza,
-
5:56 - 5:58vil I se høje udslag på de tidspunkter, hvor I vidste
-
5:58 - 6:01at der var store globale influenzaepidemier.
-
6:01 - 6:04ELA: Hvis du ikke er overbevist,
-
6:04 - 6:06stiger vandstanden i havene -
-
6:06 - 6:09det gør CO2-indholdet i atmosfæren og den globale temperatur også.
-
6:09 - 6:12JM: Prøv også at kaste et blik på dette n-gram,
-
6:12 - 6:15og det fortæller Nietzsche, at Gud ikke er død,
-
6:15 - 6:18selvom du måske også synes, han har brug for en bedre ///presseagent.
-
6:18 - 6:20(Latter)
-
6:20 - 6:23ELA: Man kan få nogle ret abstrakte begreber med disse ting.
-
6:23 - 6:25Lad mig f.eks. fortælle jer historien
-
6:25 - 6:27om året 1950.
-
6:27 - 6:29I den største del af vores historie
-
6:29 - 6:31har ingen interesseret sig en pind for 1950.
-
6:31 - 6:33I 1700 og 1800 og 1900
-
6:33 - 6:36var ingen interesseret.
-
6:37 - 6:39Op gennem 30'erne og 40'erne
-
6:39 - 6:41var ingen interesseret.
-
6:41 - 6:43Pludselig, midt i 40'erne,
-
6:43 - 6:45blev der hvisket i krogene.
-
6:45 - 6:47Folk indså at 1950 var noget, der ville ske,
-
6:47 - 6:49og det kunne være noget stort.
-
6:49 - 6:52(Latter)
-
6:52 - 6:55Men det der gjorde folk allermest interesseret i 1950
-
6:55 - 6:58var året 1950.
-
6:58 - 7:01(Latter)
-
7:01 - 7:03Folk var som besat.
-
7:03 - 7:05De kunne ikke lade være med at tale
-
7:05 - 7:08om alt det, de lavede i 1950,
-
7:08 - 7:11alt det de planlagde at skulle gøre i 1950,
-
7:11 - 7:16og alle drømmene om, hvad de ville opnå i 1950.
-
7:16 - 7:18Faktisk var 1950 så fascinerende
-
7:18 - 7:20at folk i flere år efter
-
7:20 - 7:23bare blev ved med at tale om alle de utrolige ting, der skete -
-
7:23 - 7:25i 1951, 1952 og 1953.
-
7:25 - 7:27Omsider i 1954
-
7:27 - 7:29var der en der vågnede op og indså
-
7:29 - 7:33at 1950 var blevet noget passé.
-
7:33 - 7:35(Latter)
-
7:35 - 7:37Og uden videre sprang boblen.
-
7:37 - 7:39(Latter)
-
7:39 - 7:41Og historien om 1950
-
7:41 - 7:43er historien om alle de år, vi har registreret,
-
7:43 - 7:46med et lille tvist, fordi vi nu har disse fine grafer.
-
7:46 - 7:49Og fordi vi har disse fine grafer, kan vi nu måle ting.
-
7:49 - 7:51Vi kan sige "Hvor hurtigt springer boblen?"
-
7:51 - 7:54Og de viser sig, at vi kan måle dette meget præcist.
-
7:54 - 7:57Der blev udledt ligninger, og der opstillet grafer,
-
7:57 - 7:59og nettoresultatet er
-
7:59 - 8:02at det viser sig, at boblen springer hurtigere og hurtigere
-
8:02 - 8:04for hvert år der går.
-
8:04 - 8:09Vi mister interessen for fortiden hurtigere.
-
8:09 - 8:11JM: Og nu et godt karrieretip:
-
8:11 - 8:13For de af jer, der vil være berømte,
-
8:13 - 8:15kan vi lære af de 25 mest berømte politiske personligheder,
-
8:15 - 8:17forfattere, skuespillere osv.
-
8:17 - 8:20Så hvis du vil være berømt tidligt, skal du være skuespiller,
-
8:20 - 8:22fordi berømmelsen så begynder at stige, nrå du er sidst i 20'erne –
-
8:22 - 8:24Du er stadig ung, og det er virkelig skønt.
-
8:24 - 8:26Men hvis du kan vente lidt, skal du blive forfatter,
-
8:26 - 8:28fordi så opnår meget stor berømmelse,
-
8:28 - 8:30som f.eks. Mark Twain: Ekstremt berømt.
-
8:30 - 8:32Men hvis du vil helt til toppen,
-
8:32 - 8:34skal du udskyde den tilfredsstillelse, det er
-
8:34 - 8:36at blive berømt - og selvfølgelig blive politiker.
-
8:36 - 8:38Her vil du blive berømt, når du er i slutningen af 50'erne,
-
8:38 - 8:40og blive meget, meget berømt derefter.
-
8:40 - 8:43Videnskabsfolk plejer også at blive berømte, når de er meget ældre.
-
8:43 - 8:45For eksempel biologer og fysikere
-
8:45 - 8:47bliver næsten ligeså berømte som skuespillere.
-
8:47 - 8:50En fejl, du ikke skal begå, er at blive matematiker.
-
8:50 - 8:52(Latter)
-
8:52 - 8:54Hvis du gør det,
-
8:54 - 8:57tænker du måske "Herligt! Jeg leverer mit bedste arbejde, når jeg er i 20'erne"
-
8:57 - 8:59Men tænk engang... stort set ingen lægger mærke til det.
-
8:59 - 9:02(Latter)
-
9:02 - 9:04ELA: Der er mere nøgterne observationer
-
9:04 - 9:06blandt n-grammerne.
-
9:06 - 9:08Her er f.eks. Marc Chagalls livsforløb,
-
9:08 - 9:10som kunster født i 1887.
-
9:10 - 9:13Og dette ligner det normale forløb for en berømt person.
-
9:13 - 9:17Han bliver mere og mere berømt,
-
9:17 - 9:19bare ikke hvis vi ser på tysk.
-
9:19 - 9:21På tysk ser vi noget ganske bizart,
-
9:21 - 9:23noget man stort set aldrig ser,
-
9:23 - 9:25og det er, at han bliver ekstremt berømt
-
9:25 - 9:27hvorefter berømmelsen falder brat
-
9:27 - 9:30og er på nulpunktet mellem 1933 og 1945,
-
9:30 - 9:33hvorefter berømmelsen vender tilbage.
-
9:33 - 9:35Og de vi selvfølgelig kan se
-
9:35 - 9:38er at Marc Chagall var jødisk kunstner
-
9:38 - 9:40i nazi-Tyskland
-
9:40 - 9:42Disse signaler
-
9:42 - 9:44er faktisk så stærk,
-
9:44 - 9:47at vi ikke behøver at vide, at en person er blevet censureret.
-
9:47 - 9:49Vi kan faktisk regne det ud
-
9:49 - 9:51ved hjælp af meget grundlæggende behandling af signalerne.
-
9:51 - 9:53Her er en simpel måde at gøre det på.
-
9:53 - 9:55Det er rimeligt at forvente
-
9:55 - 9:57at en persons berømmelse i en given periode
-
9:57 - 9:59vil være nogenlunde gennemsnittet af berømmelsen før
-
9:59 - 10:01og berømmelsen efter perioden.
-
10:01 - 10:03Så det er nogenlunde, det vi forventer.
-
10:03 - 10:06Og vi sammenligner med den berømmelse, vi kan aflæse.
-
10:06 - 10:08Og så dividerer vi bare den ene med den anden
-
10:08 - 10:10så vi får noget, vi kalder et undertrykkelsesindeks.
-
10:10 - 10:13Hvis undertrykkelsesindekset er meget, meget, meget lavt,
-
10:13 - 10:15er der stor sandsynlighed for at du er undertrykt.
-
10:15 - 10:18Hvis det er meget højt, får du måske hjælp af propaganda.
-
10:19 - 10:21JM: Nu kan man faktisk se på
-
10:21 - 10:24fordelingen af undertrykkelsesindekser over hele populationer.
-
10:24 - 10:26For eksempel her:
-
10:26 - 10:28Dette undertrykkelsesindeks er for 5.000 personer
-
10:28 - 10:30taget fra engelske bøger uden nogen kendt undertrykkelse.
-
10:30 - 10:32Det ville være på denne måde, tæt centreret om ét.
-
10:32 - 10:34Det man kan aflæse, er grundlæggende som forventet.
-
10:34 - 10:36Dette er fordelingen, som den ses i Tyskland.
-
10:36 - 10:38Meget anderledes... den er forskudt til venstre.
-
10:38 - 10:41Folk talte dobbelt så lidt om det, som de burde.
-
10:41 - 10:43Men vigtigere er, at fordelingen er meget bredere.
-
10:43 - 10:46Der er mange personer, der ender ude til venstre i fordelingen,
-
10:46 - 10:49som der bliver talt 10 gange så lidt om, som der burde.
-
10:49 - 10:51Men der er også personer ude til højre,
-
10:51 - 10:53som synes at være hjulpet af propaganda.
-
10:53 - 10:56Dette er kendetegnende for censur i bogregisteret.
-
10:56 - 10:58ELA: Denne metode
-
10:58 - 11:00kalder vi "culturomics".
-
11:00 - 11:02Det er lidt ligesom genforskning
-
11:02 - 11:04Genomics - genforskning - er et nærbillede af biologi
-
11:04 - 11:07hvor man ser på sekvenser af baser i arvemassen.
-
11:07 - 11:09Culturomics minder om dette.
-
11:09 - 11:12Det er en analyse af en kæmpe samling data
-
11:12 - 11:14anvendt på studiet af menneskets kultur.
-
11:14 - 11:16I stedet for at bruge arvemassen som perspektiv,
-
11:16 - 11:19bruges digitaliserede stykker af historisk materiale.
-
11:19 - 11:21Det gode ved culturomics er
-
11:21 - 11:23at alle kan gøre det.
-
11:23 - 11:25Hvorfor kan alle gøre det?
-
11:25 - 11:27Alle kan gøre det, fordi disse tre herrer,
-
11:27 - 11:30Jon Orwant, Matt Gray og Will Brockman hos Google,
-
11:30 - 11:32så prototypen af Ngram Viewer,
-
11:32 - 11:34og sagde, "Det er så sjovt,
-
11:34 - 11:37at vi må gøre det tilgængeligt for alle."
-
11:37 - 11:39På nøjagtig de to uger inden offentliggørelsen af vores rapport
-
11:39 - 11:42kodede de en version af Ngram Viewer til almen brug.
-
11:42 - 11:45Du kan så skrive et vilkårligt ord, du er interesseret i
-
11:45 - 11:47og straks se det tilhørende n-gram,
-
11:47 - 11:49og du kan gennemse eksempler på alle bøger
-
11:49 - 11:51som dit n-gram optræder i.
-
11:51 - 11:53Dette blev brugt over en million gang første dag,
-
11:53 - 11:55og dette er den bedste af alle søgninger.
-
11:55 - 11:58Så folk ønsker at yde deres bedste.
-
11:58 - 12:01Men i det 18. årh. var folk ligeglade med alt det.
-
12:01 - 12:04De ville ikke gøre bedste, de ville være "beft".
-
12:04 - 12:07Dette var selvfølgelig bare en fejl.
-
12:07 - 12:09Man stræbte ikke efter middelmådighed,
-
12:09 - 12:12men tidligere skrev man S anderledes, nærmest som et f.
-
12:12 - 12:15Det opdagede Google selvfølgelig ikke dengang,
-
12:15 - 12:18så vi skrev det i den videnskabelige artikel.
-
12:18 - 12:20Dette minder os om, at
-
12:20 - 12:22selvom det er rigtig sjovt,
-
12:22 - 12:24at fortolke disse grafer, skal man være forsigtig
-
12:24 - 12:27og overholde de videnskabelige standarder.
-
12:27 - 12:30Folk har brugt dette til mange sjove formål.
-
12:30 - 12:37(Latter)
-
12:37 - 12:39Vi behøver faktisk ikke tale,
-
12:39 - 12:42vi viser bare alle slides og tier stille.
-
12:42 - 12:45Denne person var interesseret i frustrationens historie.
-
12:45 - 12:48Der er forskellige typer frustration.
-
12:48 - 12:51Hvis slår tåen, er der ét A i "argh".
-
12:51 - 12:53Hvis Jorden udslettes af Vogonerne
-
12:53 - 12:55for at gøre plads til en intergalaktisk ekspresrute,
-
12:55 - 12:57er det et "aaaaaaaargh" med otte A'er.
-
12:57 - 12:59Personen undersøger alle udgaver af "argh"
-
12:59 - 13:01fra ét til otte A'er.
-
13:01 - 13:03Og det viser sig
-
13:03 - 13:05at de mindst hyppige "argh" vedrører
-
13:05 - 13:08vedrører ting, der er mere frustrerende
-
13:08 - 13:11men sjovt nok ikke i de tidlige 80'ere.
-
13:11 - 13:13Vi tror det kan være noget med Reagan.
-
13:13 - 13:15(Latter)
-
13:15 - 13:18Disse data kan bruges til mange ting,
-
13:18 - 13:21men grundlaget er, at historien bliver digitaliseret.
-
13:21 - 13:23Google er begyndt at digitalisere 15 millioner bøger.
-
13:23 - 13:25Det er 12 % af alle bøger, der er udgivet.
-
13:25 - 13:28Det er en god klump af menneskets kultur.
-
13:28 - 13:31Kultur er meget mere: manuskripter, aviser
-
13:31 - 13:33noget er ikke tekst, f.eks. kunst og malerier.
-
13:33 - 13:35Disse vil alle findes på vores computere,
-
13:35 - 13:37på computere i hele verden.
-
13:37 - 13:40Og når det sker, ændrer det den måde
-
13:40 - 13:42vi forstår vores fortid, vores nutid og menneskets kultur.
-
13:42 - 13:44Mange tak.
-
13:44 - 13:47(Bifald)
- Title:
- Det har vi lært af 5 millioner bøger
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
Har du leget med Ngram Viewer i Google Labs? Dette vanedannende værktøj lader dig søge efter ord og idéer i en database med 5 millioner bøger fra flere århundreder. Erez Liebermann Aiden og Jean-Baptiste Michel viser os, hvordan det virker, og nogle af de overraskende ting, vi kan lære af 500 milliarder ord.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48