Det brukade vara så att om du ville
få en dator att göra något nytt
så behövde du programmera den.
Programmering, för dem av er
som inte har gjort det själva,
kräver att man
på ett olidligt detaljerat sätt
anger varenda steg
man vill att datorn ska ta
för att uppnå önskat mål.
Men, om du vill göra något
som du inte vet själv hur man gör,
då blir det här en enorm utmaning.
Så det här var den utmaning som denne man,
Arthur Samuel, ställdes inför.
1956 ville han få sin dator till
att slå honom i spelet Dam.
Hur kan du skriva ett program,
och ange på ett olidligt detaljerat sätt,
hur det ska slå dig i Dam?
Så han kom på en idé:
han lät datorn spela
mot sig själv tusentals gånger
och lära sig att spela Dam.
Och det fungerade faktiskt, och vid 1962
hade datorn slagit
Connecticuts statsmästare.
Så Arthur Samuels
var maskininlärningens fader,
och jag är skyldig honom så mycket,
för att jag är verksam
inom maskininlärning.
Jag var ordförande i Kaggle,
en gemenskap på över 200 000
verksamma inom maskininlärning.
Kaggle anordnar tävlingar
för att försöka åstadkomma
lösningar på olösta problem,
och det har varit framgångsrikt
vid hundratals tillfällen.
Så från den synvinkeln
kunde jag få veta
väldigt mycket om vad maskininlärning
kan göra i det förflutna, kan göra idag,
och vad den kan tänkas göra i framtiden.
Maskininlärningens första stora framgång
var kanske Google.
Google visade att det är möjligt
att få fram information
genom att använda en datoralgoritm,
en datoralgoritm som bygger
på maskininlärning.
Sen dess har maskininlärning
rönt många kommersiella framgångar.
Företag som Amazon och Netflix
använder maskininlärning
för att föreslå produkter
som du kan tänkas vilja köpa,
filmer som du kan tänkas vilja se.
Ibland är det nästan lite läskigt.
Företag som LinkedIn och Facebook
kan ibland berätta för dig
vilka dina vänner kan tänkas vara
och du kan inte föreställa dig
hur det gick till
och det beror på att de använder
maskininlärningens kraft.
Det här är algoritmer som har lärt sig
att göra detta utifrån data
snarare än att ha blivit
programmerade till det.
Det här också hemligheten
bakom IBM:s framgångar
med att få Watson att slå
de två världsmästarna i Jeopardy,
genom att besvara otroligt subtila
och komplexa frågor som den här.
[Det antika "Lion of Nimrud" försvann
från denna stads ...]
Det här är också anledningen till
att vi nu ser självkörande bilar.
Om du vill kunna skilja på till exempel
ett träd och en fotgängare
så är det ganska viktigt.
Vi vet inte hur vi skulle kunna
programmera något sånt,
men med maskininlärning
är det här nu möjligt.
Och den här bilen har faktiskt
kört över 1,5 miljoner mil,
utan olyckor, på vanliga vägar.
Så nu vet vi att datorer kan lära sig,
och datorer kan lära sig att göra saker
som vi ibland faktiskt själva
inte vet hur man gör,
eller så kan de göra något
bättre än vi.
Ett av det mer häpnadsväckande exemplen
av maskininlärning som jag har sett
tog plats i ett projekt
som jag körde på Kaggle
där ett lag som leddes av en kille
som heter Geoffrey Hinton
från University of Toronto
vann en tävling
i automatisk medicinforskning.
Men vad som var exceptionellt
var inte bara att de slog
alla Mercks algoritmer och hela den
internationella akademiska gemenskapen,
utan att ingen i laget hade någon bakgrund
i kemi, biologi eller livsvetenskap
och de klarade det på två veckor.
Hur gjorde de detta?
De använde en enastående algoritm
som kallas djupinlärning.
Det här var så viktigt
att det till och med rapporterades
på framsidan till New York Times
några veckor senare.
Här är Geoffrey Hinton till vänster.
Djupinlärningsalgoritmen
är inspirerad av hur hjärnan fungerar
och som en effekt av det
så har den inga teoretiska begränsningar
i vad den kan åstadkomma.
Ju mer data och beräkningstid du ger den,
desto bättre blir den.
New York Times visade
i sin artikel också på
en annan exceptionell effekt
av djupinlärning
som jag ska visa er nu.
Den visar att datorer
kan lyssna och förstå.
(Video) Richard Rashid: Det sista steget
som jag vill kunna ta i den här processen
är att kunna tala till er på kinesiska.
Nyckeln här är att
vi har kunnat ta en stor mängd information
från många som talar kinesiska
och producera ett "text till tal"-system
som tar kinesisk text
och konverterar den till kinesiskt språk.
Sen har vi tagit en timme
eller så av min egen röst
och vi har använt den till att modulera
vårt grundläggande "text till tal"-system
så att det låter som jag.
Återigen, resultatet är inte perfekt.
Det finns fortfarande några fel.
(Kinesiska)
(Applåder)
Det finns mycket att göra
på det här området.
(Kinesiska)
(Applåder)
Jeremy Howard: Det där var
på en maskininlärningskonferens i Kina.
Det är faktiskt inte ofta
på akademiska konferenser
att man hör spontana applåder,
fast på TEDx-konferenser
är det förstås välkommet.
Allt ni såg där hände
med hjälp av maskininlärning.
(Applåder) Tack.
Avskriften till engelska
var djupinlärning.
Översättningen till kinesiska och texten
i övre högra hörnet vad djupinlärning
och skapandet av rösten
var också djupinlärning.
Så djupinlärning är en exceptionell sak.
Det är en enda algoritm som ser ut
att kunna göra nästan vad som helst,
och jag upptäckte att ett år tidigare
hade den också lärt sig att se.
I en obskyr tävling från Tyskland
som hette German Traffic Sign
Recognition Benchmark,
hade djupinlärning lärt sig
att känna igen trafikskyltar som den här.
Den kunde inte bara
känna igen trafikskyltarna
bättre än alla andra algoritmer,
utan resultattavlan visade
att den faktiskt var bättre än människor
ungefär dubbelt så bra som människor.
Vid 2011 hade vi det första exemplet
på en dator som kan se
bättre än människor.
Sen dess har det hänt många saker.
2012 meddelade Google att de hade
låtit en djupinlärningsalgoritm
titta på YouTube-klipp
och beräknade datan
på 16 000 datorer i en månad.
Och datorn lärde sig, helt av sig själv,
om koncept som människor och katter
bara genom att titta på klippen.
Det här är väldigt likt
den mänskliga lärprocessen.
Människor lär sig inte genom
att någon berättar vad de ser,
utan de lär sig själva
vad de här sakerna är.
2012 vann George Hinton,
som vi såg tidigare, också
den väldigt populära ImageNet-tävlingen,
när han försökte lista ut,
på basis av 1,5 miljoner bilder,
vad bilderna innehöll.
Nu 2014, är vi nere på
en sexprocentig felmarginal
för bildigenkänning.
Detta är, återigen, bättre än människor.
Så maskiner gör verkligen
ett exceptionellt bra jobb här
och används nu inom industrin.
Till exempel meddelade Google förra året
att de hade mappat varenda plats
i Frankrike på två timmar.
Och de gjorde detta genom
att föda bilder av gatuvyer
in i en djupinlärningsalgoritm
för att den skulle känna igen
och läsa gatunummer.
Föreställ er hur lång tid
detta skulle ha tagit:
dussintals med människor, många år.
Det här händer också i Kina.
Baidu kan väl kanske sägas vara
ett kinesiskt Google
och vad ni ser här uppe till vänster
är ett exempel på en bild
som jag laddade upp
i Baidus djupinlärningssystem,
och nedanför kan ni se att systemet
har förstått vad bilden innehåller
och hittat liknande bilder.
De liknande bilderna har faktiskt
liknande bakgrunder,
liknande ansiktsvinklar,
till och med några med utstickande tungor.
Det här handlar inte om att titta
på text på en webbsida.
Allt jag laddade upp var en bild.
Så, nu har vi datorer
som faktiskt förstår vad de ser
och därmed kan söka igenom databaser
med hundra miljontals bilder i realtid.
Så vad betyder det nu att datorer kan se?
Det betyder inte bara
att datorer kan se.
Djupinlärning har faktiskt
gjort mer än så.
Komplexa, nyanserade meningar
som den här kan nu förstås
med djupinlärningsalgoritmer.
Som ni kan se här,
så har det här Stanford-baserade systemet
med den röda pricken i toppen
räknat ut att den här meningen
uttrycker negativa känslor.
Djupinlärning är faktiskt nära
den mänskliga prestationsförmågan
när det gäller att förstå
vad meningar handlar om
och vad de säger om det.
Djupinlärning har också använts
till att läsa kinesiska,
på, återigen, nästan modersmålsnivå.
Den här algoritmen
har utvecklats i Schweitz
av människor som varken talar
eller förstår kinesiska.
Jag brukar säga att,
att använda djupinlärning
är nära nog det bästa systemet
i världen för detta
även jämfört med
mänsklig modersmålsförståelse.
Det här ett system som vi satte ihop
på mitt företag
som visar hur allt det här sätts ihop.
De här bilderna har ingen vidhängd text,
och medan jag skriver in meningar här
så förstår den de här bilderna i realtid
och listar ut vad de handlar om
och hittar bilder som liknar
den text som jag skriver in.
Så ni kan se att den faktiskt
förstår mina meningar
och faktiskt förstår de här bilderna.
Jag vet att ni har sett
liknande saker på Google,
där du kan skriva in saker
och den visar dig bilder,
men vad den faktiskt gör är
att den söker av webbsidan efter text.
Det är en stor skillnad
mot att förstå bilderna.
Det här är något som datorer
har kunnat göra
för första gången
för bara några månader sen.
Så nu kan vi se att datorer
inte bara kan se, de kan också läsa,
och så har vi också visat
att de kan förstå vad de hör.
Kanske är det inte överraskande
att jag nu berättar för er
att de kan skriva.
Här är lite text som jag genererade igår
med hjälp av en djupinlärningsalgoritm.
Och här är lite text som en algoritm
från Stanford har genererat.
Var och en av dessa meningar
har genererats
av en djupinlärningsalgoritm
för att förklara varje bild.
Den här algoritmen har aldrig förut sett
en man i svart tröja som spelar gitarr.
Den har sett en man förut,
den har sett svart förut,
den har sett en gitarr förut,
men den har helt fristående genererat
den här nya beskrivningen av bilden.
Vi är ännu inte riktigt framme
vid mänsklig prestationsförmåga här,
men vi är nära.
Tester har visat att människor föredrar
den datorgenererade förklaringen
en av fyra gånger.
Det här systemet är nu bara
två veckor gammalt,
så det är sannolikt att datoralgoritmen
kommer att slå mänsklig prestationsförmåga
inom ett år
om det fortsätter i samma takt.
Så, datorer kan skriva också.
När vi slår samman allt det här
så ser vi väldigt spännande möjligheter.
Till exempel inom läkekonsten,
ett team i Boston meddelade
att de hade upptäckt
dussintals nya kliniskt
relevanta kännetecken
på tumörer, som hjälper läkare
att göra cancerprognoser.
Också liknande,
meddelade en grupp i Stanford
att de, genom att titta på vävnad
under förstoring, hade utvecklat
ett maskininlärningsbaserat system
som faktiskt är bättre
än mänskliga patologer
på att förutse överlevnadssiffror
för cancersjuka.
I båda dessa fall
visade sig förutsägelserna
inte bara vara mer rättvisande
utan de genererade också
ny insiktsfull kunskap.
I röntgenfallet
var det nya kliniska indikatorer
som människor kan förstå.
I patologifallet
upptäckte systemet
att cellerna runt cancern
är lika viktiga som cancercellerna själva
för att ställa diagnos.
Det här var motsatsen till vad patologer
hade fått lära sig i årtionden.
I båda dessa fall var systemen utvecklade
av en kombination av medicinska experter
och maskininlärningsexperter,
men sedan ett år tillbaka
har vi tagit oss förbi det också.
Det här är ett exempel på hur man
identifierar cancerområden
i mänsklig vävnad under ett mikroskåp.
Systemet som visas här kan identifiera
de områdena med större exakthet,
eller ungefär lika exakt,
som mänskliga patologer,
fast det enbart bygger på djupinlärning
helt utan medicinsk expertis
och har byggts av människor
som inte har någon erfarenhet på området.
På liknande vis, här, det här med
segmentering av neuroner.
Vi kan nu segmentera neuroner
ungefär lika exakt som människor kan,
men det här systemet utvecklades
med hjälp av djupinlärning
av människor utan erfarenhet av läkekonst.
Så jag själv, som någon som inte har
någon erfarenhet av läkekonst,
tycks vara helt kvalificerad för
att starta ett nytt medicinskt företag,
vilket jag gjorde.
Jag var en aning livrädd för att göra det,
men teoretiskt sett borde det vara möjligt
att praktisera nyttig läkekonst
bara på basis av dessa dataanalystekniker.
Och som tur är har återkopplingen
varit fantastisk,
inte bara från media
utan också från läkarkåren,
som har varit väldigt stöttande.
Teorin innebär att vi kan ta mittendelen
av den medicinska processen
och göra om den till dataanalys
så långt det är möjligt,
och på så sätt frigöra läkarna till
att göra det de är bäst på.
Jag vill ge er ett exempel.
Det tar oss nu ungefär 15 minuter
att ta fram ett nytt
medicinskt diagnostiskt test
och jag ska visa er det i realtid nu,
men jag har komprimerat det
till tre minuter
genom att skära bort en del.
Snarare än att visa er hur man skapar
ett medicinskt diagnostiskt test,
så vill jag visa er
ett diagnostiskt test på bilbilder,
eftersom det är något
som vi alla kan förstå.
Så vi börjar med ungefär
1,5 miljoner bilbilder,
och jag vill skapa något som kan sortera
dem beroende på vilken
vinkel bilden är tagen ur.
De här bilderna har inga etiketter,
så jag måste börja från början.
Med vår djupinlärningsalgoritm
kan den automatiskt identifiera områden
med struktur i bilderna.
Det fina är att nu kan människan
och datorn samarbeta.
Människan, som ni ser här,
talar om för datorn vilka områden
som är intressanta, den information
som hon vill att datorn använder
för att förbättra algoritmen.
De här djupinlärningssystemen
existerar faktiskt
i en 16000-dimensionell rymd,
så ni kan här se hur datorn roterar
genom den rymden
och letar efter nya strukturella områden.
Och när den hittar ett sånt
så kan människan som styr den påpeka
att dessa områden är intressanta.
Så här har datorn lyckats hitta områden,
till exempel vinklar.
Så medan vi går igenom den här processen,
så berättar vi gradvis
mer och mer för datorn
om vilka strukturer vi letar efter.
I ett diagnostiskt test
skulle det här motsvara en patolog
som identifierar sjuka områden
eller en radiolog som identifierar
potentiellt farliga knutor.
Och ibland kan det vara svårt
för algoritmen.
I det här fallet blev den något förvirrad.
Fronten och bakänden på bilarna
är helt ihopblandade.
Så här behöver vi
vara lite mer försiktiga,
och manuellt välja ut fronterna
men inte bakändarna,
och sen berätta för datorn
att detta är en sorts grupp
som vi är intresserade av.
Så vi gör det en stund,
vi hoppar över en liten bit,
och sen tränar vi
maskininlärningsalgoritmen
baserat på ett par hundra saker
och så hoppas vi att den har
blivit mycket bättre.
Ni kan se att den nu har börjat tona ut
vissa av de här bilderna
och visar oss därmed att den redan vet
hur den själv ska förstå vissa av dem.
Sen kan vi använda det här konceptet
av liknande bilder
och med hjälp av liknande bilder
kan ni nu se att datorn vid det här laget
kan hitta enbart bilder med bilfronter.
Så, vid det här laget kan människan
berätta för datorn att,
"Okej, bra - du har gjort
ett bra jobb med det."
Ibland är det förstås
även vid det här laget
svårt att skilja ut grupper.
I det här fallet,
trots att vi har låtit datorn
försöka rotera det här en stund,
så ser vi att bilder
av vänster och höger sida
har blandats ihop.
Så vi kan ge datorn några tips,
som "Okej, försök hitta
en projektion som skiljer ut
vänstersidorna och högersidorna
så gott det går
med hjälp av en djupinlärningsalgoritm."
Och med det tipset - ah, så lyckas den.
Den har hittat ett sätt
att tänka kring de här objekten
som har skiljt ut dessa tillsammans.
Så ni förstår tanken här.
Det här är ett fall som inte handlar om
att människan ersätts av datorn,
utan om att de arbetar tillsammans.
Vad vi gör är att vi ersätter någonting
som brukade ta ett helt team
på fem eller sex personer ungefär sju år
och ersätter det med någonting
som tar 15 minuter
för en person på egen hand.
Så den här processen kräver ungefär
fyra eller fem upprepningar.
Ni kan se att vi nu har 62 procent
av våra 1,5 miljoner bilder
korrekt klassificerade.
Och vid det här laget,
kan vi börja att ganska snabbt
ta tag i en hela stora sektioner
och kolla igenom för att säkerställa
att det inte finns några misstag.
Där vi hittar misstag
kan vi uppmärksamma datorn på dem.
Genom att använda den här sortens process
för alla olika grupper,
är vi nu uppe i 80 procent
framgångsrikt klassificerade bilder.
Och vid det här laget
är det bara en fråga om
att hitta de få bilder
som inte har klassificerats korrekt,
och försöka förstå varför.
Och på det sättet
är vi efter 15 minuter uppe
i 97 procent klassificerade bilder.
Det här är en teknik som skulle kunna
bistå med att överbrygga det stora problem
som utgörs av begränsad tillgång
till medicinsk expertis i världen.
Världsekonomiskt forum menar
att det råder en mellan 10x och 20x
brist på läkare i utvecklingsländer
och att det skulle ta ungefär 300 år
att lära upp tillräckligt många människor
för att lösa det.
Så föreställ er om vi kan hjälpa till
att öka effektiviteten
med hjälp av djupinlärning.
Så, de här möjligheterna
gör mig väldigt ivrig.
Jag är också bekymrad över problemen.
Problemet är att i alla blå områden
på den här kartan
består jobben till 80 procent av tjänster.
Vad är tjänster?
Det här är tjänster.
Det här är också precis vad datorerna
har lärt sig att göra.
Så 80 procent av jobben
i den utvecklade världen
utför sånt som datorer
precis har lärt sig att göra.
Vad betyder det här?
Nå, det blir fint.
Nya jobb kommer att ersätta dem.
Till exempel blir det fler jobb
för forskare inom data.
Eller, inte riktigt.
Det tar inte en forskare särskilt lång tid
att bygga en sån här.
De här fyra algoritmerna, till exempel,
har alla byggts av samma kille.
Så, om ni tänker att,
"Åh, det här har hänt förr,
vi har sett det här hända
när nya saker har uppfunnits
och de har ersatts av nya jobb,
vilka kommer de nya jobben att vara?"
Det är väldigt svårt att räkna ut,
eftersom mänsklig prestationsförmåga
utvecklas gradvis,
emedan vi nu har ett system,
djupinlärning, som vi vet
faktiskt utvecklas exponentiellt.
Och vi är här.
Så nu ser vi saker omkring oss och
och vi tänker "Åh, datorer är
rätt korkade." Eller hur?
Men om fem år kommer datorerna
att ha lämnat oss långt bakom sig.
Så vi behöver börja tänka på
den här förmågan redan nu.
Vi har sett det en gång tidigare förstås.
I den industriella revolutionen
såg vi en stegvis förändring
i prestanda tack vare motorer.
Saken är den, att efter en stund
flackade kurvan ut.
Det orsakade social förändring,
men så snart motorerna användes
för att generera kraft i alla situationer
så lugnade det ner sig.
Maskininlärningsrevolutionen
kommer skilja sig mycket
från den industriella revolutionen,
därför att maskininlärningsrevolutionen
aldrig kommer att lugna ner sig.
Ju bättre datorer blir
på intellektuella aktiviteter
desto bättre kan de bygga bättre datorer
som har större intellektuella förmågor,
så det här kommer att bli en förändring
som världen aldrig förr har upplevt,
så er tidigare uppfattning
om vad som är möjligt förändras.
Det här påverkar oss redan.
Under de senaste 25 åren
har kapitalproduktiviteten ökat,
arbetsproduktivitet är oförändrad,
faktiskt en aning minskande.
Så jag vill att vi börjar
diskutera det här nu.
Jag vet att ganska ofta
när jag berättar om det här,
kan folk vara ganska avfärdande.
Datorer kan inte tänka på riktigt,
de har inga känslor,
de förstår inte poesi,
vi förstår inte riktigt hur de fungerar.
Så vadå?
Just nu kan datorer göra det
som människor ägnar det mesta
av sin tid åt att göra för att få betalt,
så det är hög tid att börja tänka
på hur vi ska anpassa
våra sociala och ekonomiska strukturer
för att klara av den nya verkligheten.
Tack.
(Applåder)