1 00:00:00,880 --> 00:00:04,893 Det brukade vara så att om du ville få en dator att göra något nytt 2 00:00:04,893 --> 00:00:06,447 så behövde du programmera den. 3 00:00:06,447 --> 00:00:09,858 Programmering, för dem av er som inte har gjort det själva, 4 00:00:09,858 --> 00:00:11,307 kräver att man 5 00:00:11,307 --> 00:00:13,846 på ett olidligt detaljerat sätt 6 00:00:13,846 --> 00:00:16,727 anger varenda steg man vill att datorn ska ta 7 00:00:16,727 --> 00:00:19,089 för att uppnå önskat mål. 8 00:00:19,089 --> 00:00:22,585 Men, om du vill göra något som du inte vet själv hur man gör, 9 00:00:22,585 --> 00:00:24,648 då blir det här en enorm utmaning. 10 00:00:24,648 --> 00:00:28,131 Så det här var den utmaning som denne man, Arthur Samuel, ställdes inför. 11 00:00:28,131 --> 00:00:32,208 1956 ville han få sin dator till 12 00:00:32,208 --> 00:00:34,548 att slå honom i spelet Dam. 13 00:00:34,548 --> 00:00:36,588 Hur kan du skriva ett program, 14 00:00:36,588 --> 00:00:40,394 och ange på ett olidligt detaljerat sätt, hur det ska slå dig i Dam? 15 00:00:40,394 --> 00:00:42,116 Så han kom på en idé: 16 00:00:42,116 --> 00:00:45,840 han lät datorn spela mot sig själv tusentals gånger 17 00:00:45,840 --> 00:00:48,364 och lära sig att spela Dam. 18 00:00:48,804 --> 00:00:51,544 Och det fungerade faktiskt, och vid 1962 19 00:00:51,544 --> 00:00:54,956 hade datorn slagit Connecticuts statsmästare. 20 00:00:55,301 --> 00:00:58,534 Så Arthur Samuels var maskininlärningens fader, 21 00:00:58,534 --> 00:01:00,211 och jag är skyldig honom så mycket, 22 00:01:00,211 --> 00:01:03,014 för att jag är verksam inom maskininlärning. 23 00:01:03,014 --> 00:01:04,479 Jag var ordförande i Kaggle, 24 00:01:04,479 --> 00:01:07,867 en gemenskap på över 200 000 verksamma inom maskininlärning. 25 00:01:07,867 --> 00:01:09,925 Kaggle anordnar tävlingar 26 00:01:09,925 --> 00:01:13,633 för att försöka åstadkomma lösningar på olösta problem, 27 00:01:13,633 --> 00:01:17,001 och det har varit framgångsrikt vid hundratals tillfällen. 28 00:01:17,470 --> 00:01:19,940 Så från den synvinkeln kunde jag få veta 29 00:01:19,940 --> 00:01:23,890 väldigt mycket om vad maskininlärning kan göra i det förflutna, kan göra idag, 30 00:01:23,890 --> 00:01:26,252 och vad den kan tänkas göra i framtiden. 31 00:01:26,252 --> 00:01:29,472 Maskininlärningens första stora framgång 32 00:01:29,472 --> 00:01:30,942 var kanske Google. 33 00:01:30,942 --> 00:01:33,784 Google visade att det är möjligt att få fram information 34 00:01:33,784 --> 00:01:35,536 genom att använda en datoralgoritm, 35 00:01:35,536 --> 00:01:38,437 en datoralgoritm som bygger på maskininlärning. 36 00:01:38,437 --> 00:01:42,323 Sen dess har maskininlärning rönt många kommersiella framgångar. 37 00:01:42,323 --> 00:01:43,970 Företag som Amazon och Netflix 38 00:01:43,970 --> 00:01:46,392 använder maskininlärning för att föreslå produkter 39 00:01:46,392 --> 00:01:47,984 som du kan tänkas vilja köpa, 40 00:01:47,984 --> 00:01:49,896 filmer som du kan tänkas vilja se. 41 00:01:49,896 --> 00:01:51,523 Ibland är det nästan lite läskigt. 42 00:01:51,523 --> 00:01:53,447 Företag som LinkedIn och Facebook 43 00:01:53,447 --> 00:01:56,301 kan ibland berätta för dig vilka dina vänner kan tänkas vara 44 00:01:56,301 --> 00:01:58,608 och du kan inte föreställa dig hur det gick till 45 00:01:58,608 --> 00:02:01,335 och det beror på att de använder maskininlärningens kraft. 46 00:02:01,335 --> 00:02:04,512 Det här är algoritmer som har lärt sig att göra detta utifrån data 47 00:02:04,512 --> 00:02:07,399 snarare än att ha blivit programmerade till det. 48 00:02:07,399 --> 00:02:09,877 Det här också hemligheten bakom IBM:s framgångar 49 00:02:09,877 --> 00:02:13,739 med att få Watson att slå de två världsmästarna i Jeopardy, 50 00:02:13,739 --> 00:02:16,964 genom att besvara otroligt subtila och komplexa frågor som den här. 51 00:02:16,964 --> 00:02:19,799 [Det antika "Lion of Nimrud" försvann från denna stads ...] 52 00:02:19,799 --> 00:02:23,034 Det här är också anledningen till att vi nu ser självkörande bilar. 53 00:02:23,034 --> 00:02:25,856 Om du vill kunna skilja på till exempel 54 00:02:25,856 --> 00:02:28,488 ett träd och en fotgängare så är det ganska viktigt. 55 00:02:28,488 --> 00:02:31,105 Vi vet inte hur vi skulle kunna programmera något sånt, 56 00:02:31,105 --> 00:02:34,072 men med maskininlärning är det här nu möjligt. 57 00:02:34,072 --> 00:02:36,800 Och den här bilen har faktiskt kört över 1,5 miljoner mil, 58 00:02:36,800 --> 00:02:39,856 utan olyckor, på vanliga vägar. 59 00:02:40,196 --> 00:02:44,110 Så nu vet vi att datorer kan lära sig, 60 00:02:44,110 --> 00:02:46,010 och datorer kan lära sig att göra saker 61 00:02:46,010 --> 00:02:48,848 som vi ibland faktiskt själva inte vet hur man gör, 62 00:02:48,848 --> 00:02:51,733 eller så kan de göra något bättre än vi. 63 00:02:51,733 --> 00:02:55,928 Ett av det mer häpnadsväckande exemplen av maskininlärning som jag har sett 64 00:02:55,928 --> 00:02:58,320 tog plats i ett projekt som jag körde på Kaggle 65 00:02:58,320 --> 00:03:01,911 där ett lag som leddes av en kille som heter Geoffrey Hinton 66 00:03:01,911 --> 00:03:03,463 från University of Toronto 67 00:03:03,463 --> 00:03:06,140 vann en tävling i automatisk medicinforskning. 68 00:03:06,140 --> 00:03:08,987 Men vad som var exceptionellt var inte bara att de slog 69 00:03:08,987 --> 00:03:13,000 alla Mercks algoritmer och hela den internationella akademiska gemenskapen, 70 00:03:13,000 --> 00:03:18,061 utan att ingen i laget hade någon bakgrund i kemi, biologi eller livsvetenskap 71 00:03:18,061 --> 00:03:20,230 och de klarade det på två veckor. 72 00:03:20,230 --> 00:03:21,961 Hur gjorde de detta? 73 00:03:22,421 --> 00:03:25,342 De använde en enastående algoritm som kallas djupinlärning. 74 00:03:25,342 --> 00:03:28,291 Det här var så viktigt att det till och med rapporterades 75 00:03:28,291 --> 00:03:31,412 på framsidan till New York Times några veckor senare. 76 00:03:31,412 --> 00:03:34,147 Här är Geoffrey Hinton till vänster. 77 00:03:34,147 --> 00:03:38,488 Djupinlärningsalgoritmen är inspirerad av hur hjärnan fungerar 78 00:03:38,488 --> 00:03:40,300 och som en effekt av det 79 00:03:40,300 --> 00:03:43,921 så har den inga teoretiska begränsningar i vad den kan åstadkomma. 80 00:03:43,921 --> 00:03:46,964 Ju mer data och beräkningstid du ger den, 81 00:03:46,964 --> 00:03:48,276 desto bättre blir den. 82 00:03:48,276 --> 00:03:50,615 New York Times visade i sin artikel också på 83 00:03:50,615 --> 00:03:52,857 en annan exceptionell effekt av djupinlärning 84 00:03:52,857 --> 00:03:55,075 som jag ska visa er nu. 85 00:03:55,569 --> 00:04:00,073 Den visar att datorer kan lyssna och förstå. 86 00:04:00,510 --> 00:04:03,221 (Video) Richard Rashid: Det sista steget 87 00:04:03,221 --> 00:04:06,246 som jag vill kunna ta i den här processen 88 00:04:06,246 --> 00:04:10,295 är att kunna tala till er på kinesiska. 89 00:04:10,961 --> 00:04:13,596 Nyckeln här är att 90 00:04:13,596 --> 00:04:18,598 vi har kunnat ta en stor mängd information från många som talar kinesiska 91 00:04:18,598 --> 00:04:21,128 och producera ett "text till tal"-system 92 00:04:21,128 --> 00:04:25,801 som tar kinesisk text och konverterar den till kinesiskt språk. 93 00:04:26,471 --> 00:04:29,929 Sen har vi tagit en timme eller så av min egen röst 94 00:04:29,929 --> 00:04:31,820 och vi har använt den till att modulera 95 00:04:31,820 --> 00:04:36,364 vårt grundläggande "text till tal"-system så att det låter som jag. 96 00:04:36,364 --> 00:04:38,904 Återigen, resultatet är inte perfekt. 97 00:04:39,344 --> 00:04:41,552 Det finns fortfarande några fel. 98 00:04:41,552 --> 00:04:44,036 (Kinesiska) 99 00:04:44,036 --> 00:04:47,023 (Applåder) 100 00:04:49,446 --> 00:04:52,343 Det finns mycket att göra på det här området. 101 00:04:53,022 --> 00:04:56,007 (Kinesiska) 102 00:04:56,667 --> 00:04:59,640 (Applåder) 103 00:05:01,345 --> 00:05:04,744 Jeremy Howard: Det där var på en maskininlärningskonferens i Kina. 104 00:05:04,744 --> 00:05:07,154 Det är faktiskt inte ofta på akademiska konferenser 105 00:05:07,154 --> 00:05:09,011 att man hör spontana applåder, 106 00:05:09,011 --> 00:05:12,687 fast på TEDx-konferenser är det förstås välkommet. 107 00:05:12,687 --> 00:05:15,482 Allt ni såg där hände med hjälp av maskininlärning. 108 00:05:15,482 --> 00:05:16,407 (Applåder) Tack. 109 00:05:16,407 --> 00:05:18,719 Avskriften till engelska var djupinlärning. 110 00:05:18,719 --> 00:05:22,421 Översättningen till kinesiska och texten i övre högra hörnet vad djupinlärning 111 00:05:22,421 --> 00:05:25,758 och skapandet av rösten var också djupinlärning. 112 00:05:26,598 --> 00:05:29,122 Så djupinlärning är en exceptionell sak. 113 00:05:29,122 --> 00:05:32,461 Det är en enda algoritm som ser ut att kunna göra nästan vad som helst, 114 00:05:32,461 --> 00:05:35,712 och jag upptäckte att ett år tidigare hade den också lärt sig att se. 115 00:05:35,712 --> 00:05:37,298 I en obskyr tävling från Tyskland 116 00:05:37,298 --> 00:05:39,745 som hette German Traffic Sign Recognition Benchmark, 117 00:05:39,745 --> 00:05:43,148 hade djupinlärning lärt sig att känna igen trafikskyltar som den här. 118 00:05:43,148 --> 00:05:45,302 Den kunde inte bara känna igen trafikskyltarna 119 00:05:45,302 --> 00:05:47,050 bättre än alla andra algoritmer, 120 00:05:47,050 --> 00:05:50,199 utan resultattavlan visade att den faktiskt var bättre än människor 121 00:05:50,199 --> 00:05:51,981 ungefär dubbelt så bra som människor. 122 00:05:51,981 --> 00:05:54,167 Vid 2011 hade vi det första exemplet 123 00:05:54,167 --> 00:05:57,122 på en dator som kan se bättre än människor. 124 00:05:57,442 --> 00:05:59,491 Sen dess har det hänt många saker. 125 00:05:59,491 --> 00:06:03,005 2012 meddelade Google att de hade låtit en djupinlärningsalgoritm 126 00:06:03,005 --> 00:06:04,420 titta på YouTube-klipp 127 00:06:04,420 --> 00:06:07,857 och beräknade datan på 16 000 datorer i en månad. 128 00:06:07,857 --> 00:06:12,218 Och datorn lärde sig, helt av sig själv, om koncept som människor och katter 129 00:06:12,218 --> 00:06:13,907 bara genom att titta på klippen. 130 00:06:13,907 --> 00:06:16,379 Det här är väldigt likt den mänskliga lärprocessen. 131 00:06:16,379 --> 00:06:19,199 Människor lär sig inte genom att någon berättar vad de ser, 132 00:06:19,199 --> 00:06:22,060 utan de lär sig själva vad de här sakerna är. 133 00:06:22,450 --> 00:06:25,819 2012 vann George Hinton, som vi såg tidigare, också 134 00:06:25,819 --> 00:06:28,677 den väldigt populära ImageNet-tävlingen, 135 00:06:28,677 --> 00:06:32,818 när han försökte lista ut, på basis av 1,5 miljoner bilder, 136 00:06:32,818 --> 00:06:34,256 vad bilderna innehöll. 137 00:06:34,256 --> 00:06:37,789 Nu 2014, är vi nere på en sexprocentig felmarginal 138 00:06:37,789 --> 00:06:39,242 för bildigenkänning. 139 00:06:39,242 --> 00:06:41,268 Detta är, återigen, bättre än människor. 140 00:06:41,268 --> 00:06:45,037 Så maskiner gör verkligen ett exceptionellt bra jobb här 141 00:06:45,037 --> 00:06:47,306 och används nu inom industrin. 142 00:06:47,306 --> 00:06:50,348 Till exempel meddelade Google förra året 143 00:06:50,348 --> 00:06:54,933 att de hade mappat varenda plats i Frankrike på två timmar. 144 00:06:54,933 --> 00:06:58,180 Och de gjorde detta genom att föda bilder av gatuvyer 145 00:06:58,180 --> 00:07:01,019 in i en djupinlärningsalgoritm för att den skulle känna igen 146 00:07:01,019 --> 00:07:02,738 och läsa gatunummer. 147 00:07:02,738 --> 00:07:05,059 Föreställ er hur lång tid detta skulle ha tagit: 148 00:07:05,059 --> 00:07:07,829 dussintals med människor, många år. 149 00:07:08,274 --> 00:07:10,185 Det här händer också i Kina. 150 00:07:10,185 --> 00:07:14,221 Baidu kan väl kanske sägas vara ett kinesiskt Google 151 00:07:14,221 --> 00:07:16,504 och vad ni ser här uppe till vänster 152 00:07:16,504 --> 00:07:18,755 är ett exempel på en bild som jag laddade upp 153 00:07:18,755 --> 00:07:20,746 i Baidus djupinlärningssystem, 154 00:07:20,746 --> 00:07:24,247 och nedanför kan ni se att systemet har förstått vad bilden innehåller 155 00:07:24,247 --> 00:07:26,483 och hittat liknande bilder. 156 00:07:26,483 --> 00:07:29,219 De liknande bilderna har faktiskt liknande bakgrunder, 157 00:07:29,219 --> 00:07:30,877 liknande ansiktsvinklar, 158 00:07:30,877 --> 00:07:32,935 till och med några med utstickande tungor. 159 00:07:32,935 --> 00:07:35,695 Det här handlar inte om att titta på text på en webbsida. 160 00:07:35,695 --> 00:07:37,447 Allt jag laddade upp var en bild. 161 00:07:37,447 --> 00:07:40,958 Så, nu har vi datorer som faktiskt förstår vad de ser 162 00:07:40,958 --> 00:07:42,752 och därmed kan söka igenom databaser 163 00:07:42,752 --> 00:07:45,964 med hundra miljontals bilder i realtid. 164 00:07:46,306 --> 00:07:49,436 Så vad betyder det nu att datorer kan se? 165 00:07:49,436 --> 00:07:51,553 Det betyder inte bara att datorer kan se. 166 00:07:51,553 --> 00:07:53,622 Djupinlärning har faktiskt gjort mer än så. 167 00:07:53,622 --> 00:07:55,756 Komplexa, nyanserade meningar 168 00:07:55,756 --> 00:07:57,650 som den här kan nu förstås 169 00:07:57,650 --> 00:07:59,394 med djupinlärningsalgoritmer. 170 00:07:59,394 --> 00:08:00,337 Som ni kan se här, 171 00:08:00,337 --> 00:08:03,685 så har det här Stanford-baserade systemet med den röda pricken i toppen 172 00:08:03,685 --> 00:08:07,134 räknat ut att den här meningen uttrycker negativa känslor. 173 00:08:07,134 --> 00:08:10,362 Djupinlärning är faktiskt nära den mänskliga prestationsförmågan 174 00:08:10,362 --> 00:08:12,708 när det gäller att förstå vad meningar handlar om 175 00:08:12,708 --> 00:08:15,426 och vad de säger om det. 176 00:08:16,034 --> 00:08:18,651 Djupinlärning har också använts till att läsa kinesiska, 177 00:08:18,651 --> 00:08:21,807 på, återigen, nästan modersmålsnivå. 178 00:08:21,807 --> 00:08:23,975 Den här algoritmen har utvecklats i Schweitz 179 00:08:23,975 --> 00:08:27,331 av människor som varken talar eller förstår kinesiska. 180 00:08:27,331 --> 00:08:29,472 Jag brukar säga att, att använda djupinlärning 181 00:08:29,472 --> 00:08:31,831 är nära nog det bästa systemet i världen för detta 182 00:08:31,831 --> 00:08:36,175 även jämfört med mänsklig modersmålsförståelse. 183 00:08:36,718 --> 00:08:39,682 Det här ett system som vi satte ihop på mitt företag 184 00:08:39,682 --> 00:08:41,728 som visar hur allt det här sätts ihop. 185 00:08:41,728 --> 00:08:44,189 De här bilderna har ingen vidhängd text, 186 00:08:44,189 --> 00:08:46,541 och medan jag skriver in meningar här 187 00:08:46,541 --> 00:08:49,510 så förstår den de här bilderna i realtid 188 00:08:49,510 --> 00:08:51,189 och listar ut vad de handlar om 189 00:08:51,189 --> 00:08:54,352 och hittar bilder som liknar den text som jag skriver in. 190 00:08:54,352 --> 00:08:57,108 Så ni kan se att den faktiskt förstår mina meningar 191 00:08:57,108 --> 00:08:59,332 och faktiskt förstår de här bilderna. 192 00:08:59,332 --> 00:09:01,891 Jag vet att ni har sett liknande saker på Google, 193 00:09:01,891 --> 00:09:04,666 där du kan skriva in saker och den visar dig bilder, 194 00:09:04,666 --> 00:09:08,090 men vad den faktiskt gör är att den söker av webbsidan efter text. 195 00:09:08,090 --> 00:09:10,751 Det är en stor skillnad mot att förstå bilderna. 196 00:09:10,751 --> 00:09:13,183 Det här är något som datorer har kunnat göra 197 00:09:13,183 --> 00:09:16,507 för första gången för bara några månader sen. 198 00:09:17,091 --> 00:09:21,182 Så nu kan vi se att datorer inte bara kan se, de kan också läsa, 199 00:09:21,182 --> 00:09:24,667 och så har vi också visat att de kan förstå vad de hör. 200 00:09:24,667 --> 00:09:27,378 Kanske är det inte överraskande att jag nu berättar för er 201 00:09:27,378 --> 00:09:28,569 att de kan skriva. 202 00:09:28,569 --> 00:09:30,811 Här är lite text som jag genererade igår 203 00:09:30,811 --> 00:09:33,330 med hjälp av en djupinlärningsalgoritm. 204 00:09:33,963 --> 00:09:37,096 Och här är lite text som en algoritm från Stanford har genererat. 205 00:09:37,096 --> 00:09:39,170 Var och en av dessa meningar har genererats 206 00:09:39,170 --> 00:09:43,109 av en djupinlärningsalgoritm för att förklara varje bild. 207 00:09:43,109 --> 00:09:47,521 Den här algoritmen har aldrig förut sett en man i svart tröja som spelar gitarr. 208 00:09:47,521 --> 00:09:49,951 Den har sett en man förut, den har sett svart förut, 209 00:09:49,951 --> 00:09:51,400 den har sett en gitarr förut, 210 00:09:51,400 --> 00:09:55,304 men den har helt fristående genererat den här nya beskrivningen av bilden. 211 00:09:55,304 --> 00:09:58,527 Vi är ännu inte riktigt framme vid mänsklig prestationsförmåga här, 212 00:09:58,527 --> 00:09:59,480 men vi är nära. 213 00:09:59,480 --> 00:10:03,264 Tester har visat att människor föredrar den datorgenererade förklaringen 214 00:10:03,264 --> 00:10:04,791 en av fyra gånger. 215 00:10:04,791 --> 00:10:06,985 Det här systemet är nu bara två veckor gammalt, 216 00:10:06,985 --> 00:10:08,871 så det är sannolikt att datoralgoritmen 217 00:10:08,871 --> 00:10:10,878 kommer att slå mänsklig prestationsförmåga 218 00:10:10,878 --> 00:10:11,865 inom ett år 219 00:10:11,865 --> 00:10:13,364 om det fortsätter i samma takt. 220 00:10:13,364 --> 00:10:16,413 Så, datorer kan skriva också. 221 00:10:16,413 --> 00:10:19,888 När vi slår samman allt det här så ser vi väldigt spännande möjligheter. 222 00:10:19,888 --> 00:10:21,380 Till exempel inom läkekonsten, 223 00:10:21,380 --> 00:10:23,905 ett team i Boston meddelade att de hade upptäckt 224 00:10:23,905 --> 00:10:26,854 dussintals nya kliniskt relevanta kännetecken 225 00:10:26,854 --> 00:10:31,440 på tumörer, som hjälper läkare att göra cancerprognoser. 226 00:10:31,900 --> 00:10:34,266 Också liknande, meddelade en grupp i Stanford 227 00:10:34,266 --> 00:10:38,799 att de, genom att titta på vävnad under förstoring, hade utvecklat 228 00:10:38,799 --> 00:10:40,560 ett maskininlärningsbaserat system 229 00:10:40,560 --> 00:10:43,142 som faktiskt är bättre än mänskliga patologer 230 00:10:43,142 --> 00:10:45,352 på att förutse överlevnadssiffror 231 00:10:45,372 --> 00:10:47,062 för cancersjuka. 232 00:10:47,062 --> 00:10:49,146 I båda dessa fall visade sig förutsägelserna 233 00:10:49,146 --> 00:10:50,620 inte bara vara mer rättvisande 234 00:10:50,620 --> 00:10:53,266 utan de genererade också ny insiktsfull kunskap. 235 00:10:53,276 --> 00:10:54,781 I röntgenfallet 236 00:10:54,781 --> 00:10:57,876 var det nya kliniska indikatorer som människor kan förstå. 237 00:10:57,876 --> 00:10:59,668 I patologifallet 238 00:10:59,668 --> 00:11:04,168 upptäckte systemet att cellerna runt cancern 239 00:11:04,168 --> 00:11:07,508 är lika viktiga som cancercellerna själva 240 00:11:07,508 --> 00:11:09,260 för att ställa diagnos. 241 00:11:09,260 --> 00:11:14,164 Det här var motsatsen till vad patologer hade fått lära sig i årtionden. 242 00:11:15,131 --> 00:11:17,913 I båda dessa fall var systemen utvecklade 243 00:11:17,913 --> 00:11:21,414 av en kombination av medicinska experter och maskininlärningsexperter, 244 00:11:21,414 --> 00:11:24,275 men sedan ett år tillbaka har vi tagit oss förbi det också. 245 00:11:24,275 --> 00:11:27,614 Det här är ett exempel på hur man identifierar cancerområden 246 00:11:27,614 --> 00:11:30,354 i mänsklig vävnad under ett mikroskåp. 247 00:11:30,354 --> 00:11:34,967 Systemet som visas här kan identifiera de områdena med större exakthet, 248 00:11:34,967 --> 00:11:37,742 eller ungefär lika exakt, som mänskliga patologer, 249 00:11:37,742 --> 00:11:41,134 fast det enbart bygger på djupinlärning helt utan medicinsk expertis 250 00:11:41,134 --> 00:11:44,480 och har byggts av människor som inte har någon erfarenhet på området. 251 00:11:44,730 --> 00:11:47,495 På liknande vis, här, det här med segmentering av neuroner. 252 00:11:47,495 --> 00:11:50,633 Vi kan nu segmentera neuroner ungefär lika exakt som människor kan, 253 00:11:50,633 --> 00:11:53,400 men det här systemet utvecklades med hjälp av djupinlärning 254 00:11:53,400 --> 00:11:56,289 av människor utan erfarenhet av läkekonst. 255 00:11:56,981 --> 00:12:00,148 Så jag själv, som någon som inte har någon erfarenhet av läkekonst, 256 00:12:00,148 --> 00:12:03,875 tycks vara helt kvalificerad för att starta ett nytt medicinskt företag, 257 00:12:03,875 --> 00:12:06,021 vilket jag gjorde. 258 00:12:06,021 --> 00:12:08,041 Jag var en aning livrädd för att göra det, 259 00:12:08,041 --> 00:12:10,650 men teoretiskt sett borde det vara möjligt 260 00:12:10,650 --> 00:12:16,142 att praktisera nyttig läkekonst bara på basis av dessa dataanalystekniker. 261 00:12:16,142 --> 00:12:18,622 Och som tur är har återkopplingen varit fantastisk, 262 00:12:18,622 --> 00:12:20,978 inte bara från media utan också från läkarkåren, 263 00:12:20,978 --> 00:12:22,996 som har varit väldigt stöttande. 264 00:12:23,322 --> 00:12:27,471 Teorin innebär att vi kan ta mittendelen av den medicinska processen 265 00:12:27,471 --> 00:12:30,364 och göra om den till dataanalys så långt det är möjligt, 266 00:12:30,364 --> 00:12:33,429 och på så sätt frigöra läkarna till att göra det de är bäst på. 267 00:12:33,429 --> 00:12:35,031 Jag vill ge er ett exempel. 268 00:12:35,031 --> 00:12:37,330 Det tar oss nu ungefär 15 minuter 269 00:12:37,330 --> 00:12:40,069 att ta fram ett nytt medicinskt diagnostiskt test 270 00:12:40,069 --> 00:12:41,829 och jag ska visa er det i realtid nu, 271 00:12:41,829 --> 00:12:43,961 men jag har komprimerat det till tre minuter 272 00:12:43,961 --> 00:12:45,373 genom att skära bort en del. 273 00:12:45,373 --> 00:12:48,717 Snarare än att visa er hur man skapar ett medicinskt diagnostiskt test, 274 00:12:48,717 --> 00:12:49,730 så vill jag visa er 275 00:12:49,730 --> 00:12:52,123 ett diagnostiskt test på bilbilder, 276 00:12:52,123 --> 00:12:54,268 eftersom det är något som vi alla kan förstå. 277 00:12:54,268 --> 00:12:57,269 Så vi börjar med ungefär 1,5 miljoner bilbilder, 278 00:12:57,269 --> 00:13:00,475 och jag vill skapa något som kan sortera dem beroende på vilken 279 00:13:00,475 --> 00:13:02,698 vinkel bilden är tagen ur. 280 00:13:02,698 --> 00:13:06,586 De här bilderna har inga etiketter, så jag måste börja från början. 281 00:13:06,586 --> 00:13:08,451 Med vår djupinlärningsalgoritm 282 00:13:08,451 --> 00:13:12,158 kan den automatiskt identifiera områden med struktur i bilderna. 283 00:13:12,158 --> 00:13:15,778 Det fina är att nu kan människan och datorn samarbeta. 284 00:13:15,778 --> 00:13:17,956 Människan, som ni ser här, 285 00:13:17,956 --> 00:13:21,821 talar om för datorn vilka områden som är intressanta, den information 286 00:13:21,821 --> 00:13:25,533 som hon vill att datorn använder för att förbättra algoritmen. 287 00:13:25,915 --> 00:13:27,639 De här djupinlärningssystemen 288 00:13:27,639 --> 00:13:29,933 existerar faktiskt i en 16000-dimensionell rymd, 289 00:13:29,933 --> 00:13:33,009 så ni kan här se hur datorn roterar genom den rymden 290 00:13:33,009 --> 00:13:35,001 och letar efter nya strukturella områden. 291 00:13:35,001 --> 00:13:36,782 Och när den hittar ett sånt 292 00:13:36,782 --> 00:13:40,786 så kan människan som styr den påpeka att dessa områden är intressanta. 293 00:13:40,786 --> 00:13:43,208 Så här har datorn lyckats hitta områden, 294 00:13:43,208 --> 00:13:45,550 till exempel vinklar. 295 00:13:45,550 --> 00:13:47,546 Så medan vi går igenom den här processen, 296 00:13:47,546 --> 00:13:49,716 så berättar vi gradvis mer och mer för datorn 297 00:13:49,716 --> 00:13:52,144 om vilka strukturer vi letar efter. 298 00:13:52,144 --> 00:13:53,916 I ett diagnostiskt test 299 00:13:53,916 --> 00:13:57,266 skulle det här motsvara en patolog som identifierar sjuka områden 300 00:13:57,266 --> 00:14:02,292 eller en radiolog som identifierar potentiellt farliga knutor. 301 00:14:02,292 --> 00:14:04,701 Och ibland kan det vara svårt för algoritmen. 302 00:14:04,701 --> 00:14:06,965 I det här fallet blev den något förvirrad. 303 00:14:06,965 --> 00:14:09,485 Fronten och bakänden på bilarna är helt ihopblandade. 304 00:14:09,485 --> 00:14:11,497 Så här behöver vi vara lite mer försiktiga, 305 00:14:11,497 --> 00:14:14,669 och manuellt välja ut fronterna men inte bakändarna, 306 00:14:14,669 --> 00:14:19,955 och sen berätta för datorn att detta är en sorts grupp 307 00:14:19,955 --> 00:14:21,523 som vi är intresserade av. 308 00:14:21,523 --> 00:14:24,200 Så vi gör det en stund, vi hoppar över en liten bit, 309 00:14:24,200 --> 00:14:26,446 och sen tränar vi maskininlärningsalgoritmen 310 00:14:26,446 --> 00:14:28,160 baserat på ett par hundra saker 311 00:14:28,160 --> 00:14:30,495 och så hoppas vi att den har blivit mycket bättre. 312 00:14:30,495 --> 00:14:33,518 Ni kan se att den nu har börjat tona ut vissa av de här bilderna 313 00:14:33,518 --> 00:14:38,226 och visar oss därmed att den redan vet hur den själv ska förstå vissa av dem. 314 00:14:38,226 --> 00:14:40,968 Sen kan vi använda det här konceptet av liknande bilder 315 00:14:40,968 --> 00:14:42,595 och med hjälp av liknande bilder 316 00:14:42,595 --> 00:14:44,552 kan ni nu se att datorn vid det här laget 317 00:14:44,552 --> 00:14:46,994 kan hitta enbart bilder med bilfronter. 318 00:14:47,016 --> 00:14:50,189 Så, vid det här laget kan människan berätta för datorn att, 319 00:14:50,189 --> 00:14:52,482 "Okej, bra - du har gjort ett bra jobb med det." 320 00:14:53,652 --> 00:14:55,837 Ibland är det förstås även vid det här laget 321 00:14:55,837 --> 00:14:59,511 svårt att skilja ut grupper. 322 00:14:59,511 --> 00:15:02,182 I det här fallet, trots att vi har låtit datorn 323 00:15:02,182 --> 00:15:03,983 försöka rotera det här en stund, 324 00:15:03,983 --> 00:15:06,744 så ser vi att bilder av vänster och höger sida 325 00:15:06,744 --> 00:15:08,222 har blandats ihop. 326 00:15:08,222 --> 00:15:10,362 Så vi kan ge datorn några tips, 327 00:15:10,362 --> 00:15:12,978 som "Okej, försök hitta en projektion som skiljer ut 328 00:15:12,978 --> 00:15:14,621 vänstersidorna och högersidorna 329 00:15:14,621 --> 00:15:15,884 så gott det går 330 00:15:15,884 --> 00:15:18,067 med hjälp av en djupinlärningsalgoritm." 331 00:15:18,067 --> 00:15:21,009 Och med det tipset - ah, så lyckas den. 332 00:15:21,009 --> 00:15:23,891 Den har hittat ett sätt att tänka kring de här objekten 333 00:15:23,891 --> 00:15:26,271 som har skiljt ut dessa tillsammans. 334 00:15:26,271 --> 00:15:28,709 Så ni förstår tanken här. 335 00:15:28,709 --> 00:15:31,591 Det här är ett fall som inte handlar om 336 00:15:31,591 --> 00:15:36,833 att människan ersätts av datorn, 337 00:15:36,833 --> 00:15:39,546 utan om att de arbetar tillsammans. 338 00:15:39,546 --> 00:15:43,096 Vad vi gör är att vi ersätter någonting som brukade ta ett helt team 339 00:15:43,096 --> 00:15:45,098 på fem eller sex personer ungefär sju år 340 00:15:45,098 --> 00:15:47,703 och ersätter det med någonting som tar 15 minuter 341 00:15:47,703 --> 00:15:50,208 för en person på egen hand. 342 00:15:50,208 --> 00:15:54,158 Så den här processen kräver ungefär fyra eller fem upprepningar. 343 00:15:54,158 --> 00:15:55,827 Ni kan se att vi nu har 62 procent 344 00:15:55,827 --> 00:15:58,206 av våra 1,5 miljoner bilder korrekt klassificerade. 345 00:15:58,206 --> 00:16:00,678 Och vid det här laget, kan vi börja att ganska snabbt 346 00:16:00,678 --> 00:16:02,205 ta tag i en hela stora sektioner 347 00:16:02,205 --> 00:16:05,534 och kolla igenom för att säkerställa att det inte finns några misstag. 348 00:16:05,534 --> 00:16:08,802 Där vi hittar misstag kan vi uppmärksamma datorn på dem. 349 00:16:09,616 --> 00:16:12,661 Genom att använda den här sortens process för alla olika grupper, 350 00:16:12,661 --> 00:16:14,758 är vi nu uppe i 80 procent 351 00:16:14,758 --> 00:16:17,563 framgångsrikt klassificerade bilder. 352 00:16:17,613 --> 00:16:19,841 Och vid det här laget är det bara en fråga om 353 00:16:19,841 --> 00:16:23,220 att hitta de få bilder som inte har klassificerats korrekt, 354 00:16:23,220 --> 00:16:26,108 och försöka förstå varför. 355 00:16:26,108 --> 00:16:27,851 Och på det sättet 356 00:16:27,851 --> 00:16:31,972 är vi efter 15 minuter uppe i 97 procent klassificerade bilder. 357 00:16:31,972 --> 00:16:36,378 Det här är en teknik som skulle kunna bistå med att överbrygga det stora problem 358 00:16:36,378 --> 00:16:39,614 som utgörs av begränsad tillgång till medicinsk expertis i världen. 359 00:16:39,614 --> 00:16:43,103 Världsekonomiskt forum menar att det råder en mellan 10x och 20x 360 00:16:43,103 --> 00:16:45,727 brist på läkare i utvecklingsländer 361 00:16:45,727 --> 00:16:47,760 och att det skulle ta ungefär 300 år 362 00:16:47,760 --> 00:16:49,766 att lära upp tillräckligt många människor 363 00:16:49,766 --> 00:16:50,792 för att lösa det. 364 00:16:50,792 --> 00:16:53,619 Så föreställ er om vi kan hjälpa till att öka effektiviteten 365 00:16:53,619 --> 00:16:56,458 med hjälp av djupinlärning. 366 00:16:56,458 --> 00:16:58,690 Så, de här möjligheterna gör mig väldigt ivrig. 367 00:16:58,690 --> 00:17:01,279 Jag är också bekymrad över problemen. 368 00:17:01,279 --> 00:17:04,403 Problemet är att i alla blå områden på den här kartan 369 00:17:04,403 --> 00:17:08,172 består jobben till 80 procent av tjänster. 370 00:17:08,172 --> 00:17:09,959 Vad är tjänster? 371 00:17:09,959 --> 00:17:11,473 Det här är tjänster. 372 00:17:11,473 --> 00:17:15,627 Det här är också precis vad datorerna har lärt sig att göra. 373 00:17:15,627 --> 00:17:19,431 Så 80 procent av jobben i den utvecklade världen 374 00:17:19,431 --> 00:17:21,963 utför sånt som datorer precis har lärt sig att göra. 375 00:17:21,963 --> 00:17:23,403 Vad betyder det här? 376 00:17:23,403 --> 00:17:25,986 Nå, det blir fint. Nya jobb kommer att ersätta dem. 377 00:17:25,986 --> 00:17:28,583 Till exempel blir det fler jobb för forskare inom data. 378 00:17:28,583 --> 00:17:29,550 Eller, inte riktigt. 379 00:17:29,550 --> 00:17:32,548 Det tar inte en forskare särskilt lång tid att bygga en sån här. 380 00:17:32,548 --> 00:17:35,880 De här fyra algoritmerna, till exempel, har alla byggts av samma kille. 381 00:17:35,880 --> 00:17:38,318 Så, om ni tänker att, "Åh, det här har hänt förr, 382 00:17:38,318 --> 00:17:42,126 vi har sett det här hända när nya saker har uppfunnits 383 00:17:42,126 --> 00:17:44,378 och de har ersatts av nya jobb, 384 00:17:44,378 --> 00:17:46,494 vilka kommer de nya jobben att vara?" 385 00:17:46,494 --> 00:17:48,365 Det är väldigt svårt att räkna ut, 386 00:17:48,365 --> 00:17:51,104 eftersom mänsklig prestationsförmåga utvecklas gradvis, 387 00:17:51,104 --> 00:17:54,016 emedan vi nu har ett system, djupinlärning, som vi vet 388 00:17:54,016 --> 00:17:56,893 faktiskt utvecklas exponentiellt. 389 00:17:56,893 --> 00:17:58,498 Och vi är här. 390 00:17:58,498 --> 00:18:00,559 Så nu ser vi saker omkring oss och 391 00:18:00,559 --> 00:18:03,235 och vi tänker "Åh, datorer är rätt korkade." Eller hur? 392 00:18:03,235 --> 00:18:06,664 Men om fem år kommer datorerna att ha lämnat oss långt bakom sig. 393 00:18:06,664 --> 00:18:10,529 Så vi behöver börja tänka på den här förmågan redan nu. 394 00:18:10,529 --> 00:18:12,479 Vi har sett det en gång tidigare förstås. 395 00:18:12,479 --> 00:18:13,966 I den industriella revolutionen 396 00:18:13,966 --> 00:18:16,817 såg vi en stegvis förändring i prestanda tack vare motorer. 397 00:18:17,667 --> 00:18:20,695 Saken är den, att efter en stund flackade kurvan ut. 398 00:18:20,695 --> 00:18:22,377 Det orsakade social förändring, 399 00:18:22,377 --> 00:18:25,816 men så snart motorerna användes för att generera kraft i alla situationer 400 00:18:25,816 --> 00:18:27,930 så lugnade det ner sig. 401 00:18:27,930 --> 00:18:29,493 Maskininlärningsrevolutionen 402 00:18:29,493 --> 00:18:32,332 kommer skilja sig mycket från den industriella revolutionen, 403 00:18:32,332 --> 00:18:35,732 därför att maskininlärningsrevolutionen aldrig kommer att lugna ner sig. 404 00:18:35,732 --> 00:18:38,254 Ju bättre datorer blir på intellektuella aktiviteter 405 00:18:38,254 --> 00:18:42,502 desto bättre kan de bygga bättre datorer som har större intellektuella förmågor, 406 00:18:42,502 --> 00:18:44,770 så det här kommer att bli en förändring 407 00:18:44,770 --> 00:18:47,178 som världen aldrig förr har upplevt, 408 00:18:47,178 --> 00:18:50,484 så er tidigare uppfattning om vad som är möjligt förändras. 409 00:18:50,974 --> 00:18:52,754 Det här påverkar oss redan. 410 00:18:52,754 --> 00:18:56,384 Under de senaste 25 åren har kapitalproduktiviteten ökat, 411 00:18:56,400 --> 00:19:00,588 arbetsproduktivitet är oförändrad, faktiskt en aning minskande. 412 00:19:01,408 --> 00:19:04,149 Så jag vill att vi börjar diskutera det här nu. 413 00:19:04,149 --> 00:19:06,976 Jag vet att ganska ofta när jag berättar om det här, 414 00:19:06,976 --> 00:19:08,666 kan folk vara ganska avfärdande. 415 00:19:08,666 --> 00:19:10,339 Datorer kan inte tänka på riktigt, 416 00:19:10,339 --> 00:19:13,367 de har inga känslor, de förstår inte poesi, 417 00:19:13,367 --> 00:19:15,678 vi förstår inte riktigt hur de fungerar. 418 00:19:15,678 --> 00:19:17,114 Så vadå? 419 00:19:17,114 --> 00:19:18,808 Just nu kan datorer göra det 420 00:19:18,808 --> 00:19:22,157 som människor ägnar det mesta av sin tid åt att göra för att få betalt, 421 00:19:22,157 --> 00:19:23,798 så det är hög tid att börja tänka 422 00:19:23,798 --> 00:19:28,025 på hur vi ska anpassa våra sociala och ekonomiska strukturer 423 00:19:28,025 --> 00:19:30,005 för att klara av den nya verkligheten. 424 00:19:30,005 --> 00:19:31,158 Tack. 425 00:19:31,158 --> 00:19:32,188 (Applåder)