1 00:00:02,366 --> 00:00:05,864 Ik laat je wat zien. 2 00:00:05,864 --> 00:00:10,000 (Video) Meisje: Oké, dat is een poes die in bed zit. 3 00:00:10,000 --> 00:00:14,300 De jongen verzorgt de olifant. 4 00:00:14,300 --> 00:00:18,414 Dat zijn mensen die met het vliegtuig gaan. 5 00:00:18,414 --> 00:00:21,234 Dat is een groot vliegtuig. 6 00:00:21,234 --> 00:00:23,510 Fei-Fei Li: Dit is een kind van drie 7 00:00:23,510 --> 00:00:27,349 dat beschrijft wat het ziet op een serie foto's. 8 00:00:27,349 --> 00:00:30,194 Het moet nog veel leren over de wereld, 9 00:00:30,194 --> 00:00:34,743 maar het is nu al een expert in iets heel belangrijks: 10 00:00:34,743 --> 00:00:37,919 iets zinnigs maken van wat het ziet. 11 00:00:37,919 --> 00:00:42,185 Onze maatschappij is technologisch verder dan ooit. 12 00:00:42,185 --> 00:00:45,924 We sturen mensen naar de maan, maken telefoons die tegen ons praten, 13 00:00:45,924 --> 00:00:51,030 of stellen radiozenders samen, die alleen muziek uitzenden die we mooi vinden. 14 00:00:51,030 --> 00:00:57,685 Toch worstelen onze geavanceerde machines en computers met deze taak. 15 00:00:57,688 --> 00:01:01,327 Ik ben hier vandaag om je de voortgang te laten zien 16 00:01:01,327 --> 00:01:05,384 van de recentste ontwikkelingen in ons onderzoek naar computervisie, 17 00:01:05,384 --> 00:01:10,375 een van de meest grensverleggende en mogelijk revolutionaire technologieën 18 00:01:10,375 --> 00:01:12,741 in de computerwetenschap. 19 00:01:12,741 --> 00:01:17,322 Ja, we hebben prototypes van auto's die zelf kunnen rijden, 20 00:01:17,322 --> 00:01:21,265 maar zonder slim zicht, zien ze het verschil niet 21 00:01:21,265 --> 00:01:25,235 tussen een verfrommelde papieren zak op de weg, waar je overheen kan rijden, 22 00:01:25,235 --> 00:01:29,255 en een evengrote kei, waar je omheen moet rijden. 23 00:01:29,255 --> 00:01:32,805 We hebben geweldige megapixelcamera's gemaakt, 24 00:01:32,805 --> 00:01:36,280 maar we kunnen blinden nog niet laten zien. 25 00:01:36,280 --> 00:01:39,525 Drones kunnen grote afstanden vliegen, 26 00:01:39,525 --> 00:01:41,859 maar hun visie-technologie schiet tekort 27 00:01:41,859 --> 00:01:45,320 om veranderingen te helpen opsporen in het regenwoud. 28 00:01:45,320 --> 00:01:48,270 Er zijn overal veiligheidscamera's, 29 00:01:48,270 --> 00:01:54,057 maar die waarschuwen ons niet als een kind verdrinkt in een zwembad. 30 00:01:54,057 --> 00:01:59,502 Foto's en filmpjes zijn deel van ons leven geworden. 31 00:01:59,502 --> 00:02:03,849 Ze verschijnen sneller dan welk mens, 32 00:02:03,849 --> 00:02:06,632 of welk team mensen ooit kan bekijken, 33 00:02:06,632 --> 00:02:10,553 en jullie en ik dragen daaraan bij op deze TED. 34 00:02:10,553 --> 00:02:15,785 Onze meest geavanceerde software heeft nog steeds moeite met het begrijpen 35 00:02:15,785 --> 00:02:19,661 van deze enorme hoeveelheid gegevens. 36 00:02:19,661 --> 00:02:26,239 Met andere woorden, we zijn met z'n allen heel erg blind, 37 00:02:26,239 --> 00:02:31,306 omdat onze slimste machines ook nog blind zijn. 38 00:02:31,306 --> 00:02:34,192 Je zal je afvragen waarom het zo moeilijk is. 39 00:02:34,192 --> 00:02:36,825 Camera's kunnen dit soort foto's nemen 40 00:02:36,825 --> 00:02:40,749 door licht om te zetten naar een 2-dimensionale serie getallen, 41 00:02:40,749 --> 00:02:42,789 bekend als pixels. 42 00:02:42,789 --> 00:02:45,040 Maar dit zijn slechts levenloze getallen. 43 00:02:45,040 --> 00:02:48,151 Ze hebben zelf geen betekenis. 44 00:02:48,151 --> 00:02:52,174 Horen is niet hetzelfde als luisteren. 45 00:02:52,174 --> 00:02:56,284 Foto's nemen is niet hetzelfde als zien. 46 00:02:56,284 --> 00:03:00,973 En met zien bedoelen we echt begrijpen. 47 00:03:00,973 --> 00:03:07,470 Het kostte Moeder Natuur 540 miljoen jaar hard werken 48 00:03:07,470 --> 00:03:09,443 om dit te doen. 49 00:03:09,443 --> 00:03:11,204 Veel van die inspanning 50 00:03:11,204 --> 00:03:16,245 ging zitten in het ontwikkelen van het verwerkingsgedeelte in ons brein. 51 00:03:16,245 --> 00:03:19,032 Niet de ogen zelf. 52 00:03:19,032 --> 00:03:21,809 Gezichtsvermogen begint bij de ogen, 53 00:03:21,809 --> 00:03:25,507 maar het gebeurt in feite in de hersenen. 54 00:03:26,287 --> 00:03:30,557 Al 15 jaar, vanaf mijn promoveren aan Caltech, 55 00:03:30,557 --> 00:03:34,173 en later, toen ik de leiding had van het Stanford Vision Lab, 56 00:03:34,173 --> 00:03:38,669 werk ik samen met mijn mentoren, medewerkers en studenten 57 00:03:38,669 --> 00:03:41,558 om computers te leren zien. 58 00:03:42,098 --> 00:03:45,952 Ons onderzoeksgebied heet computervisie en machine-leren. 59 00:03:45,952 --> 00:03:50,840 Het is onderdeel van het algemene gebied van kunstmatige intelligentie. 60 00:03:50,840 --> 00:03:56,283 Uiteindelijk willen we de machines aanleren wat wijzelf ook doen: 61 00:03:56,283 --> 00:04:01,880 voorwerpen benoemen, mensen herkennen, ruimtelijke vormen afleiden, 62 00:04:01,880 --> 00:04:07,568 het begrijpen van verhoudingen, emoties, acties en bedoelingen. 63 00:04:07,568 --> 00:04:13,711 Jullie en ik maken complete verhalen van mensen, plaatsen en dingen, 64 00:04:13,711 --> 00:04:16,935 op het moment dat we ernaar kijken. 65 00:04:16,935 --> 00:04:22,538 Eerst moeten we de computer leren voorwerpen te zien, 66 00:04:22,538 --> 00:04:25,746 de bouwsteen van de visuele wereld. 67 00:04:25,746 --> 00:04:30,340 Heel simpel gezegd: stel je dit leerproces voor 68 00:04:30,340 --> 00:04:33,335 als het aan de computer laten zien van oefenplaatjes 69 00:04:33,335 --> 00:04:36,656 van bepaalde voorwerpen, bijvoorbeeld katten, 70 00:04:36,656 --> 00:04:41,213 en ontwerp een model dat leert van deze oefenplaatjes. 71 00:04:41,213 --> 00:04:43,277 Hoe moeilijk is dat? 72 00:04:43,277 --> 00:04:47,489 Een kat is tenslotte alleen maar een verzameling vormen en kleuren. 73 00:04:47,489 --> 00:04:51,235 En dit deden we in het begintijd van het modelleren van voorwerpen. 74 00:04:51,235 --> 00:04:55,197 We moesten de computer algoritmes leren in een wiskundige taal, 75 00:04:55,197 --> 00:04:58,380 dat een kat een ronde kop heeft, een mollig lijf, 76 00:04:58,380 --> 00:05:00,589 twee puntoren en een lange staart. 77 00:05:00,589 --> 00:05:02,679 En dat leek goed te gaan. 78 00:05:02,699 --> 00:05:04,672 Maar deze kat dan? 79 00:05:04,672 --> 00:05:05,753 (Gelach) 80 00:05:05,753 --> 00:05:07,439 Die ligt helemaal opgekruld. 81 00:05:07,439 --> 00:05:12,408 Nu moet je nog een vorm en gezichtspunt toevoegen aan je model. 82 00:05:12,408 --> 00:05:15,033 Maar als katten zijn verstopt? 83 00:05:15,033 --> 00:05:17,838 Deze grappige katten bijvoorbeeld. 84 00:05:17,838 --> 00:05:19,363 (Gelach) 85 00:05:19,363 --> 00:05:21,529 Nu ga je het snappen. 86 00:05:21,529 --> 00:05:24,896 Zelf iets simpels als een huisdier 87 00:05:24,896 --> 00:05:29,000 kan zorgen voor ontelbaar veel variaties van het model. 88 00:05:29,000 --> 00:05:32,333 Dat is nog maar één voorwerp. 89 00:05:32,573 --> 00:05:35,065 Acht jaar geleden 90 00:05:35,065 --> 00:05:41,185 veranderde een simpele en grondige observatie mijn denken. 91 00:05:41,185 --> 00:05:43,900 Niemand vertelt aan een kind hoe het moet kijken. 92 00:05:43,900 --> 00:05:46,131 Zeker niet in de eerste jaren. 93 00:05:46,131 --> 00:05:51,371 Ze leren het via ervaringen en voorbeelden uit het echte leven. 94 00:05:51,371 --> 00:05:53,711 Bekijk de ogen van kinderen eens 95 00:05:53,711 --> 00:05:56,445 als een paar biologische camera's. 96 00:05:56,445 --> 00:06:00,555 Ze nemen elke 200 milliseconden een foto, 97 00:06:00,555 --> 00:06:03,679 de gemiddelde tijd van een oogbeweging. 98 00:06:03,679 --> 00:06:09,529 Als het drie is, heeft een kind honderden miljoenen beelden gezien 99 00:06:09,529 --> 00:06:11,043 van de echte wereld. 100 00:06:11,043 --> 00:06:14,193 Dat zijn heel wat oefenvoorbeelden. 101 00:06:14,193 --> 00:06:20,082 In plaats van je alleen te richten op steeds betere algoritmes, 102 00:06:20,082 --> 00:06:25,644 zag ik in dat je de algoritmes de oefengegevens moest geven 103 00:06:25,644 --> 00:06:28,673 dat een kind ook krijgt door ervaring. 104 00:06:28,673 --> 00:06:32,841 Zowel qua kwantiteit als kwaliteit. 105 00:06:32,841 --> 00:06:34,439 Toen we dat wisten, 106 00:06:34,439 --> 00:06:37,670 wisten we dat we een verzameling gegevens moesten maken 107 00:06:37,670 --> 00:06:41,619 die veel meer plaatjes bevat dan wij ooit hebben gehad. 108 00:06:41,619 --> 00:06:44,706 Misschien wel duizenden keren meer. 109 00:06:44,706 --> 00:06:48,817 Samen met professor Kai Li aan de Princeton Universiteit, 110 00:06:48,817 --> 00:06:53,569 lanceerden we in 2007 het ImageNet-project. 111 00:06:53,569 --> 00:06:57,267 Gelukkig hoefden we geen camera op ons hoofd te zetten 112 00:06:57,267 --> 00:06:58,991 en jaren te wachten. 113 00:06:58,991 --> 00:07:00,634 We gingen het internet op, 114 00:07:00,634 --> 00:07:05,070 de grootste schat aan plaatjes die de mens ooit heeft gemaakt. 115 00:07:05,070 --> 00:07:08,111 We downloadden meer dan een miljard plaatjes 116 00:07:08,111 --> 00:07:13,761 en gebruikten crowdsourcing, zoals met de Amazon Mechanische Turk 117 00:07:13,761 --> 00:07:16,330 om ons de plaatjes te helpen kenmerken. 118 00:07:16,330 --> 00:07:21,230 Op zijn hoogtepunt was ImageNet een van de grootste werkgevers 119 00:07:21,230 --> 00:07:24,226 voor de Amazon Mechanische Turk-werknemers: 120 00:07:24,226 --> 00:07:28,080 In totaal bijna 50.000 mensen 121 00:07:28,080 --> 00:07:32,020 uit 167 landen van de wereld 122 00:07:32,020 --> 00:07:36,067 hielpen ons met het opschonen, sorteren en markeren 123 00:07:36,067 --> 00:07:40,232 van bijna een miljard mogelijk bruikbare plaatjes. 124 00:07:40,232 --> 00:07:43,265 Zoveel moeite kostte het 125 00:07:43,265 --> 00:07:46,815 om slechts een fractie van de beelden te verwerken 126 00:07:46,815 --> 00:07:51,778 dat een kind opneemt in zijn eerste jaren. 127 00:07:51,778 --> 00:07:56,050 Achteraf gezien lijkt dit idee om big data te gebruiken 128 00:07:56,050 --> 00:08:00,330 om computeralgoritmes te trainen, nogal logisch, 129 00:08:00,330 --> 00:08:04,540 maar in 2007 was dat niet zo. 130 00:08:04,540 --> 00:08:08,308 We stonden best lang alleen op deze weg. 131 00:08:08,308 --> 00:08:13,591 Een paar vriendelijke collega's raadden me aan wat nuttigers te gaan doen, 132 00:08:13,591 --> 00:08:17,703 en we hadden veel moeite om onderzoeksgeld bij elkaar te krijgen. 133 00:08:17,703 --> 00:08:20,418 Ik grapte een keer naar mijn studenten 134 00:08:20,418 --> 00:08:24,301 dat ik mijn stomerij zou heropenen om ImageNet te sponsoren. 135 00:08:24,301 --> 00:08:28,962 Zo bekostigde ik immers ook mijn studie. 136 00:08:28,962 --> 00:08:30,898 We gingen dus door. 137 00:08:30,898 --> 00:08:35,702 In 2009 leverde het ImageNet-project een database op 138 00:08:35,702 --> 00:08:38,556 met 15 miljoen plaatjes 139 00:08:38,556 --> 00:08:43,660 in 22.000 categorieën van voorwerpen en dingen 140 00:08:43,660 --> 00:08:46,690 ingedeeld met alledaagse Engelse woorden. 141 00:08:46,690 --> 00:08:49,786 Zowel qua kwantiteit als kwaliteit, 142 00:08:49,786 --> 00:08:52,878 was dit een ongekende schaal. 143 00:08:52,878 --> 00:08:56,339 We hebben bijvoorbeeld in het geval van de katten, 144 00:08:56,339 --> 00:08:59,148 meer dan 62.000 katten 145 00:08:59,148 --> 00:09:03,088 in allerlei posities en houdingen 146 00:09:03,088 --> 00:09:08,331 en allerlei soorten wilde en huiskatten. 147 00:09:08,331 --> 00:09:11,825 We waren enthousiast toen we ImageNet in elkaar hadden gezet 148 00:09:11,825 --> 00:09:15,303 en we wilden dat de hele onderzoekswereld er plezier van had. 149 00:09:15,303 --> 00:09:19,444 Dus volgens de TED-methode stelden we gratis de hele verzameling beschikbaar 150 00:09:19,444 --> 00:09:24,276 aan de wereldwijde onderzoeksgemeenschap. 151 00:09:24,276 --> 00:09:28,636 (Applaus) 152 00:09:29,106 --> 00:09:33,774 Nu we de gegevens hebben om het computerbrein te voeden, 153 00:09:33,774 --> 00:09:37,491 kunnen we terugkomen op de algoritmes zelf. 154 00:09:37,491 --> 00:09:42,549 Het bleek dat de overdadige informatie die ImageNet gaf, 155 00:09:42,549 --> 00:09:47,675 precies paste bij een speciaal soort algoritme voor machineleren. 156 00:09:47,675 --> 00:09:50,090 die convolutioneel neuraal netwerk heet, 157 00:09:50,090 --> 00:09:55,338 het eerst aangepakt door Kunihiko Fukushima, Geoff Hinton en Yann LeCun, 158 00:09:55,338 --> 00:09:58,853 in de jaren zeventig en tachtig. 159 00:09:58,853 --> 00:10:00,384 Net als in de hersenen, 160 00:10:00,384 --> 00:10:04,235 die bestaan uit miljarden goedverbonden neuronen, 161 00:10:04,235 --> 00:10:08,065 is de basiseenheid van een neuraal netwerk 162 00:10:08,065 --> 00:10:10,495 een neuronenachtig knooppunt. 163 00:10:10,495 --> 00:10:13,115 Het ontvangt input van andere knooppunten 164 00:10:13,115 --> 00:10:15,993 en stuurt output naar andere. 165 00:10:15,993 --> 00:10:20,856 Deze honderdduizenden, of zelfs miljoenen knooppunten 166 00:10:20,856 --> 00:10:23,923 zijn bovendien in hiërarchische lagen georganiseerd. 167 00:10:23,923 --> 00:10:26,357 Ook weer net als in de hersenen. 168 00:10:26,357 --> 00:10:31,420 In een neuraal netwerk dat we gebruiken om voorwerpherkenning te trainen, 169 00:10:31,420 --> 00:10:34,601 zitten 24 miljoen knooppunten, 170 00:10:34,601 --> 00:10:37,228 140 miljoen parameters, 171 00:10:37,228 --> 00:10:40,371 en 15 miljard verbindingen. 172 00:10:40,371 --> 00:10:43,076 Dat is een gigantisch model. 173 00:10:43,076 --> 00:10:46,977 Mogelijk gemaakt door de enorme hoeveelheid gegevens van IMageNet 174 00:10:46,977 --> 00:10:51,860 en moderne processoren om zo'n gigantisch model te trainen, 175 00:10:51,860 --> 00:10:54,849 kwam het convolutioneel neuraal netwerk tot bloei, 176 00:10:54,849 --> 00:10:58,035 op een manier die niemand had verwacht. 177 00:10:58,035 --> 00:10:59,883 Het werd de architectuur 178 00:10:59,883 --> 00:11:04,093 die de meeste opwindende nieuwe resultaten leverde 179 00:11:04,093 --> 00:11:05,993 op het gebied van voorwerpherkenning. 180 00:11:05,993 --> 00:11:08,793 Dit is een computer die ons vertelt 181 00:11:08,793 --> 00:11:11,173 dat op deze foto een kat staat 182 00:11:11,173 --> 00:11:12,776 en waar de kat is. 183 00:11:12,776 --> 00:11:15,188 Er zijn natuurlijk meer dingen dan katten. 184 00:11:15,188 --> 00:11:17,626 Hier is een computeralgoritme dat zegt 185 00:11:17,626 --> 00:11:20,900 dat op deze foto een jongen met teddybeer staat, 186 00:11:20,900 --> 00:11:25,266 een hond, een persoon en een vliegertje op de achtergrond, 187 00:11:25,266 --> 00:11:28,401 of een foto met veel dingen, 188 00:11:28,401 --> 00:11:33,045 zoals een man, een skateboard, een hek, een lantaarnpaal, enzovoort. 189 00:11:33,045 --> 00:11:39,298 Soms, als de computer het niet helemaal zeker weet, 190 00:11:39,298 --> 00:11:41,774 hebben we hem geleerd slim genoeg te zijn 191 00:11:41,774 --> 00:11:45,462 om een veilig antwoord te geven in plaats van te veel prijs te geven, 192 00:11:45,462 --> 00:11:48,133 wat wij ook zouden doen. 193 00:11:48,133 --> 00:11:53,129 Op andere momenten is het opmerkelijk wat het computeralgoritme ons vertelt 194 00:11:53,129 --> 00:11:55,242 welke voorwerpen het precies zijn, 195 00:11:55,242 --> 00:11:58,818 zoals merk, model en bouwjaar van de auto. 196 00:11:58,818 --> 00:12:04,084 We pasten dit algoritme toe op miljoenen Google Street View-beelden 197 00:12:04,084 --> 00:12:07,059 dwars door honderden Amerikaanse steden, 198 00:12:07,059 --> 00:12:10,265 en we bemerkten iets interessants: 199 00:12:10,265 --> 00:12:13,765 ten eerste bevestigde het ons vermoeden 200 00:12:13,765 --> 00:12:16,875 dat autoprijzen gelijk op gaan 201 00:12:16,875 --> 00:12:19,030 met gezinsinkomens. 202 00:12:19,030 --> 00:12:23,747 Verrassend is echter, dat autoprijzen ook gelijk op gaan 203 00:12:23,747 --> 00:12:26,577 met de misdaadcijfers in de steden, 204 00:12:26,577 --> 00:12:30,970 of het stemgedrag met de postcode. 205 00:12:31,640 --> 00:12:34,266 Wacht even, is dat het? 206 00:12:34,266 --> 00:12:39,419 Is de computer al net zo goed als de mens of zelfs al beter? 207 00:12:39,419 --> 00:12:41,557 Niet zo snel. 208 00:12:41,557 --> 00:12:46,340 Tot nu toe hebben we de computer alleen geleerd voorwerpen te bekijken. 209 00:12:46,340 --> 00:12:50,954 Net als een kind leren een paar zelfstandige naamwoorden te zeggen. 210 00:12:50,954 --> 00:12:53,554 Een ongelooflijke prestatie, 211 00:12:53,554 --> 00:12:56,254 maar pas de eerste stap. 212 00:12:56,254 --> 00:12:59,936 Er zal vlot een volgende mijlpaal gehaald worden: 213 00:12:59,936 --> 00:13:03,477 het kind zal beginnen te communiceren in zinnen. 214 00:13:03,477 --> 00:13:07,701 In plaats van te zeggen dat het een kat is op het plaatje, 215 00:13:07,701 --> 00:13:12,903 heb je het meisje al horen zeggen dat de kat op een bed ligt. 216 00:13:12,903 --> 00:13:18,498 Om een computer dus te leren om een plaatje te zien en zinnen te maken, 217 00:13:18,498 --> 00:13:22,166 moet het huwelijk tussen big data en machineleren 218 00:13:22,166 --> 00:13:24,721 de volgende stap nemen. 219 00:13:24,721 --> 00:13:28,877 De computer moet zowel leren van plaatjes 220 00:13:28,877 --> 00:13:31,733 als van zinnen in natuurlijke taal, 221 00:13:31,733 --> 00:13:35,055 voortgebracht door mensen. 222 00:13:35,055 --> 00:13:38,908 Net zoals de hersenen die beeld en taal integreren, 223 00:13:38,908 --> 00:13:44,109 hebben we een model ontwikkeld dat delen van zichtbare dingen, 224 00:13:44,109 --> 00:13:46,013 visuele fragmenten, 225 00:13:46,013 --> 00:13:50,216 verbindt met woorden en zinsdelen. 226 00:13:50,216 --> 00:13:52,799 Ongeveer vier maanden geleden 227 00:13:52,799 --> 00:13:55,456 voegden we dit allemaal samen 228 00:13:55,456 --> 00:13:59,250 en maakten een van de eerste computervisie-modellen 229 00:13:59,250 --> 00:14:03,404 dat in staat is mensentaalachtige zinnen te maken 230 00:14:03,404 --> 00:14:06,910 als het voor de eerste keer een plaatje ziet. 231 00:14:06,910 --> 00:14:11,554 Ik ben zover dat ik wil laten zien wat de computer zegt 232 00:14:11,554 --> 00:14:13,529 als die het plaatje ziet 233 00:14:13,529 --> 00:14:19,019 van het meisje dat je aan het begin van de talk hebt gezien. 234 00:14:19,019 --> 00:14:22,863 (Video) Computer: Een man staat naast de olifant. 235 00:14:24,083 --> 00:14:28,027 Een groot vliegtuig staat op een startbaan. 236 00:14:29,057 --> 00:14:33,269 FFL: Natuurlijk werken we hard aan het verbeteren van de algoritmes 237 00:14:33,269 --> 00:14:35,865 en er moet nog veel geleerd worden. 238 00:14:35,865 --> 00:14:39,186 (Applaus) 239 00:14:39,196 --> 00:14:42,877 De computer maakt nog steeds fouten. 240 00:14:42,877 --> 00:14:46,008 (Video) Computer: Een kat ligt op een bed in een laken. 241 00:14:46,008 --> 00:14:48,571 FFL: Als hij te veel katten ziet, 242 00:14:48,571 --> 00:14:51,747 kan hij gaan denken dat alles een kat is. 243 00:14:53,317 --> 00:14:56,181 (Video) Computer: Een jongetje heeft een honkbalknuppel vast. 244 00:14:56,181 --> 00:14:57,566 (Gelach) 245 00:14:57,566 --> 00:15:02,529 FFL: Als hij nog nooit een tandenborstel heeft gezien, raakt hij in de war. 246 00:15:03,019 --> 00:15:06,483 (Video) Computer: Een man rijdt paard door een straat langs een gebouw. 247 00:15:06,483 --> 00:15:08,546 (Gelach) 248 00:15:08,546 --> 00:15:13,448 FFL: We hebben Art 101 nog niet aan de computer geleerd. 249 00:15:13,448 --> 00:15:16,252 (Video) Computer: Een zebra staat in een grasveld. 250 00:15:16,252 --> 00:15:20,019 FFL: Het heeft nog niet geleerd de prachtige natuur te waarderen, 251 00:15:20,019 --> 00:15:22,267 zoals jullie en ik doen. 252 00:15:22,267 --> 00:15:25,109 De weg is dus lang. 253 00:15:25,109 --> 00:15:29,315 Het viel niet mee om van nul naar drie jaar te komen 254 00:15:29,315 --> 00:15:35,111 Van drie tot 13 jaar of verder, is helemaal een grote uitdaging. 255 00:15:35,111 --> 00:15:39,286 Denk nog even aan dit plaatje van de jongen en de taart. 256 00:15:39,286 --> 00:15:43,540 Tot nu toe hebben we de computer geleerd om voorwerpen te zien 257 00:15:43,540 --> 00:15:47,768 of zelfs een simpel verhaaltje te vertellen bij het zien van een plaatje. 258 00:15:47,768 --> 00:15:51,574 (Video) Computer: Een persoon zit aan tafel met een taart. 259 00:15:51,574 --> 00:15:53,744 FFL: Maar er zit meer aan vast 260 00:15:53,744 --> 00:15:56,094 dan alleen een persoon en een taart. 261 00:15:56,094 --> 00:16:00,941 De computer ziet niet dat dit een speciale Italiaanse taart is 262 00:16:00,941 --> 00:16:03,928 die alleen met Pasen wordt gegeten. 263 00:16:03,928 --> 00:16:07,223 De jongen draagt zijn lievelingsshirt 264 00:16:07,223 --> 00:16:11,333 die hij heeft gekregen van zijn vader na een reis naar Sydney, 265 00:16:11,333 --> 00:16:15,141 en iedereen ziet hoe blij hij is 266 00:16:15,141 --> 00:16:18,844 en waar hij precies aan denkt op dat moment. 267 00:16:18,844 --> 00:16:22,079 Dit is mijn zoon Leo. 268 00:16:22,079 --> 00:16:24,783 Bij mijn zoektocht naar visuele intelligentie 269 00:16:24,783 --> 00:16:27,204 denk ik steeds aan Leo 270 00:16:27,204 --> 00:16:30,107 en aan zijn toekomstige wereld. 271 00:16:30,107 --> 00:16:32,278 Als machines kunnen zien, 272 00:16:32,278 --> 00:16:36,990 zullen doktoren en verpleegsters een extra paar onvermoeibare ogen hebben 273 00:16:36,990 --> 00:16:41,082 om te helpen bij de diagnose en om voor de patiënten te zorgen. 274 00:16:41,082 --> 00:16:45,465 Auto's zullen slimmer en veiliger over de weg rijden.. 275 00:16:45,465 --> 00:16:47,949 Robots, niet alleen mensen, 276 00:16:47,949 --> 00:16:53,288 zullen ons helpen rampplekken te betreden om ingeslotenen en gewonden te redden. 277 00:16:53,288 --> 00:16:57,594 We zullen nieuwe soorten ontdekken en betere materialen, 278 00:16:57,594 --> 00:17:02,713 en ongeziene gebieden verkennen met behulp van machines. 279 00:17:02,713 --> 00:17:07,280 Beetje bij beetje geven we machines gezichtsvermogen. 280 00:17:07,280 --> 00:17:09,798 Eerst leren we ze te kijken. 281 00:17:09,798 --> 00:17:12,841 Daarna helpen ze ons bij het kijken. 282 00:17:12,841 --> 00:17:17,006 Voor het eerst zijn menselijke ogen niet de enige 283 00:17:17,006 --> 00:17:19,530 die over de wereld nadenken en haar verkennen. 284 00:17:19,530 --> 00:17:23,400 We gaan de machines niet alleen vanwege hun intelligentie gebruiken, 285 00:17:23,400 --> 00:17:25,580 en gaan met ze samenwerken 286 00:17:25,580 --> 00:17:28,960 op manieren die we ons niet kunnen voorstellen. 287 00:17:28,960 --> 00:17:31,740 Dit is mijn zoektocht: 288 00:17:31,740 --> 00:17:34,452 computers visuele intelligentie geven 289 00:17:34,452 --> 00:17:39,353 en een betere toekomst geven aan Leo en aan de wereld. 290 00:17:39,353 --> 00:17:41,074 Dank je wel. 291 00:17:41,074 --> 00:17:43,389 (Applaus)