Hoe we computers leren om foto's te begrijpen
-
0:02 - 0:06Ik laat je wat zien.
-
0:06 - 0:10(Video) Meisje: Oké, dat is een poes
die in bed zit. -
0:10 - 0:14De jongen verzorgt de olifant.
-
0:14 - 0:18Dat zijn mensen
die met het vliegtuig gaan. -
0:18 - 0:21Dat is een groot vliegtuig.
-
0:21 - 0:24Fei-Fei Li: Dit is een kind van drie
-
0:24 - 0:27dat beschrijft wat het ziet
op een serie foto's. -
0:27 - 0:30Het moet nog veel leren over de wereld,
-
0:30 - 0:35maar het is nu al een expert
in iets heel belangrijks: -
0:35 - 0:38iets zinnigs maken van wat het ziet.
-
0:38 - 0:42Onze maatschappij is technologisch
verder dan ooit. -
0:42 - 0:46We sturen mensen naar de maan,
maken telefoons die tegen ons praten, -
0:46 - 0:51of stellen radiozenders samen, die alleen
muziek uitzenden die we mooi vinden. -
0:51 - 0:58Toch worstelen onze geavanceerde machines
en computers met deze taak. -
0:58 - 1:01Ik ben hier vandaag om je
de voortgang te laten zien -
1:01 - 1:05van de recentste ontwikkelingen
in ons onderzoek naar computervisie, -
1:05 - 1:10een van de meest grensverleggende
en mogelijk revolutionaire technologieën -
1:10 - 1:13in de computerwetenschap.
-
1:13 - 1:17Ja, we hebben prototypes van auto's
die zelf kunnen rijden, -
1:17 - 1:21maar zonder slim zicht,
zien ze het verschil niet -
1:21 - 1:25tussen een verfrommelde papieren zak
op de weg, waar je overheen kan rijden, -
1:25 - 1:29en een evengrote kei,
waar je omheen moet rijden. -
1:29 - 1:33We hebben geweldige
megapixelcamera's gemaakt, -
1:33 - 1:36maar we kunnen blinden
nog niet laten zien. -
1:36 - 1:40Drones kunnen grote afstanden vliegen,
-
1:40 - 1:42maar hun visie-technologie schiet tekort
-
1:42 - 1:45om veranderingen te helpen opsporen
in het regenwoud. -
1:45 - 1:48Er zijn overal veiligheidscamera's,
-
1:48 - 1:54maar die waarschuwen ons niet
als een kind verdrinkt in een zwembad. -
1:54 - 2:00Foto's en filmpjes zijn deel
van ons leven geworden. -
2:00 - 2:04Ze verschijnen sneller dan welk mens,
-
2:04 - 2:07of welk team mensen ooit kan bekijken,
-
2:07 - 2:11en jullie en ik dragen daaraan bij
op deze TED. -
2:11 - 2:16Onze meest geavanceerde software
heeft nog steeds moeite met het begrijpen -
2:16 - 2:20van deze enorme hoeveelheid gegevens.
-
2:20 - 2:26Met andere woorden,
we zijn met z'n allen heel erg blind, -
2:26 - 2:31omdat onze slimste machines
ook nog blind zijn. -
2:31 - 2:34Je zal je afvragen
waarom het zo moeilijk is. -
2:34 - 2:37Camera's kunnen dit soort foto's nemen
-
2:37 - 2:41door licht om te zetten
naar een 2-dimensionale serie getallen, -
2:41 - 2:43bekend als pixels.
-
2:43 - 2:45Maar dit zijn slechts levenloze getallen.
-
2:45 - 2:48Ze hebben zelf geen betekenis.
-
2:48 - 2:52Horen is niet hetzelfde als luisteren.
-
2:52 - 2:56Foto's nemen is niet hetzelfde als zien.
-
2:56 - 3:01En met zien
bedoelen we echt begrijpen. -
3:01 - 3:07Het kostte Moeder Natuur
540 miljoen jaar hard werken -
3:07 - 3:09om dit te doen.
-
3:09 - 3:11Veel van die inspanning
-
3:11 - 3:16ging zitten in het ontwikkelen
van het verwerkingsgedeelte in ons brein. -
3:16 - 3:19Niet de ogen zelf.
-
3:19 - 3:22Gezichtsvermogen begint bij de ogen,
-
3:22 - 3:26maar het gebeurt in feite
in de hersenen. -
3:26 - 3:31Al 15 jaar, vanaf mijn
promoveren aan Caltech, -
3:31 - 3:34en later, toen ik de leiding had
van het Stanford Vision Lab, -
3:34 - 3:39werk ik samen met mijn mentoren,
medewerkers en studenten -
3:39 - 3:42om computers te leren zien.
-
3:42 - 3:46Ons onderzoeksgebied heet
computervisie en machine-leren. -
3:46 - 3:51Het is onderdeel van het algemene
gebied van kunstmatige intelligentie. -
3:51 - 3:56Uiteindelijk willen we de machines
aanleren wat wijzelf ook doen: -
3:56 - 4:02voorwerpen benoemen, mensen herkennen,
ruimtelijke vormen afleiden, -
4:02 - 4:08het begrijpen van verhoudingen,
emoties, acties en bedoelingen. -
4:08 - 4:14Jullie en ik maken complete verhalen
van mensen, plaatsen en dingen, -
4:14 - 4:17op het moment dat we ernaar kijken.
-
4:17 - 4:23Eerst moeten we de computer leren
voorwerpen te zien, -
4:23 - 4:26de bouwsteen van de visuele wereld.
-
4:26 - 4:30Heel simpel gezegd:
stel je dit leerproces voor -
4:30 - 4:33als het aan de computer laten zien
van oefenplaatjes -
4:33 - 4:37van bepaalde voorwerpen,
bijvoorbeeld katten, -
4:37 - 4:41en ontwerp een model dat leert
van deze oefenplaatjes. -
4:41 - 4:43Hoe moeilijk is dat?
-
4:43 - 4:47Een kat is tenslotte alleen maar
een verzameling vormen en kleuren. -
4:47 - 4:51En dit deden we in het begintijd
van het modelleren van voorwerpen. -
4:51 - 4:55We moesten de computer
algoritmes leren in een wiskundige taal, -
4:55 - 4:58dat een kat een ronde kop heeft,
een mollig lijf, -
4:58 - 5:01twee puntoren en een lange staart.
-
5:01 - 5:03En dat leek goed te gaan.
-
5:03 - 5:05Maar deze kat dan?
-
5:05 - 5:06(Gelach)
-
5:06 - 5:07Die ligt helemaal opgekruld.
-
5:07 - 5:12Nu moet je nog een vorm en gezichtspunt
toevoegen aan je model. -
5:12 - 5:15Maar als katten zijn verstopt?
-
5:15 - 5:18Deze grappige katten bijvoorbeeld.
-
5:18 - 5:19(Gelach)
-
5:19 - 5:22Nu ga je het snappen.
-
5:22 - 5:25Zelf iets simpels als een huisdier
-
5:25 - 5:29kan zorgen voor ontelbaar veel
variaties van het model. -
5:29 - 5:32Dat is nog maar één voorwerp.
-
5:33 - 5:35Acht jaar geleden
-
5:35 - 5:41veranderde een simpele
en grondige observatie mijn denken. -
5:41 - 5:44Niemand vertelt aan een kind
hoe het moet kijken. -
5:44 - 5:46Zeker niet in de eerste jaren.
-
5:46 - 5:51Ze leren het via ervaringen en voorbeelden
uit het echte leven. -
5:51 - 5:54Bekijk de ogen van kinderen eens
-
5:54 - 5:56als een paar biologische camera's.
-
5:56 - 6:01Ze nemen elke 200 milliseconden een foto,
-
6:01 - 6:04de gemiddelde tijd van een oogbeweging.
-
6:04 - 6:10Als het drie is, heeft een kind
honderden miljoenen beelden gezien -
6:10 - 6:11van de echte wereld.
-
6:11 - 6:14Dat zijn heel wat oefenvoorbeelden.
-
6:14 - 6:20In plaats van je alleen te richten op
steeds betere algoritmes, -
6:20 - 6:26zag ik in dat je de algoritmes
de oefengegevens moest geven -
6:26 - 6:29dat een kind ook krijgt door ervaring.
-
6:29 - 6:33Zowel qua kwantiteit als kwaliteit.
-
6:33 - 6:34Toen we dat wisten,
-
6:34 - 6:38wisten we dat we een verzameling
gegevens moesten maken -
6:38 - 6:42die veel meer plaatjes bevat
dan wij ooit hebben gehad. -
6:42 - 6:45Misschien wel duizenden keren meer.
-
6:45 - 6:49Samen met professor Kai Li
aan de Princeton Universiteit, -
6:49 - 6:54lanceerden we in 2007
het ImageNet-project. -
6:54 - 6:57Gelukkig hoefden we geen camera
op ons hoofd te zetten -
6:57 - 6:59en jaren te wachten.
-
6:59 - 7:01We gingen het internet op,
-
7:01 - 7:05de grootste schat aan plaatjes
die de mens ooit heeft gemaakt. -
7:05 - 7:08We downloadden
meer dan een miljard plaatjes -
7:08 - 7:14en gebruikten crowdsourcing,
zoals met de Amazon Mechanische Turk -
7:14 - 7:16om ons de plaatjes te helpen kenmerken.
-
7:16 - 7:21Op zijn hoogtepunt was ImageNet
een van de grootste werkgevers -
7:21 - 7:24voor de Amazon
Mechanische Turk-werknemers: -
7:24 - 7:28In totaal bijna 50.000 mensen
-
7:28 - 7:32uit 167 landen van de wereld
-
7:32 - 7:36hielpen ons met het opschonen,
sorteren en markeren -
7:36 - 7:40van bijna een miljard
mogelijk bruikbare plaatjes. -
7:40 - 7:43Zoveel moeite kostte het
-
7:43 - 7:47om slechts een fractie
van de beelden te verwerken -
7:47 - 7:52dat een kind opneemt
in zijn eerste jaren. -
7:52 - 7:56Achteraf gezien lijkt dit idee
om big data te gebruiken -
7:56 - 8:00om computeralgoritmes te trainen,
nogal logisch, -
8:00 - 8:05maar in 2007 was dat niet zo.
-
8:05 - 8:08We stonden best lang alleen
op deze weg. -
8:08 - 8:14Een paar vriendelijke collega's
raadden me aan wat nuttigers te gaan doen, -
8:14 - 8:18en we hadden veel moeite
om onderzoeksgeld bij elkaar te krijgen. -
8:18 - 8:20Ik grapte een keer naar mijn studenten
-
8:20 - 8:24dat ik mijn stomerij zou heropenen
om ImageNet te sponsoren. -
8:24 - 8:29Zo bekostigde ik immers ook mijn studie.
-
8:29 - 8:31We gingen dus door.
-
8:31 - 8:36In 2009 leverde het ImageNet-project
een database op -
8:36 - 8:39met 15 miljoen plaatjes
-
8:39 - 8:44in 22.000 categorieën
van voorwerpen en dingen -
8:44 - 8:47ingedeeld met alledaagse Engelse woorden.
-
8:47 - 8:50Zowel qua kwantiteit als kwaliteit,
-
8:50 - 8:53was dit een ongekende schaal.
-
8:53 - 8:56We hebben bijvoorbeeld
in het geval van de katten, -
8:56 - 8:59meer dan 62.000 katten
-
8:59 - 9:03in allerlei posities en houdingen
-
9:03 - 9:08en allerlei soorten wilde en huiskatten.
-
9:08 - 9:12We waren enthousiast
toen we ImageNet in elkaar hadden gezet -
9:12 - 9:15en we wilden dat de hele onderzoekswereld
er plezier van had. -
9:15 - 9:19Dus volgens de TED-methode stelden we
gratis de hele verzameling beschikbaar -
9:19 - 9:24aan de wereldwijde onderzoeksgemeenschap.
-
9:24 - 9:29(Applaus)
-
9:29 - 9:34Nu we de gegevens hebben
om het computerbrein te voeden, -
9:34 - 9:37kunnen we terugkomen
op de algoritmes zelf. -
9:37 - 9:43Het bleek dat de overdadige informatie
die ImageNet gaf, -
9:43 - 9:48precies paste bij een speciaal soort
algoritme voor machineleren. -
9:48 - 9:50die convolutioneel neuraal netwerk heet,
-
9:50 - 9:55het eerst aangepakt door Kunihiko
Fukushima, Geoff Hinton en Yann LeCun, -
9:55 - 9:59in de jaren zeventig en tachtig.
-
9:59 - 10:00Net als in de hersenen,
-
10:00 - 10:04die bestaan uit miljarden
goedverbonden neuronen, -
10:04 - 10:08is de basiseenheid
van een neuraal netwerk -
10:08 - 10:10een neuronenachtig knooppunt.
-
10:10 - 10:13Het ontvangt input
van andere knooppunten -
10:13 - 10:16en stuurt output naar andere.
-
10:16 - 10:21Deze honderdduizenden,
of zelfs miljoenen knooppunten -
10:21 - 10:24zijn bovendien
in hiërarchische lagen georganiseerd. -
10:24 - 10:26Ook weer net als in de hersenen.
-
10:26 - 10:31In een neuraal netwerk dat we gebruiken
om voorwerpherkenning te trainen, -
10:31 - 10:35zitten 24 miljoen knooppunten,
-
10:35 - 10:37140 miljoen parameters,
-
10:37 - 10:40en 15 miljard verbindingen.
-
10:40 - 10:43Dat is een gigantisch model.
-
10:43 - 10:47Mogelijk gemaakt door de enorme
hoeveelheid gegevens van IMageNet -
10:47 - 10:52en moderne processoren
om zo'n gigantisch model te trainen, -
10:52 - 10:55kwam het convolutioneel
neuraal netwerk tot bloei, -
10:55 - 10:58op een manier die niemand had verwacht.
-
10:58 - 11:00Het werd de architectuur
-
11:00 - 11:04die de meeste opwindende
nieuwe resultaten leverde -
11:04 - 11:06op het gebied van voorwerpherkenning.
-
11:06 - 11:09Dit is een computer die ons vertelt
-
11:09 - 11:11dat op deze foto een kat staat
-
11:11 - 11:13en waar de kat is.
-
11:13 - 11:15Er zijn natuurlijk meer dingen dan katten.
-
11:15 - 11:18Hier is een computeralgoritme dat zegt
-
11:18 - 11:21dat op deze foto
een jongen met teddybeer staat, -
11:21 - 11:25een hond, een persoon
en een vliegertje op de achtergrond, -
11:25 - 11:28of een foto met veel dingen,
-
11:28 - 11:33zoals een man, een skateboard,
een hek, een lantaarnpaal, enzovoort. -
11:33 - 11:39Soms, als de computer het
niet helemaal zeker weet, -
11:39 - 11:42hebben we hem geleerd
slim genoeg te zijn -
11:42 - 11:45om een veilig antwoord te geven
in plaats van te veel prijs te geven, -
11:45 - 11:48wat wij ook zouden doen.
-
11:48 - 11:53Op andere momenten is het opmerkelijk
wat het computeralgoritme ons vertelt -
11:53 - 11:55welke voorwerpen het precies zijn,
-
11:55 - 11:59zoals merk, model
en bouwjaar van de auto. -
11:59 - 12:04We pasten dit algoritme toe op miljoenen
Google Street View-beelden -
12:04 - 12:07dwars door honderden Amerikaanse steden,
-
12:07 - 12:10en we bemerkten iets interessants:
-
12:10 - 12:14ten eerste bevestigde het ons vermoeden
-
12:14 - 12:17dat autoprijzen gelijk op gaan
-
12:17 - 12:19met gezinsinkomens.
-
12:19 - 12:24Verrassend is echter,
dat autoprijzen ook gelijk op gaan -
12:24 - 12:27met de misdaadcijfers in de steden,
-
12:27 - 12:31of het stemgedrag met de postcode.
-
12:32 - 12:34Wacht even, is dat het?
-
12:34 - 12:39Is de computer al net zo goed als de mens
of zelfs al beter? -
12:39 - 12:42Niet zo snel.
-
12:42 - 12:46Tot nu toe hebben we de computer
alleen geleerd voorwerpen te bekijken. -
12:46 - 12:51Net als een kind leren een paar
zelfstandige naamwoorden te zeggen. -
12:51 - 12:54Een ongelooflijke prestatie,
-
12:54 - 12:56maar pas de eerste stap.
-
12:56 - 13:00Er zal vlot een volgende mijlpaal
gehaald worden: -
13:00 - 13:03het kind zal beginnen
te communiceren in zinnen. -
13:03 - 13:08In plaats van te zeggen dat het een kat is
op het plaatje, -
13:08 - 13:13heb je het meisje al horen zeggen
dat de kat op een bed ligt. -
13:13 - 13:18Om een computer dus te leren
om een plaatje te zien en zinnen te maken, -
13:18 - 13:22moet het huwelijk tussen big data
en machineleren -
13:22 - 13:25de volgende stap nemen.
-
13:25 - 13:29De computer moet zowel leren
van plaatjes -
13:29 - 13:32als van zinnen in natuurlijke taal,
-
13:32 - 13:35voortgebracht door mensen.
-
13:35 - 13:39Net zoals de hersenen
die beeld en taal integreren, -
13:39 - 13:44hebben we een model ontwikkeld
dat delen van zichtbare dingen, -
13:44 - 13:46visuele fragmenten,
-
13:46 - 13:50verbindt met woorden en zinsdelen.
-
13:50 - 13:53Ongeveer vier maanden geleden
-
13:53 - 13:55voegden we dit allemaal samen
-
13:55 - 13:59en maakten een van de eerste
computervisie-modellen -
13:59 - 14:03dat in staat is mensentaalachtige
zinnen te maken -
14:03 - 14:07als het voor de eerste keer
een plaatje ziet. -
14:07 - 14:12Ik ben zover dat ik wil laten zien
wat de computer zegt -
14:12 - 14:14als die het plaatje ziet
-
14:14 - 14:19van het meisje dat je aan het begin
van de talk hebt gezien. -
14:19 - 14:23(Video) Computer: Een man staat
naast de olifant. -
14:24 - 14:28Een groot vliegtuig staat
op een startbaan. -
14:29 - 14:33FFL: Natuurlijk werken we hard
aan het verbeteren van de algoritmes -
14:33 - 14:36en er moet nog veel geleerd worden.
-
14:36 - 14:39(Applaus)
-
14:39 - 14:43De computer maakt nog steeds fouten.
-
14:43 - 14:46(Video) Computer: Een kat
ligt op een bed in een laken. -
14:46 - 14:49FFL: Als hij te veel katten ziet,
-
14:49 - 14:52kan hij gaan denken dat alles een kat is.
-
14:53 - 14:56(Video) Computer: Een jongetje
heeft een honkbalknuppel vast. -
14:56 - 14:58(Gelach)
-
14:58 - 15:03FFL: Als hij nog nooit een tandenborstel
heeft gezien, raakt hij in de war. -
15:03 - 15:06(Video) Computer: Een man rijdt paard
door een straat langs een gebouw. -
15:06 - 15:09(Gelach)
-
15:09 - 15:13FFL: We hebben Art 101 nog niet
aan de computer geleerd. -
15:13 - 15:16(Video) Computer: Een zebra
staat in een grasveld. -
15:16 - 15:20FFL: Het heeft nog niet geleerd
de prachtige natuur te waarderen, -
15:20 - 15:22zoals jullie en ik doen.
-
15:22 - 15:25De weg is dus lang.
-
15:25 - 15:29Het viel niet mee
om van nul naar drie jaar te komen -
15:29 - 15:35Van drie tot 13 jaar of verder,
is helemaal een grote uitdaging. -
15:35 - 15:39Denk nog even aan dit plaatje
van de jongen en de taart. -
15:39 - 15:44Tot nu toe hebben we de computer geleerd
om voorwerpen te zien -
15:44 - 15:48of zelfs een simpel verhaaltje
te vertellen bij het zien van een plaatje. -
15:48 - 15:52(Video) Computer: Een persoon
zit aan tafel met een taart. -
15:52 - 15:54FFL: Maar er zit meer aan vast
-
15:54 - 15:56dan alleen een persoon en een taart.
-
15:56 - 16:01De computer ziet niet dat dit
een speciale Italiaanse taart is -
16:01 - 16:04die alleen met Pasen wordt gegeten.
-
16:04 - 16:07De jongen draagt zijn lievelingsshirt
-
16:07 - 16:11die hij heeft gekregen van zijn vader
na een reis naar Sydney, -
16:11 - 16:15en iedereen ziet hoe blij hij is
-
16:15 - 16:19en waar hij precies aan denkt
op dat moment. -
16:19 - 16:22Dit is mijn zoon Leo.
-
16:22 - 16:25Bij mijn zoektocht
naar visuele intelligentie -
16:25 - 16:27denk ik steeds aan Leo
-
16:27 - 16:30en aan zijn toekomstige wereld.
-
16:30 - 16:32Als machines kunnen zien,
-
16:32 - 16:37zullen doktoren en verpleegsters
een extra paar onvermoeibare ogen hebben -
16:37 - 16:41om te helpen bij de diagnose
en om voor de patiënten te zorgen. -
16:41 - 16:45Auto's zullen slimmer
en veiliger over de weg rijden.. -
16:45 - 16:48Robots, niet alleen mensen,
-
16:48 - 16:53zullen ons helpen rampplekken te betreden
om ingeslotenen en gewonden te redden. -
16:53 - 16:58We zullen nieuwe soorten ontdekken
en betere materialen, -
16:58 - 17:03en ongeziene gebieden verkennen
met behulp van machines. -
17:03 - 17:07Beetje bij beetje geven we machines
gezichtsvermogen. -
17:07 - 17:10Eerst leren we ze te kijken.
-
17:10 - 17:13Daarna helpen ze ons bij het kijken.
-
17:13 - 17:17Voor het eerst zijn menselijke ogen
niet de enige -
17:17 - 17:20die over de wereld nadenken
en haar verkennen. -
17:20 - 17:23We gaan de machines niet alleen
vanwege hun intelligentie gebruiken, -
17:23 - 17:26en gaan met ze samenwerken
-
17:26 - 17:29op manieren die we ons
niet kunnen voorstellen. -
17:29 - 17:32Dit is mijn zoektocht:
-
17:32 - 17:34computers visuele intelligentie geven
-
17:34 - 17:39en een betere toekomst geven
aan Leo en aan de wereld. -
17:39 - 17:41Dank je wel.
-
17:41 - 17:43(Applaus)
- Title:
- Hoe we computers leren om foto's te begrijpen
- Speaker:
- Fei-Fei Li
- Description:
-
Als een klein kind een foto bekijkt, kan het simpele dingen onderscheiden: 'poes', 'boek', 'stoel'. Computers zijn inmiddels slim genoeg om dat ook te kunnen. En nu? In deze spannende talk beschrijft computerzicht-expert Fei-Fei Li de huidige stand van zaken -- inclusief de beeldbank met 15 miljoen foto's, die haar team opbouwde om de computer foto's te 'leren' begrijpen -- en de belangrijkste dingen die eraan komen.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:58
Axel Saffran edited Dutch subtitles for How we're teaching computers to understand pictures | ||
Axel Saffran edited Dutch subtitles for How we're teaching computers to understand pictures | ||
Axel Saffran edited Dutch subtitles for How we're teaching computers to understand pictures | ||
Axel Saffran approved Dutch subtitles for How we're teaching computers to understand pictures | ||
Axel Saffran edited Dutch subtitles for How we're teaching computers to understand pictures | ||
Axel Saffran edited Dutch subtitles for How we're teaching computers to understand pictures | ||
Rik Delaet accepted Dutch subtitles for How we're teaching computers to understand pictures | ||
Rik Delaet edited Dutch subtitles for How we're teaching computers to understand pictures |