Ik laat je wat zien.
(Video) Meisje: Oké, dat is een poes
die in bed zit.
De jongen verzorgt de olifant.
Dat zijn mensen
die met het vliegtuig gaan.
Dat is een groot vliegtuig.
Fei-Fei Li: Dit is een kind van drie
dat beschrijft wat het ziet
op een serie foto's.
Het moet nog veel leren over de wereld,
maar het is nu al een expert
in iets heel belangrijks:
iets zinnigs maken van wat het ziet.
Onze maatschappij is technologisch
verder dan ooit.
We sturen mensen naar de maan,
maken telefoons die tegen ons praten,
of stellen radiozenders samen, die alleen
muziek uitzenden die we mooi vinden.
Toch worstelen onze geavanceerde machines
en computers met deze taak.
Ik ben hier vandaag om je
de voortgang te laten zien
van de recentste ontwikkelingen
in ons onderzoek naar computervisie,
een van de meest grensverleggende
en mogelijk revolutionaire technologieën
in de computerwetenschap.
Ja, we hebben prototypes van auto's
die zelf kunnen rijden,
maar zonder slim zicht,
zien ze het verschil niet
tussen een verfrommelde papieren zak
op de weg, waar je overheen kan rijden,
en een evengrote kei,
waar je omheen moet rijden.
We hebben geweldige
megapixelcamera's gemaakt,
maar we kunnen blinden
nog niet laten zien.
Drones kunnen grote afstanden vliegen,
maar hun visie-technologie schiet tekort
om veranderingen te helpen opsporen
in het regenwoud.
Er zijn overal veiligheidscamera's,
maar die waarschuwen ons niet
als een kind verdrinkt in een zwembad.
Foto's en filmpjes zijn deel
van ons leven geworden.
Ze verschijnen sneller dan welk mens,
of welk team mensen ooit kan bekijken,
en jullie en ik dragen daaraan bij
op deze TED.
Onze meest geavanceerde software
heeft nog steeds moeite met het begrijpen
van deze enorme hoeveelheid gegevens.
Met andere woorden,
we zijn met z'n allen heel erg blind,
omdat onze slimste machines
ook nog blind zijn.
Je zal je afvragen
waarom het zo moeilijk is.
Camera's kunnen dit soort foto's nemen
door licht om te zetten
naar een 2-dimensionale serie getallen,
bekend als pixels.
Maar dit zijn slechts levenloze getallen.
Ze hebben zelf geen betekenis.
Horen is niet hetzelfde als luisteren.
Foto's nemen is niet hetzelfde als zien.
En met zien
bedoelen we echt begrijpen.
Het kostte Moeder Natuur
540 miljoen jaar hard werken
om dit te doen.
Veel van die inspanning
ging zitten in het ontwikkelen
van het verwerkingsgedeelte in ons brein.
Niet de ogen zelf.
Gezichtsvermogen begint bij de ogen,
maar het gebeurt in feite
in de hersenen.
Al 15 jaar, vanaf mijn
promoveren aan Caltech,
en later, toen ik de leiding had
van het Stanford Vision Lab,
werk ik samen met mijn mentoren,
medewerkers en studenten
om computers te leren zien.
Ons onderzoeksgebied heet
computervisie en machine-leren.
Het is onderdeel van het algemene
gebied van kunstmatige intelligentie.
Uiteindelijk willen we de machines
aanleren wat wijzelf ook doen:
voorwerpen benoemen, mensen herkennen,
ruimtelijke vormen afleiden,
het begrijpen van verhoudingen,
emoties, acties en bedoelingen.
Jullie en ik maken complete verhalen
van mensen, plaatsen en dingen,
op het moment dat we ernaar kijken.
Eerst moeten we de computer leren
voorwerpen te zien,
de bouwsteen van de visuele wereld.
Heel simpel gezegd:
stel je dit leerproces voor
als het aan de computer laten zien
van oefenplaatjes
van bepaalde voorwerpen,
bijvoorbeeld katten,
en ontwerp een model dat leert
van deze oefenplaatjes.
Hoe moeilijk is dat?
Een kat is tenslotte alleen maar
een verzameling vormen en kleuren.
En dit deden we in het begintijd
van het modelleren van voorwerpen.
We moesten de computer
algoritmes leren in een wiskundige taal,
dat een kat een ronde kop heeft,
een mollig lijf,
twee puntoren en een lange staart.
En dat leek goed te gaan.
Maar deze kat dan?
(Gelach)
Die ligt helemaal opgekruld.
Nu moet je nog een vorm en gezichtspunt
toevoegen aan je model.
Maar als katten zijn verstopt?
Deze grappige katten bijvoorbeeld.
(Gelach)
Nu ga je het snappen.
Zelf iets simpels als een huisdier
kan zorgen voor ontelbaar veel
variaties van het model.
Dat is nog maar één voorwerp.
Acht jaar geleden
veranderde een simpele
en grondige observatie mijn denken.
Niemand vertelt aan een kind
hoe het moet kijken.
Zeker niet in de eerste jaren.
Ze leren het via ervaringen en voorbeelden
uit het echte leven.
Bekijk de ogen van kinderen eens
als een paar biologische camera's.
Ze nemen elke 200 milliseconden een foto,
de gemiddelde tijd van een oogbeweging.
Als het drie is, heeft een kind
honderden miljoenen beelden gezien
van de echte wereld.
Dat zijn heel wat oefenvoorbeelden.
In plaats van je alleen te richten op
steeds betere algoritmes,
zag ik in dat je de algoritmes
de oefengegevens moest geven
dat een kind ook krijgt door ervaring.
Zowel qua kwantiteit als kwaliteit.
Toen we dat wisten,
wisten we dat we een verzameling
gegevens moesten maken
die veel meer plaatjes bevat
dan wij ooit hebben gehad.
Misschien wel duizenden keren meer.
Samen met professor Kai Li
aan de Princeton Universiteit,
lanceerden we in 2007
het ImageNet-project.
Gelukkig hoefden we geen camera
op ons hoofd te zetten
en jaren te wachten.
We gingen het internet op,
de grootste schat aan plaatjes
die de mens ooit heeft gemaakt.
We downloadden
meer dan een miljard plaatjes
en gebruikten crowdsourcing,
zoals met de Amazon Mechanische Turk
om ons de plaatjes te helpen kenmerken.
Op zijn hoogtepunt was ImageNet
een van de grootste werkgevers
voor de Amazon
Mechanische Turk-werknemers:
In totaal bijna 50.000 mensen
uit 167 landen van de wereld
hielpen ons met het opschonen,
sorteren en markeren
van bijna een miljard
mogelijk bruikbare plaatjes.
Zoveel moeite kostte het
om slechts een fractie
van de beelden te verwerken
dat een kind opneemt
in zijn eerste jaren.
Achteraf gezien lijkt dit idee
om big data te gebruiken
om computeralgoritmes te trainen,
nogal logisch,
maar in 2007 was dat niet zo.
We stonden best lang alleen
op deze weg.
Een paar vriendelijke collega's
raadden me aan wat nuttigers te gaan doen,
en we hadden veel moeite
om onderzoeksgeld bij elkaar te krijgen.
Ik grapte een keer naar mijn studenten
dat ik mijn stomerij zou heropenen
om ImageNet te sponsoren.
Zo bekostigde ik immers ook mijn studie.
We gingen dus door.
In 2009 leverde het ImageNet-project
een database op
met 15 miljoen plaatjes
in 22.000 categorieën
van voorwerpen en dingen
ingedeeld met alledaagse Engelse woorden.
Zowel qua kwantiteit als kwaliteit,
was dit een ongekende schaal.
We hebben bijvoorbeeld
in het geval van de katten,
meer dan 62.000 katten
in allerlei posities en houdingen
en allerlei soorten wilde en huiskatten.
We waren enthousiast
toen we ImageNet in elkaar hadden gezet
en we wilden dat de hele onderzoekswereld
er plezier van had.
Dus volgens de TED-methode stelden we
gratis de hele verzameling beschikbaar
aan de wereldwijde onderzoeksgemeenschap.
(Applaus)
Nu we de gegevens hebben
om het computerbrein te voeden,
kunnen we terugkomen
op de algoritmes zelf.
Het bleek dat de overdadige informatie
die ImageNet gaf,
precies paste bij een speciaal soort
algoritme voor machineleren.
die convolutioneel neuraal netwerk heet,
het eerst aangepakt door Kunihiko
Fukushima, Geoff Hinton en Yann LeCun,
in de jaren zeventig en tachtig.
Net als in de hersenen,
die bestaan uit miljarden
goedverbonden neuronen,
is de basiseenheid
van een neuraal netwerk
een neuronenachtig knooppunt.
Het ontvangt input
van andere knooppunten
en stuurt output naar andere.
Deze honderdduizenden,
of zelfs miljoenen knooppunten
zijn bovendien
in hiërarchische lagen georganiseerd.
Ook weer net als in de hersenen.
In een neuraal netwerk dat we gebruiken
om voorwerpherkenning te trainen,
zitten 24 miljoen knooppunten,
140 miljoen parameters,
en 15 miljard verbindingen.
Dat is een gigantisch model.
Mogelijk gemaakt door de enorme
hoeveelheid gegevens van IMageNet
en moderne processoren
om zo'n gigantisch model te trainen,
kwam het convolutioneel
neuraal netwerk tot bloei,
op een manier die niemand had verwacht.
Het werd de architectuur
die de meeste opwindende
nieuwe resultaten leverde
op het gebied van voorwerpherkenning.
Dit is een computer die ons vertelt
dat op deze foto een kat staat
en waar de kat is.
Er zijn natuurlijk meer dingen dan katten.
Hier is een computeralgoritme dat zegt
dat op deze foto
een jongen met teddybeer staat,
een hond, een persoon
en een vliegertje op de achtergrond,
of een foto met veel dingen,
zoals een man, een skateboard,
een hek, een lantaarnpaal, enzovoort.
Soms, als de computer het
niet helemaal zeker weet,
hebben we hem geleerd
slim genoeg te zijn
om een veilig antwoord te geven
in plaats van te veel prijs te geven,
wat wij ook zouden doen.
Op andere momenten is het opmerkelijk
wat het computeralgoritme ons vertelt
welke voorwerpen het precies zijn,
zoals merk, model
en bouwjaar van de auto.
We pasten dit algoritme toe op miljoenen
Google Street View-beelden
dwars door honderden Amerikaanse steden,
en we bemerkten iets interessants:
ten eerste bevestigde het ons vermoeden
dat autoprijzen gelijk op gaan
met gezinsinkomens.
Verrassend is echter,
dat autoprijzen ook gelijk op gaan
met de misdaadcijfers in de steden,
of het stemgedrag met de postcode.
Wacht even, is dat het?
Is de computer al net zo goed als de mens
of zelfs al beter?
Niet zo snel.
Tot nu toe hebben we de computer
alleen geleerd voorwerpen te bekijken.
Net als een kind leren een paar
zelfstandige naamwoorden te zeggen.
Een ongelooflijke prestatie,
maar pas de eerste stap.
Er zal vlot een volgende mijlpaal
gehaald worden:
het kind zal beginnen
te communiceren in zinnen.
In plaats van te zeggen dat het een kat is
op het plaatje,
heb je het meisje al horen zeggen
dat de kat op een bed ligt.
Om een computer dus te leren
om een plaatje te zien en zinnen te maken,
moet het huwelijk tussen big data
en machineleren
de volgende stap nemen.
De computer moet zowel leren
van plaatjes
als van zinnen in natuurlijke taal,
voortgebracht door mensen.
Net zoals de hersenen
die beeld en taal integreren,
hebben we een model ontwikkeld
dat delen van zichtbare dingen,
visuele fragmenten,
verbindt met woorden en zinsdelen.
Ongeveer vier maanden geleden
voegden we dit allemaal samen
en maakten een van de eerste
computervisie-modellen
dat in staat is mensentaalachtige
zinnen te maken
als het voor de eerste keer
een plaatje ziet.
Ik ben zover dat ik wil laten zien
wat de computer zegt
als die het plaatje ziet
van het meisje dat je aan het begin
van de talk hebt gezien.
(Video) Computer: Een man staat
naast de olifant.
Een groot vliegtuig staat
op een startbaan.
FFL: Natuurlijk werken we hard
aan het verbeteren van de algoritmes
en er moet nog veel geleerd worden.
(Applaus)
De computer maakt nog steeds fouten.
(Video) Computer: Een kat
ligt op een bed in een laken.
FFL: Als hij te veel katten ziet,
kan hij gaan denken dat alles een kat is.
(Video) Computer: Een jongetje
heeft een honkbalknuppel vast.
(Gelach)
FFL: Als hij nog nooit een tandenborstel
heeft gezien, raakt hij in de war.
(Video) Computer: Een man rijdt paard
door een straat langs een gebouw.
(Gelach)
FFL: We hebben Art 101 nog niet
aan de computer geleerd.
(Video) Computer: Een zebra
staat in een grasveld.
FFL: Het heeft nog niet geleerd
de prachtige natuur te waarderen,
zoals jullie en ik doen.
De weg is dus lang.
Het viel niet mee
om van nul naar drie jaar te komen
Van drie tot 13 jaar of verder,
is helemaal een grote uitdaging.
Denk nog even aan dit plaatje
van de jongen en de taart.
Tot nu toe hebben we de computer geleerd
om voorwerpen te zien
of zelfs een simpel verhaaltje
te vertellen bij het zien van een plaatje.
(Video) Computer: Een persoon
zit aan tafel met een taart.
FFL: Maar er zit meer aan vast
dan alleen een persoon en een taart.
De computer ziet niet dat dit
een speciale Italiaanse taart is
die alleen met Pasen wordt gegeten.
De jongen draagt zijn lievelingsshirt
die hij heeft gekregen van zijn vader
na een reis naar Sydney,
en iedereen ziet hoe blij hij is
en waar hij precies aan denkt
op dat moment.
Dit is mijn zoon Leo.
Bij mijn zoektocht
naar visuele intelligentie
denk ik steeds aan Leo
en aan zijn toekomstige wereld.
Als machines kunnen zien,
zullen doktoren en verpleegsters
een extra paar onvermoeibare ogen hebben
om te helpen bij de diagnose
en om voor de patiënten te zorgen.
Auto's zullen slimmer
en veiliger over de weg rijden..
Robots, niet alleen mensen,
zullen ons helpen rampplekken te betreden
om ingeslotenen en gewonden te redden.
We zullen nieuwe soorten ontdekken
en betere materialen,
en ongeziene gebieden verkennen
met behulp van machines.
Beetje bij beetje geven we machines
gezichtsvermogen.
Eerst leren we ze te kijken.
Daarna helpen ze ons bij het kijken.
Voor het eerst zijn menselijke ogen
niet de enige
die over de wereld nadenken
en haar verkennen.
We gaan de machines niet alleen
vanwege hun intelligentie gebruiken,
en gaan met ze samenwerken
op manieren die we ons
niet kunnen voorstellen.
Dit is mijn zoektocht:
computers visuele intelligentie geven
en een betere toekomst geven
aan Leo en aan de wereld.
Dank je wel.
(Applaus)