Lasciate che vi mostri qualcosa.
Ok, è un gatto seduto sul letto.
Il ragazzo sta accarezzando l'elefante.
Sono persone
che salgono su un aereo.
È un grande aereo.
È una bambina di tre anni
che descrive ciò
che vede nelle foto.
Anche se ha ancora tanto da imparare,
è già un'esperta in
un compito importante:
capire ciò che vede.
La tecnologia nella nostra
società è più sviluppata che mai.
Mandiamo persone sulla Luna,
creiamo cellulari che ci parlano
o personalizziamo le stazioni radio
per ascoltare la musica che ci piace.
Eppure, i computer
e i dispositivi più avanzati
non sono ancora in grado
di svolgere questo compito.
Oggi vi mostrerò
un rapporto di avanzamento
sui progressi della nostra
ricerca sulla visione artificiale,
una delle tecnologie informatiche
più rivoluzionarie.
Sì, abbiamo prototipi
di auto che si guidano da sole,
ma senza la smart vision,
non riescono a distinguere fra
un sacchetto spiegazzato sulla
strada che può essere investito
e una pietra che sarebbe da evitare.
Abbiamo creato favolose
fotocamere con megapixel,
ma non abbiamo
ancora ridato la vista ai ciechi.
I droni volano su
grandi parti di terra,
ma la loro tecnologia visiva non basta
a monitorare
le variazioni delle foreste pluviali.
Ci sono telecamere
a circuito chiuso ovunque,
che però non ci avvertono quando
un bambino sta affogando in una piscina.
Video e foto stanno diventando
parte integrante della vita globale.
Sono generati a un ritmo
più veloce di quello che ogni uomo
o gruppi di uomini spera di poter avere,
e vi contribuiamo in questo TED.
Eppure il nostro software più
avanzato non riesce ancora a capire
e amministrare quest'enorme contenuto.
In altri termini collettivamente
siamo una società di ciechi
perché le nostre macchine più
intelligenti sono ancora cieche.
Vi chiederete perché sia così difficile.
Le fotocamere scattano foto come questa,
trasformando le luci in
una matrice bidimensionale di numeri,
i pixels,
però sono solo numeri senza vita.
Non hanno alcun significato di per sé.
Proprio come udire non è come ascoltare,
scattare foto non è come vedere,
e con vedere intendiamo capire.
In effetti, ci sono voluti 540 milioni
anni di duro lavoro a Madre Natura
per completare questo compito,
e gran parte di questo sforzo
è andato allo sviluppo
dell'elaborazione ottica del cervello,
non agli occhi.
Quindi la visione inizia con gli occhi,
ma in realtà avviene nel cervello.
Dunque da 15 anni,
prima con il Ph.D al Caltech
e poi a capo del Vision Lab di Stanford,
lavoro con i miei
mentori, collaboratori e studenti
per insegnare ai computer a vedere.
Il campo di ricerca si chiama visione
artificiale e apprendimento automatico.
Fa parte del campo
generale dell'intelligenza artificiale.
Allora in sostanza, vogliamo insegnare
alle macchine a vedere proprio come noi:
indicare cose, riconoscere persone,
dedurre la geometria 3D degli oggetti,
comprendere relazioni,
emozioni, azioni e intenzioni.
Tessiamo intere storie
di persone, luoghi e cose
quando fissiamo lo sguardo su di loro.
Il primo passo verso questo scopo è
insegnare a un computer a vedere cose,
il mattone del mondo visivo.
In parole povere immaginate
questo processo d'insegnamento
come mostrare ai computer immagini
di un oggetto specifico, come gatti,
e creare un modello che
impara da queste immagini.
Quanto può essere difficile?
Dopotutto, un gatto è solo
un insieme di forme e colori,
e l'abbiamo fatto nella prima
fase di realizzazione dei modelli.
Abbiamo detto all'algoritmo
con un linguaggio matematico
che un gatto ha una
faccia tonda, un corpo paffuto,
due orecchie a punta e una coda lunga,
e fin qui tutto ok.
Ma che dire di questo gatto?
(Risate)
È tutto accartocciato.
Ora si deve aggiungere un'altra
forma e punto di vista al modello.
Ma se i gatti sono nascosti?
Che dire di questi gatti sciocchi?
Ora mi capite.
Anche qualcosa di semplice
come un animale domestico
può presentare
un numero infinito di variazioni,
ed è un oggetto solo.
Allora otto anni fa,
un'osservazione molto semplice
e profonda ha cambiato il mio parere.
Nessuno dice a un bambino come vedere,
soprattutto nei primi anni.
Lo imparano con
esperienze e esempi del mondo reale.
Se considerate gli occhi di un bambino
come un paio di fotocamere biologiche,
scattano una foto ogni 200 millisecondi,
il tempo medio di
un movimento dell'occhio.
Dunque entro i 3 anni, un bambino
vede centinaia di migliaia di immagini
del mondo reale.
Questi sono tanti esempi d'insegnamento.
Così invece di concentrarci
solo su algoritmi sempre migliori,
la mia idea era dare
agli algoritmi dati d'insegnamento
come quelli che
un bambino ottiene con le esperienze
con la stessa qualità e quantità.
Una volta capito questo,
dovevamo accumulare un set di dati
che aveva più immagini che mai,
forse migliaia di volte di più,
e con il Professore Kai Li
dell'Università di Princeton,
abbiamo lanciato
il progetto ImageNet nel 2007.
Per fortuna non abbiamo dovuto
montare una videocamera in testa
e aspettare tanti anni.
Siamo andati su Internet,
il più grande tesoro d'immagini
che gli uomini abbiano mai creato.
Abbiamo scaricato
quasi un miliardo d'immagini
e usato il crowdsourcing
come Amazon Mechanical Turk
per aiutarci a etichettarle.
Al suo culumine ImageNet era
uno dei maggiori datori di lavoro
di Amazon Mechanical Turk:
insieme, quasi 50.000 dipendenti
di 167 paesi in tutto il mondo
ci hanno aiutato a
pulire, smistare e etichettare
quasi un miliardo di aspiranti immagini.
Ecco lo sforzo che c'è voluto
a catturare persino
una frazione delle immagini
della mente infantile
nei primi anni di sviluppo.
A cose fatte l'idea di usare Big Data
per addestrare algoritmi
informatici forse oggi sembra ovvia,
però nel 2007 non lo era così tanto.
Per un bel po' siamo
stati soli in questo viaggio.
Dei colleghi mi hanno consigliato di
fare qualcosa di più utile all'incarico
e avevamo di continuo
difficoltà con il finanziamento.
Una volta ho scherzato con i miei studenti
dicendo che avrei riaperto
la lavanderia per finanziare ImageNet.
Alla fine in questo modo
ho finanziato i miei anni al college.
Allora abbiamo continuato.
Nel 2009 ImageNet project ha consegnato
un database di 15 milioni d'immagini
in 22.000 categorie di oggetti e cose
organizzate in parole di uso quotidiano.
Sia in quantità sia in qualità
era una scala senza precedenti.
Per esempio, nel caso dei gatti,
abbiamo più di 62.000 gatti
di tutti i tipi di aspetto e pose
e in tutte le specie
di gatti domestici e selvatici.
Eravamo emozionati per il
completamento di ImageNet,
e volevamo che tutto
il mondo di ricerca ne beneficiasse,
così come TED abbiamo
aperto gratis tutto il set di dati
alla comunità di ricerca mondiale.
(Applausi)
Ora grazie ai dati per nutrire
il cervello del nostro computer
siamo pronti a ritornare agli algoritmi.
Infatti, la ricchezza
d'informazioni di ImageNet
era perfetta per una particolare classe
di algoritmi di apprendimento automatico
chiamata rete neurale,
innovazione di Kunihiko
Fukushima, Geoff Hinton e Yann LeCun
negli anni '70 e '80.
Proprio come il cervello è fatto
di miliardi di neuroni ben collegati,
un'unità operativa
elementare in una rete neurale
è un nodo tipo neurone.
Prende input di altri nodi
e invia output a altri.
Inoltre quelle centinaia
di migliaia o persino milioni di nodi
sono organizzate in strati gerarchici,
anche simili al cervello.
In una tipica rete neurale usata per
addestrare il modello di riconoscimento
ci sono 24 milioni di nodi,
140 milioni di parametri
e 15 miliardi di connessioni.
È un modello enorme.
Alimentata dai dati di ImageNet
e dalle moderne CPU e GPU
per addestrare un modello così immenso,
la rete neurale convoluzionale
è sbocciata in un modo
che nessuno si aspettava.
È diventata l'architettura vincente
che genera risultati eclatanti
nel riconoscimento degli oggetti.
Questo è un computer che ci dice
che in questa foto c'è un gatto
e dov'è il gatto.
Certo ci sono anche
altre cose oltre ai gatti
quindi ecco
un algoritmo informatico che ci dice
che nella foto ci sono
un ragazzo e un orsacchiotto;
un cane, una persona e
un aquilone sullo sfondo;
o una foto di molte cose curiose
come un uomo, uno skateboard,
ringhiere, un lampione e così via.
A volte quando il computer non
è tanto sicuro di quello che vede,
gli insegnamo a
essere abbastanza intelligente
da darci una risposta
sicura invece d'impegnarsi troppo,
proprio come faremmo noi,
ma altre volte gli algoritmi ci
dicono in modo eccezionale
esattamente che oggetti sono,
come tipo, modello,
anno delle macchine.
Abbiamo applicato questi algoritmi
a tante immagini di Google Street View
in centinaia di città americane
e abbiamo imparato
una cosa molto interessante:
primo, ha confermato
il nostro sapere comune
che i prezzi delle auto
sono legati molto bene
ai redditi familiari.
Ma stupisce che i prezzi
delle auto siano legati bene anche
al tasso di criminalità nelle città,
o agli schemi di
votazione con codici postali.
Allora aspettate. Ce l'abbiamo fatta?
Il computer ha già le stesse
capacità dell'uomo o perfino migliori?
Non ancora.
Finora abbiamo insegnato
ai computer a vedere oggetti.
È come un bambino piccolo che
impara a pronunciare alcuni sostantivi.
È un risultato incredibile,
ma è solo il primo passo.
Presto raggiungeremo
un'altra pietra miliare dello sviluppo
e i bambini inizieranno
a comunicare con frasi.
Allora invece di dire
che c'è un gatto nella foto,
avete sentito la ragazzina dire
che è un gatto sdraiato sul letto.
Quindi per insegnare al computer
a vedere una foto e generare frasi,
il connubio fra Big Data e
algoritmo di apprendimento automatico
deve fare un altro passo.
Ora il computer deve
imparare sia dalle foto
che dalle frasi naturali
generate dagli uomini.
Proprio come il cervello
integra lingua e visione,
abbiamo sviluppato un modello
che collega parti di oggetti ottici
come frammenti ottici
a parole e espressioni nelle frasi.
Circa quattro mesi fa,
abbiamo finalmente provato tutto insieme
e prodotto uno dei primi
modelli di visione artificiale
capace di generare
una frase tipo quella umana
quando vede
una foto per la prima volta.
Ora sono pronta
a mostrarvi cosa dice il computer
quando vede la foto
che la ragazzina ha visto
all'inizio di questa conferenza.
Un uomo in piedi
vicino a un elefante.
Un grande aereo
sulla pista di un aeroporto.
Certo, lavoriamo duro
per migliorare i nostri algoritmi
e ci sono ancora molte cose da imparare.
(Applausi)
E il computer fa ancora errori.
Un gatto sdraiato
a letto con una coperta.
Quindi quando vede troppi gatti,
crede che tutto
somigli a un gatto.
Un ragazzino con una mazza da baseball.
(Risate)
Se non ha mai visto uno spazzolino
lo confonde con una mazza da baseball.
Un uomo a cavallo
in una strada vicino a un edificio.
(Risate)
Non abbiamo
insegnato l'Art. 101 ai computer.
Una zebra in una prateria.
E non ha imparato a apprezzare
la magnifica bellezza della natura
come me e voi.
Quindi è un lungo vaggio.
Andare dall'età zero
all'età tre era faticoso.
La vera sfida è andare
da 3 a 13 e più lontano.
Ripensate alla foto
del bambino con la torta.
Finora abbiamo insegnato
al computer a vedere oggetti
o a raccontarci una semplice
storia quando vede un'immagine.
Una persona seduta
a tavola con una torta.
Ma c'è molto di più in questa foto
di una persona con una torta.
Ciò che il computer non vede è
che è una torta italiana speciale
che si serve solo a Pasqua.
Il bambino indossa
la sua t-shirt preferita
regalatagli dal padre
dopo un viaggio a Sidney,
e possiamo notare quanto sia felice
e cosa c'è di preciso
nella sua mente in quel momento.
Questo è mio figlio Leo.
Nella mia ricerca
dell'intelligenza ottica,
penso a Leo di continuo
e al mondo futuro in cui vivrà.
Quando le macchine potranno vedere,
i medici e gli infermieri avranno
un paio extra di occhi instancabili
a aiutarli
con diagnosi e cura dei pazienti.
Le auto saranno più
intelligenti e sicure sulla strada.
I robot, non solo gli umani,
ci aiuteranno a salvare
persone intrappolate e ferite.
Scopriremo nuove
specie, materiali migliori,
e esploreremo frontiere
invisibili con l'aiuto delle macchine.
Un po' alla volta
diamo la vista alle macchine.
In primo luogo le insegnamo a vedere.
Poi ci aiutano a vedere meglio.
Per la prima volta
gli occhi umani non saranno i soli
a meditare e esplorare il nostro mondo.
Useremo le macchine non
solo per la loro intelligenza,
ma collaboreremo anche con loro
in modi che neanche immaginiamo.
Questa è la mia ricerca:
dare ai computer intelligenza ottica
e creare un futuro
migliore per Leo e per il mondo.
Grazie.
(Applausi)