Lasciate che vi mostri qualcosa.

<i>Ok, è un gatto seduto sul letto.</i>

<i>Il ragazzo sta accarezzando l'elefante.</i>

<i>Sono persone 
che salgono su un aereo.</i>

<i>È un grande aereo.</i>

È una bambina di tre anni

che descrive ciò 
che vede nelle foto.

Anche se ha ancora tanto da imparare,

è già un'esperta in
un compito importante:

capire ciò che vede.

La tecnologia nella nostra 
società è più sviluppata che mai.

Mandiamo persone sulla Luna,
creiamo cellulari che ci parlano

o personalizziamo le stazioni radio
per ascoltare la musica che ci piace.

Eppure, i computer
e i dispositivi più avanzati

non sono ancora in grado
di svolgere questo compito.

Oggi vi mostrerò
un rapporto di avanzamento

sui progressi della nostra
ricerca sulla visione artificiale,

una delle tecnologie informatiche

più rivoluzionarie.

Sì, abbiamo prototipi 
di auto che si guidano da sole,

ma senza la smart vision,
non riescono a distinguere fra

un sacchetto spiegazzato sulla 
strada che può essere investito

e una pietra che sarebbe da evitare.

<i>Abbiamo creato favolose
fotocamere con megapixel,</i>

<i>ma non abbiamo
ancora ridato la vista ai ciechi.</i>

<i>I droni volano su
grandi parti di terra,</i>

<i>ma la loro tecnologia visiva non basta</i>

<i>a monitorare 
le variazioni delle foreste pluviali.</i>

Ci sono telecamere 
a circuito chiuso ovunque,

che però non ci avvertono quando
un bambino sta affogando in una piscina.

Video e foto stanno diventando 
parte integrante della vita globale.

Sono generati a un ritmo
più veloce di quello che ogni uomo

o gruppi di uomini spera di poter avere,

e vi contribuiamo in questo TED.

Eppure il nostro software più
avanzato non riesce ancora a capire

e amministrare quest'enorme contenuto.

In altri termini collettivamente

siamo una società di ciechi

perché le nostre macchine più 
intelligenti sono ancora cieche.

Vi chiederete perché sia così difficile.

<i>Le fotocamere scattano foto come questa,</i>

<i>trasformando le luci in 
una matrice bidimensionale di numeri,</i>

<i>i pixels,</i>

<i>però sono solo numeri senza vita.</i>

Non hanno alcun significato di per sé.

Proprio come udire non è come ascoltare,

scattare foto non è come vedere,

e con vedere intendiamo capire.

<i>In effetti, ci sono voluti 540 milioni
anni di duro lavoro a Madre Natura</i>

<i>per completare questo compito,</i>

<i>e gran parte di questo sforzo</i>

<i>è andato allo sviluppo 
dell'elaborazione ottica del cervello,</i>

<i>non agli occhi.</i>

<i>Quindi la visione inizia con gli occhi,</i>

<i>ma in realtà avviene nel cervello.</i>

Dunque da 15 anni, 
prima con il Ph.D al Caltech

e poi a capo del Vision Lab di Stanford,

<i>lavoro con i miei 
mentori, collaboratori e studenti</i>

per insegnare ai computer a vedere.

Il campo di ricerca si chiama visione 
artificiale e apprendimento automatico.

Fa parte del campo 
generale dell'intelligenza artificiale.

Allora in sostanza, vogliamo insegnare
alle macchine a vedere proprio come noi:

<i>indicare cose, riconoscere persone, 
dedurre la geometria 3D degli oggetti,</i>

<i>comprendere relazioni, 
emozioni, azioni e intenzioni.</i>

Tessiamo intere storie
di persone, luoghi e cose

quando fissiamo lo sguardo su di loro.

Il primo passo verso questo scopo è
insegnare a un computer a vedere cose,

il mattone del mondo visivo.

<i>In parole povere immaginate
questo processo d'insegnamento</i>

come mostrare ai computer immagini

di un oggetto specifico, come gatti,

<i>e creare un modello che 
impara da queste immagini.</i>

<i>Quanto può essere difficile?</i>

<i>Dopotutto, un gatto è solo
un insieme di forme e colori,</i>

<i>e l'abbiamo fatto nella prima 
fase di realizzazione dei modelli.</i>

Abbiamo detto all'algoritmo 
con un linguaggio matematico

che un gatto ha una 
faccia tonda, un corpo paffuto,

due orecchie a punta e una coda lunga,

e fin qui tutto ok.

<i>Ma che dire di questo gatto?</i>

<i>(Risate)</i>

<i>È tutto accartocciato.</i>

<i>Ora si deve aggiungere un'altra 
forma e punto di vista al modello.</i>

<i>Ma se i gatti sono nascosti?</i>

<i>Che dire di questi gatti sciocchi?</i>

Ora mi capite.

Anche qualcosa di semplice 
come un animale domestico

può presentare 
un numero infinito di variazioni,

ed è un oggetto solo.

Allora otto anni fa,

un'osservazione molto semplice 
e profonda ha cambiato il mio parere.

Nessuno dice a un bambino come vedere,

soprattutto nei primi anni.

Lo imparano con 
esperienze e esempi del mondo reale.

<i>Se considerate gli occhi di un bambino</i>

<i>come un paio di fotocamere biologiche,</i>

<i>scattano una foto ogni 200 millisecondi,</i>

<i>il tempo medio di 
un movimento dell'occhio.</i>

Dunque entro i 3 anni, un bambino 
vede centinaia di migliaia di immagini

del mondo reale.

Questi sono tanti esempi d'insegnamento.

Così invece di concentrarci 
solo su algoritmi sempre migliori,

la mia idea era dare 
agli algoritmi dati d'insegnamento

come quelli che 
un bambino ottiene con le esperienze

con la stessa qualità e quantità.

Una volta capito questo,

dovevamo accumulare un set di dati

che aveva più immagini che mai,

forse migliaia di volte di più,

e con il Professore Kai Li 
dell'Università di Princeton,

abbiamo lanciato 
il progetto ImageNet nel 2007.

Per fortuna non abbiamo dovuto 
montare una videocamera in testa

e aspettare tanti anni.

Siamo andati su Internet,

il più grande tesoro d'immagini 
che gli uomini abbiano mai creato.

Abbiamo scaricato 
quasi un miliardo d'immagini

e usato il crowdsourcing 
come Amazon Mechanical Turk

per aiutarci a etichettarle.

<i>Al suo culumine ImageNet era 
uno dei maggiori datori di lavoro</i>

<i>di Amazon Mechanical Turk:</i>

insieme, quasi 50.000 dipendenti

di 167 paesi in tutto il mondo

ci hanno aiutato a 
pulire, smistare e etichettare

quasi un miliardo di aspiranti immagini.

Ecco lo sforzo che c'è voluto

a catturare persino 
una frazione delle immagini

della mente infantile 
nei primi anni di sviluppo.

A cose fatte l'idea di usare Big Data

per addestrare algoritmi 
informatici forse oggi sembra ovvia,

però nel 2007 non lo era così tanto.

Per un bel po' siamo 
stati soli in questo viaggio.

Dei colleghi mi hanno consigliato di 
fare qualcosa di più utile all'incarico

e avevamo di continuo 
difficoltà con il finanziamento.

Una volta ho scherzato con i miei studenti

dicendo che avrei riaperto 
la lavanderia per finanziare ImageNet.

Alla fine in questo modo 
ho finanziato i miei anni al college.

Allora abbiamo continuato.

<i>Nel 2009 ImageNet project ha consegnato</i>

<i>un database di 15 milioni d'immagini</i>

<i>in 22.000 categorie di oggetti e cose</i>

organizzate in parole di uso quotidiano.

Sia in quantità sia in qualità

era una scala senza precedenti.

<i>Per esempio, nel caso dei gatti,</i>

<i>abbiamo più di 62.000 gatti</i>

<i>di tutti i tipi di aspetto e pose</i>

<i>e in tutte le specie 
di gatti domestici e selvatici.</i>

Eravamo emozionati per il 
completamento di ImageNet,

e volevamo che tutto 
il mondo di ricerca ne beneficiasse,

così come TED abbiamo 
aperto gratis tutto il set di dati

alla comunità di ricerca mondiale.

(Applausi)

Ora grazie ai dati per nutrire
il cervello del nostro computer

siamo pronti a ritornare agli algoritmi.

Infatti, la ricchezza 
d'informazioni di ImageNet

<i>era perfetta per una particolare classe 
di algoritmi di apprendimento automatico</i>

<i>chiamata rete neurale,</i>

innovazione di Kunihiko 
Fukushima, Geoff Hinton e Yann LeCun

negli anni '70 e '80.

<i>Proprio come il cervello è fatto
di miliardi di neuroni ben collegati,</i>

<i>un'unità operativa 
elementare in una rete neurale</i>

<i>è un nodo tipo neurone.</i>

<i>Prende input di altri nodi</i>

<i>e invia output a altri.</i>

<i>Inoltre quelle centinaia 
di migliaia o persino milioni di nodi</i>

<i>sono organizzate in strati gerarchici,</i>

anche simili al cervello.

In una tipica rete neurale usata per
addestrare il modello di riconoscimento

ci sono 24 milioni di nodi,

140 milioni di parametri

e 15 miliardi di connessioni.

È un modello enorme.

Alimentata dai dati di ImageNet

e dalle moderne CPU e GPU 
per addestrare un modello così immenso,

la rete neurale convoluzionale

è sbocciata in un modo 
che nessuno si aspettava.

È diventata l'architettura vincente

<i>che genera risultati eclatanti 
nel riconoscimento degli oggetti.</i>

<i>Questo è un computer che ci dice</i>

<i>che in questa foto c'è un gatto</i>

<i>e dov'è il gatto.</i>

<i>Certo ci sono anche 
altre cose oltre ai gatti</i>

<i>quindi ecco 
un algoritmo informatico che ci dice</i>

<i>che nella foto ci sono
un ragazzo e un orsacchiotto;</i>

<i>un cane, una persona e
un aquilone sullo sfondo;</i>

<i>o una foto di molte cose curiose</i>

<i>come un uomo, uno skateboard,
ringhiere, un lampione e così via.</i>

<i>A volte quando il computer non 
è tanto sicuro di quello che vede,</i>

<i>gli insegnamo a 
essere abbastanza intelligente</i>

<i>da darci una risposta 
sicura invece d'impegnarsi troppo,</i>

<i>proprio come faremmo noi,</i>

<i>ma altre volte gli algoritmi ci 
dicono in modo eccezionale</i>

<i>esattamente che oggetti sono,</i>

<i>come tipo, modello, 
anno delle macchine.</i>

<i>Abbiamo applicato questi algoritmi 
a tante immagini di Google Street View</i>

in centinaia di città americane

e abbiamo imparato 
una cosa molto interessante:

primo, ha confermato 
il nostro sapere comune

che i prezzi delle auto 
sono legati molto bene

<i>ai redditi familiari.</i>

<i>Ma stupisce che i prezzi 
delle auto siano legati bene anche</i>

<i>al tasso di criminalità nelle città,</i>

<i>o agli schemi di 
votazione con codici postali.</i>

Allora aspettate. Ce l'abbiamo fatta?

Il computer ha già le stesse 
capacità dell'uomo o perfino migliori?

Non ancora.

Finora abbiamo insegnato 
ai computer a vedere oggetti.

È come un bambino piccolo che 
impara a pronunciare alcuni sostantivi.

È un risultato incredibile,

ma è solo il primo passo.

Presto raggiungeremo 
un'altra pietra miliare dello sviluppo

e i bambini inizieranno 
a comunicare con frasi.

Allora invece di dire 
che c'è un gatto nella foto,

avete sentito la ragazzina dire
che è un gatto sdraiato sul letto.

Quindi per insegnare al computer 
a vedere una foto e generare frasi,

il connubio fra Big Data e
algoritmo di apprendimento automatico

deve fare un altro passo.

Ora il computer deve 
imparare sia dalle foto

che dalle frasi naturali

generate dagli uomini.

<i>Proprio come il cervello 
integra lingua e visione,</i>

<i>abbiamo sviluppato un modello 
che collega parti di oggetti ottici</i>

<i>come frammenti ottici</i>

<i>a parole e espressioni nelle frasi.</i>

<i>Circa quattro mesi fa,</i>

<i>abbiamo finalmente provato tutto insieme</i>

<i>e prodotto uno dei primi 
modelli di visione artificiale</i>

<i>capace di generare 
una frase tipo quella umana</i>

<i>quando vede 
una foto per la prima volta.</i>

Ora sono pronta 
a mostrarvi cosa dice il computer

quando vede la foto

che la ragazzina ha visto 
all'inizio di questa conferenza.

<i>Un uomo in piedi 
vicino a un elefante.</i>

<i>Un grande aereo 
sulla pista di un aeroporto.</i>

<i>Certo, lavoriamo duro 
per migliorare i nostri algoritmi</i>

e ci sono ancora molte cose da imparare.

(Applausi)

E il computer fa ancora errori.

<i>Un gatto sdraiato 
a letto con una coperta.</i>

<i>Quindi quando vede troppi gatti,</i>

<i>crede che tutto 
somigli a un gatto.</i>

<i>Un ragazzino con una mazza da baseball.</i>

(Risate)

<i>Se non ha mai visto uno spazzolino 
lo confonde con una mazza da baseball.</i>

<i>Un uomo a cavallo
in una strada vicino a un edificio.</i>

<i>(Risate)</i>

Non abbiamo 
insegnato l'Art. 101 ai computer.

<i>Una zebra in una prateria.</i>

<i>E non ha imparato a apprezzare
la magnifica bellezza della natura</i>

<i>come me e voi.</i>

Quindi è un lungo vaggio.

Andare dall'età zero
all'età tre era faticoso.

La vera sfida è andare 
da 3 a 13 e più lontano.

Ripensate alla foto 
del bambino con la torta.

<i>Finora abbiamo insegnato 
al computer a vedere oggetti</i>

<i>o a raccontarci una semplice 
storia quando vede un'immagine.</i>

<i>Una persona seduta 
a tavola con una torta.</i>

<i>Ma c'è molto di più in questa foto</i>

<i>di una persona con una torta.</i>

<i>Ciò che il computer non vede è 
che è una torta italiana speciale</i>

<i>che si serve solo a Pasqua.</i>

<i>Il bambino indossa 
la sua t-shirt preferita</i>

<i>regalatagli dal padre 
dopo un viaggio a Sidney,</i>

e possiamo notare quanto sia felice

e cosa c'è di preciso 
nella sua mente in quel momento.

Questo è mio figlio Leo.

Nella mia ricerca 
dell'intelligenza ottica,

penso a Leo di continuo

e al mondo futuro in cui vivrà.

<i>Quando le macchine potranno vedere,</i>

<i>i medici e gli infermieri avranno 
un paio extra di occhi instancabili</i>

<i>a aiutarli 
con diagnosi e cura dei pazienti.</i>

<i>Le auto saranno più 
intelligenti e sicure sulla strada.</i>

<i>I robot, non solo gli umani,</i>

<i>ci aiuteranno a salvare 
persone intrappolate e ferite.</i>

<i>Scopriremo nuove 
specie, materiali migliori,</i>

<i>e esploreremo frontiere 
invisibili con l'aiuto delle macchine.</i>

Un po' alla volta 
diamo la vista alle macchine.

In primo luogo le insegnamo a vedere.

Poi ci aiutano a vedere meglio.

Per la prima volta 
gli occhi umani non saranno i soli

a meditare e esplorare il nostro mondo.

Useremo le macchine non 
solo per la loro intelligenza,

ma collaboreremo anche con loro 
in modi che neanche immaginiamo.

Questa è la mia ricerca:

dare ai computer intelligenza ottica

e creare un futuro 
migliore per Leo e per il mondo.

Grazie.

(Applausi)