Lasciate che vi mostri qualcosa. Ok, è un gatto seduto sul letto. Il ragazzo sta accarezzando l'elefante. Sono persone che salgono su un aereo. È un grande aereo. È una bambina di tre anni che descrive ciò che vede nelle foto. Anche se ha ancora tanto da imparare, è già un'esperta in un compito importante: capire ciò che vede. La tecnologia nella nostra società è più sviluppata che mai. Mandiamo persone sulla Luna, creiamo cellulari che ci parlano o personalizziamo le stazioni radio per ascoltare la musica che ci piace. Eppure, i computer e i dispositivi più avanzati non sono ancora in grado di svolgere questo compito. Oggi vi mostrerò un rapporto di avanzamento sui progressi della nostra ricerca sulla visione artificiale, una delle tecnologie informatiche più rivoluzionarie. Sì, abbiamo prototipi di auto che si guidano da sole, ma senza la smart vision, non riescono a distinguere fra un sacchetto spiegazzato sulla strada che può essere investito e una pietra che sarebbe da evitare. Abbiamo creato favolose fotocamere con megapixel, ma non abbiamo ancora ridato la vista ai ciechi. I droni volano su grandi parti di terra, ma la loro tecnologia visiva non basta a monitorare le variazioni delle foreste pluviali. Ci sono telecamere a circuito chiuso ovunque, che però non ci avvertono quando un bambino sta affogando in una piscina. Video e foto stanno diventando parte integrante della vita globale. Sono generati a un ritmo più veloce di quello che ogni uomo o gruppi di uomini spera di poter avere, e vi contribuiamo in questo TED. Eppure il nostro software più avanzato non riesce ancora a capire e amministrare quest'enorme contenuto. In altri termini collettivamente siamo una società di ciechi perché le nostre macchine più intelligenti sono ancora cieche. Vi chiederete perché sia così difficile. Le fotocamere scattano foto come questa, trasformando le luci in una matrice bidimensionale di numeri, i pixels, però sono solo numeri senza vita. Non hanno alcun significato di per sé. Proprio come udire non è come ascoltare, scattare foto non è come vedere, e con vedere intendiamo capire. In effetti, ci sono voluti 540 milioni anni di duro lavoro a Madre Natura per completare questo compito, e gran parte di questo sforzo è andato allo sviluppo dell'elaborazione ottica del cervello, non agli occhi. Quindi la visione inizia con gli occhi, ma in realtà avviene nel cervello. Dunque da 15 anni, prima con il Ph.D al Caltech e poi a capo del Vision Lab di Stanford, lavoro con i miei mentori, collaboratori e studenti per insegnare ai computer a vedere. Il campo di ricerca si chiama visione artificiale e apprendimento automatico. Fa parte del campo generale dell'intelligenza artificiale. Allora in sostanza, vogliamo insegnare alle macchine a vedere proprio come noi: indicare cose, riconoscere persone, dedurre la geometria 3D degli oggetti, comprendere relazioni, emozioni, azioni e intenzioni. Tessiamo intere storie di persone, luoghi e cose quando fissiamo lo sguardo su di loro. Il primo passo verso questo scopo è insegnare a un computer a vedere cose, il mattone del mondo visivo. In parole povere immaginate questo processo d'insegnamento come mostrare ai computer immagini di un oggetto specifico, come gatti, e creare un modello che impara da queste immagini. Quanto può essere difficile? Dopotutto, un gatto è solo un insieme di forme e colori, e l'abbiamo fatto nella prima fase di realizzazione dei modelli. Abbiamo detto all'algoritmo con un linguaggio matematico che un gatto ha una faccia tonda, un corpo paffuto, due orecchie a punta e una coda lunga, e fin qui tutto ok. Ma che dire di questo gatto? (Risate) È tutto accartocciato. Ora si deve aggiungere un'altra forma e punto di vista al modello. Ma se i gatti sono nascosti? Che dire di questi gatti sciocchi? Ora mi capite. Anche qualcosa di semplice come un animale domestico può presentare un numero infinito di variazioni, ed è un oggetto solo. Allora otto anni fa, un'osservazione molto semplice e profonda ha cambiato il mio parere. Nessuno dice a un bambino come vedere, soprattutto nei primi anni. Lo imparano con esperienze e esempi del mondo reale. Se considerate gli occhi di un bambino come un paio di fotocamere biologiche, scattano una foto ogni 200 millisecondi, il tempo medio di un movimento dell'occhio. Dunque entro i 3 anni, un bambino vede centinaia di migliaia di immagini del mondo reale. Questi sono tanti esempi d'insegnamento. Così invece di concentrarci solo su algoritmi sempre migliori, la mia idea era dare agli algoritmi dati d'insegnamento come quelli che un bambino ottiene con le esperienze con la stessa qualità e quantità. Una volta capito questo, dovevamo accumulare un set di dati che aveva più immagini che mai, forse migliaia di volte di più, e con il Professore Kai Li dell'Università di Princeton, abbiamo lanciato il progetto ImageNet nel 2007. Per fortuna non abbiamo dovuto montare una videocamera in testa e aspettare tanti anni. Siamo andati su Internet, il più grande tesoro d'immagini che gli uomini abbiano mai creato. Abbiamo scaricato quasi un miliardo d'immagini e usato il crowdsourcing come Amazon Mechanical Turk per aiutarci a etichettarle. Al suo culumine ImageNet era uno dei maggiori datori di lavoro di Amazon Mechanical Turk: insieme, quasi 50.000 dipendenti di 167 paesi in tutto il mondo ci hanno aiutato a pulire, smistare e etichettare quasi un miliardo di aspiranti immagini. Ecco lo sforzo che c'è voluto a catturare persino una frazione delle immagini della mente infantile nei primi anni di sviluppo. A cose fatte l'idea di usare Big Data per addestrare algoritmi informatici forse oggi sembra ovvia, però nel 2007 non lo era così tanto. Per un bel po' siamo stati soli in questo viaggio. Dei colleghi mi hanno consigliato di fare qualcosa di più utile all'incarico e avevamo di continuo difficoltà con il finanziamento. Una volta ho scherzato con i miei studenti dicendo che avrei riaperto la lavanderia per finanziare ImageNet. Alla fine in questo modo ho finanziato i miei anni al college. Allora abbiamo continuato. Nel 2009 ImageNet project ha consegnato un database di 15 milioni d'immagini in 22.000 categorie di oggetti e cose organizzate in parole di uso quotidiano. Sia in quantità sia in qualità era una scala senza precedenti. Per esempio, nel caso dei gatti, abbiamo più di 62.000 gatti di tutti i tipi di aspetto e pose e in tutte le specie di gatti domestici e selvatici. Eravamo emozionati per il completamento di ImageNet, e volevamo che tutto il mondo di ricerca ne beneficiasse, così come TED abbiamo aperto gratis tutto il set di dati alla comunità di ricerca mondiale. (Applausi) Ora grazie ai dati per nutrire il cervello del nostro computer siamo pronti a ritornare agli algoritmi. Infatti, la ricchezza d'informazioni di ImageNet era perfetta per una particolare classe di algoritmi di apprendimento automatico chiamata rete neurale, innovazione di Kunihiko Fukushima, Geoff Hinton e Yann LeCun negli anni '70 e '80. Proprio come il cervello è fatto di miliardi di neuroni ben collegati, un'unità operativa elementare in una rete neurale è un nodo tipo neurone. Prende input di altri nodi e invia output a altri. Inoltre quelle centinaia di migliaia o persino milioni di nodi sono organizzate in strati gerarchici, anche simili al cervello. In una tipica rete neurale usata per addestrare il modello di riconoscimento ci sono 24 milioni di nodi, 140 milioni di parametri e 15 miliardi di connessioni. È un modello enorme. Alimentata dai dati di ImageNet e dalle moderne CPU e GPU per addestrare un modello così immenso, la rete neurale convoluzionale è sbocciata in un modo che nessuno si aspettava. È diventata l'architettura vincente che genera risultati eclatanti nel riconoscimento degli oggetti. Questo è un computer che ci dice che in questa foto c'è un gatto e dov'è il gatto. Certo ci sono anche altre cose oltre ai gatti quindi ecco un algoritmo informatico che ci dice che nella foto ci sono un ragazzo e un orsacchiotto; un cane, una persona e un aquilone sullo sfondo; o una foto di molte cose curiose come un uomo, uno skateboard, ringhiere, un lampione e così via. A volte quando il computer non è tanto sicuro di quello che vede, gli insegnamo a essere abbastanza intelligente da darci una risposta sicura invece d'impegnarsi troppo, proprio come faremmo noi, ma altre volte gli algoritmi ci dicono in modo eccezionale esattamente che oggetti sono, come tipo, modello, anno delle macchine. Abbiamo applicato questi algoritmi a tante immagini di Google Street View in centinaia di città americane e abbiamo imparato una cosa molto interessante: primo, ha confermato il nostro sapere comune che i prezzi delle auto sono legati molto bene ai redditi familiari. Ma stupisce che i prezzi delle auto siano legati bene anche al tasso di criminalità nelle città, o agli schemi di votazione con codici postali. Allora aspettate. Ce l'abbiamo fatta? Il computer ha già le stesse capacità dell'uomo o perfino migliori? Non ancora. Finora abbiamo insegnato ai computer a vedere oggetti. È come un bambino piccolo che impara a pronunciare alcuni sostantivi. È un risultato incredibile, ma è solo il primo passo. Presto raggiungeremo un'altra pietra miliare dello sviluppo e i bambini inizieranno a comunicare con frasi. Allora invece di dire che c'è un gatto nella foto, avete sentito la ragazzina dire che è un gatto sdraiato sul letto. Quindi per insegnare al computer a vedere una foto e generare frasi, il connubio fra Big Data e algoritmo di apprendimento automatico deve fare un altro passo. Ora il computer deve imparare sia dalle foto che dalle frasi naturali generate dagli uomini. Proprio come il cervello integra lingua e visione, abbiamo sviluppato un modello che collega parti di oggetti ottici come frammenti ottici a parole e espressioni nelle frasi. Circa quattro mesi fa, abbiamo finalmente provato tutto insieme e prodotto uno dei primi modelli di visione artificiale capace di generare una frase tipo quella umana quando vede una foto per la prima volta. Ora sono pronta a mostrarvi cosa dice il computer quando vede la foto che la ragazzina ha visto all'inizio di questa conferenza. Un uomo in piedi vicino a un elefante. Un grande aereo sulla pista di un aeroporto. Certo, lavoriamo duro per migliorare i nostri algoritmi e ci sono ancora molte cose da imparare. (Applausi) E il computer fa ancora errori. Un gatto sdraiato a letto con una coperta. Quindi quando vede troppi gatti, crede che tutto somigli a un gatto. Un ragazzino con una mazza da baseball. (Risate) Se non ha mai visto uno spazzolino lo confonde con una mazza da baseball. Un uomo a cavallo in una strada vicino a un edificio. (Risate) Non abbiamo insegnato l'Art. 101 ai computer. Una zebra in una prateria. E non ha imparato a apprezzare la magnifica bellezza della natura come me e voi. Quindi è un lungo vaggio. Andare dall'età zero all'età tre era faticoso. La vera sfida è andare da 3 a 13 e più lontano. Ripensate alla foto del bambino con la torta. Finora abbiamo insegnato al computer a vedere oggetti o a raccontarci una semplice storia quando vede un'immagine. Una persona seduta a tavola con una torta. Ma c'è molto di più in questa foto di una persona con una torta. Ciò che il computer non vede è che è una torta italiana speciale che si serve solo a Pasqua. Il bambino indossa la sua t-shirt preferita regalatagli dal padre dopo un viaggio a Sidney, e possiamo notare quanto sia felice e cosa c'è di preciso nella sua mente in quel momento. Questo è mio figlio Leo. Nella mia ricerca dell'intelligenza ottica, penso a Leo di continuo e al mondo futuro in cui vivrà. Quando le macchine potranno vedere, i medici e gli infermieri avranno un paio extra di occhi instancabili a aiutarli con diagnosi e cura dei pazienti. Le auto saranno più intelligenti e sicure sulla strada. I robot, non solo gli umani, ci aiuteranno a salvare persone intrappolate e ferite. Scopriremo nuove specie, materiali migliori, e esploreremo frontiere invisibili con l'aiuto delle macchine. Un po' alla volta diamo la vista alle macchine. In primo luogo le insegnamo a vedere. Poi ci aiutano a vedere meglio. Per la prima volta gli occhi umani non saranno i soli a meditare e esplorare il nostro mondo. Useremo le macchine non solo per la loro intelligenza, ma collaboreremo anche con loro in modi che neanche immaginiamo. Questa è la mia ricerca: dare ai computer intelligenza ottica e creare un futuro migliore per Leo e per il mondo. Grazie. (Applausi)