Dunque, sono a capo di un team di Google che lavora sull'intelligenza artificiale; in altre parole l'ingegneria che si occupa di creare computer ed altri dispositivi in grado di fare alcune delle cose che fa il cervello. E questo ci ha fatto interessare al cervello vero e alla neuroscienza, ed in particolare a quelle cose che fa il nostro cervello che sono di gran lunga superiori alle capacità dei computer. Storicamente, una di queste aree è stata la percezione, il processo con cui le cose nel mod, suoni ed immagini, possono diventare concetti nella nostra mente. Questo è essenziale per il nostro cervello, ed è anche piuttosto utile per un computer. Gli algoritmi di percezione della macchina per esempio, elaborati dal nostro team, sono ciò che rende le vostre foto su Google Foto cercabili, in base a ciò che c'è nelle foto. L'altro lato della percezione è la creatività: trasformare un concetto in qualcosa che esiste nel mondo reale. Così l'anno scorso, il nostro lavoro sulla percezione delle macchine, ci ha inaspettatamente condotto al mondo della creatività nelle macchine e dell'arte nelle macchine. Penso che Michelangelo ebbe una profonda intuizione riguardo questa duplice relazione tra percezione e creatività. Questo è una sua famosa citazione: "Ogni blocco di pietra ha una statua dentro di sè ed è compito dello scultore scoprirla". Penso che quello che Michelangelo intendesse dire è che creiamo dalla percezione, e che la percezione stessa è un atto dell'immaginazione ed è qualcosa della creatività. L'organo che si occupa di pensare percepire ed immaginare naturalmente è il cervello. Vorrei cominciare con un breve resoconto sulla storia della nostra conoscenza del cervello. Perché a differenza, per esempio, del cuore o dell'intestino, non possiamo dire molto del cervello solo osservandolo, almeno ad occhio nudo. I primi anatomisti che studiarono il cervello diedero alle superficiali strutture di questa cosa nomi fantasiosi, come ippocampo, che significa "gamberetto". Ma naturalmente questo non ci dice molto su cosa realmente succede all'interno. Il primo che, credo, sviluppò davvero una qualche intuizione su cosa succedesse all'interno del cervello fu il grande neuroanatomista spagnolo Santiago Ramón y Cajal, nel XIX secolo, che utilizzò il microscopio e speciali tinture che potevano selettivamente riempire o risaltare in elevato contrasto le singole cellule del cervello, per iniziare a comprenderne la morfologia. E questi sono gli schizzi che fece dei neuroni nel XIX secolo. Questo è il cervello di un uccello. Vedete l'incredibile varietà di cellule differenti, persino la teoria cellulare stessa era abbastanza nuova all'epoca. E queste strutture, queste cellule che hanno queste ramificazioni, questi rami che possono percorrere distanze davvero lunghissime... questa era una vera novità all'epoca. E naturalmente, ci ricordano dei fili elettrici. Questo sarebbe potuto essere ovvio per alcuni nel XIX secolo; le rivoluzioni dei circuiti, dell'elettricità stavano cominciando. Ma in molti modi, i disegni di microanatomia di Ramón y Cajal, come questo, sono ancora in qualche modo attuali. Dopo più di un secolo, stiamo ancora cercando di finire il lavoro iniziato da Ramón y Cajal. Questi sono dati grezzi dai nostri collaboratori all'Istituto Max Planck di Neuroscienze. Ciò che hanno fatto i nostri collaboratori è rappresentare frammenti di tessuto celebrale. L'intero campione qui è di circa un millimetro cubico, e ve ne sto mostrando un pezzo piccolissimo qui. Quella barra a sinistra è di circa un micron. Le strutture che vedete sono i mitocondri che sono delle dimensioni dei batteri. E queste sono sezioni consecutive di questo minuscolo blocco di tessuto. Solo per fare un confronto, il diametro medio di un capello misura circa 100 microns. Quindi stiamo osservando qualcosa di molto, molto più piccolo di un singolo capello. E da queste serie di parti microscopiche di elettroni, si possono cominciare ricostruzioni 3D dei neuroni che appaiono come questi. Sono in qualche modo simili al lavoro svolto da Ramón y Cajal. Solo pochi neuroni sono evidenziati, perché altrimenti non potremmo osservare nulla qui. Sarebbe molto affollato e pieno di strutture, di fili che uniscono tutti i neutroni tra loro. Quindi, Ramón y Cajal era un po' avanti per i suoi tempi, e gli sviluppi sulla comprensione del cervello avanzarono lentamente nel corso dei decenni successivi. Ma sapevamo che i neuroni usano l'elettricità, e dalla Seconda Guerra Mondiale, la nostra tecnologia era abbastanza avanzata da iniziare a fare veri esperimenti elettrici su neuroni vivi per capire meglio il loro funzionamento. Questa fu l'epoca in cui vennero inventati i computer, basati fondamentalmente sul modello del cervello, di "macchina intelligente" come Alan Turing lo chiamò, uno dei padri della scienza del computer. Warren MacCulloch e Walter Pitts studiarono i disegni di Ramón y Cajal della corteccia visiva, che vi mostro qui. Questa è la corteccia che elabora le immagini provenienti dall'occhio. Secondo loro, ciò appariva come un diagramma di un circuito. Molti dettagli dei diagrammi di MacCulloch e Pitts non sono proprio corretti. Ma questa idea di base che la corteccia visiva lavorasse come una serie di elementi di calcolo che trasmettono informazioni l'un l'altra in sequenza è essenzialmente corretto. Analizziamo un attimo ciò che un modello di elaborazione di informazioni visive dovrebbe fare. Il compito fondamentale della percezione è di catturare un'immagine come questa e dire: "Questo è un uccello," che è una cosa molto semplice per il nostro cervello. Ma tutti voi dovreste capire che per un computer, ciò era praticamente impossibile sino a qualche anno fa. Il classico paradigma di calcolo in questo caso non è così semplice da realizzare. Ciò che accade tra i pixel, tra l'immagine dell'uccello e la parola "uccello", essenzialmente è un gruppo di neuroni connessi tra loro in una rete neurale, come sto schematizzando qui. Questa rete neurale può essere biologica, nella nostra corteccia visuale, oppure, oggi, possiamo modellare queste reti neuronali su un computer. E vi mostrerò come in realtà ciò appaia. Quindi i pixel potete immaginarli come un primo strato di neuroni, ed è così, infatti, che funziona l'occhio: questi sono i neuroni della retina. Ed essi trasmettono da uno strato all'altro, tutti connessi da sinapsi di peso differente. Il comportamento di questa rete è caratterizzato dalle forze di tutte queste sinapsi. Esse caratterizzano le proprietà di calcolo di questa rete. E alla fine della giornata, abbiamo un neurone o un piccolo gruppo di neuroni che si accendono e dicono "uccello". Adesso vi mostrerò queste tre cose: i pixel di input, le sinapsi nella rete neurale, e l'uccello, il risultato, attraverso tre variabili: x, w ed y. Ci sono forse un milione di x più o meno, un milione di pixel in questa immagine. Ci sono miliardi o triliardi di w, che rappresentano il peso di tutte queste sinapsi nella rete neurale. E c'è un piccolissimo numero di y, di uscite che ha quella rete. Uccello è di sole tre sillabe, giusto? Facciamo finta che sia solo una semplice formula, x "x" w = y. Sto mettendo il "per" tra virgolette perché cio che realmente accade, ovviamente, è una complicatissima serie di operazioni matematiche. Questa è un'equazione. Ci sono tre variabili. E sappiamo tutti che se hai un'equazione, puoi risolvere una variabile conoscendo le altre due. Quindi il problema di arrivare alla soluzione, vale a dire, capire che l'immagine dell'uccello è un uccello, è questo: è che y è l'incognita e w ed x i termini noti. Conoscete la rete neurale e conoscete i pixel. Come potete vedere questo in realtà è un problema relativamente semplice. Moltiplicate per due volte tre ed è fatta. Vi mostro una rete neurale artificiale che abbiamo recentemente realizzato facendo esattamente questo. Funziona in tempo reale su un cellulare, e questo è di certo sorprendente di per sè, che i cellulari possono fare miliardi e triliardi di operazioni al secondo. Quello che state guardando è un cellulare che guarda un'immagine di un uccello dopo l'altra ed in realtà non dice solo: "Sì, è un uccello", ma identifica le specie di uccello con una rete di questo tipo. Quindi in questa foto, la x e la w sono note, e la y è l'incognita. Sto tralasciando la parte più difficile ovviamente, che è come diamine ci immaginiamo la w, il cervello che può fare una cosa simile ? Come potremmo mai conoscere un simile modello? Così questo processo di apprendimento di risolvere tramite la w, se stavamo facendo questo con una semplice equazione nella quale pensiamo a questi come numeri, sappiamo esattamente come fare: 6 = 2 x w, bene, dividiamo per due ed è fatta. Il problema sta in questa operazione. La divisione... abbiamo usato la divisione perché è l'inverso della moltiplicazione, ma come abbiamo appena detto, la moltiplicazione è un bugia qui. Questa è un'operazione complicatissima, davvero non semplice; non ha l'inverso. Cosi dobbiamo cercare di risolvere l'equazione senza un'operazione di divisione. E fare ciò è abbastanza semplice. Diciamo solo che facciamo un trucchetto algebrico, e spostiamo il sei nella parte a destra dell'equazione. Ora, stiamo ancora usando la moltiplicazione. E quello zero, pensiamolo come un errore. In altre parole, se abbiamo risolto la w in modo corretto, allora l'errore sarà lo zero. E se non l'abbiamo fatto giusto, l'errore sarà maggiore di zero. Cosi ora possiamo fare delle prove per minimizzare l'errore e questo è il genere di cose in cui i computer sono molto bravi. Quindi abbiamo un valore fittizio iniziale: se w = 0? Beh, allora l'errore è 6. Se w = 1? L'errore è 4. E così il computer può giocare ad una sorta di Marco Polo, e abbassare il margine di errore vicino allo zero. E così facendo, sta ottenendo continue approssimazioni per w. Generalmente, non ci si avvicina mai, ma dopo una dozzina di passaggi arriviamo a w = 2,999, che è abbastanza vicino. E questo è il processo di apprendimento. Quindi, ricordate che quello che succede qui è che abbiamo preso un mucchio di x note ed y note e abbiamo risolto la w nel mezzo attraverso un processo iterativo. È esattamente lo stesso processo che utilizziamo per apprendere. Riceviamo moltissime immagini da bambini che ci dicono: "questo è un uccello; questo non è un uccello." E con il tempo, attraverso l'iterazione, risolviamo la w, risolviamo quei collegamenti neurali. Quindi adesso abbiamo mantenuto fisse x ed w per risolvere y; questa è la rapida percezione quotidiana. Abbiamo capito come risolvere la w, che è apprendere, che è molto più difficile, perché abbiamo bisogno di minimizzare l'errore, usando molti esempi come allenamento. E circa un anno fa, Alex Mordvintsev, nel nostro team, decise di sperimentare cosa accade se cerchiamo di risolvere x, conoscendo w e y. In altre parole, sapete che è un uccello, e avete già la rete neurale che avete allenato sugli uccelli, ma cos'è l'immagine di un uccello? È venuto fuori che utilizzando la stessa procedura di minimizzazione dell'errore, si può fare con la rete allenata a riconoscere gli uccelli, ed il risultato è... un'immagine di uccelli. Quindi questa è un'immagine di uccelli interamente generata dalla rete neurale allenata a riconoscere gli uccelli, risolvendo solo x piuttosto che risolvere y, e facendolo in modo iterativo. Ho qui un altro esempio divertente. Questo era un lavoro fatto da Mike Tyra nel nostro gruppo che lui chiama "Parata degli animali". Mi ricorda un po' le opere d'arte di William Kentridge, in cui fa schizzi, li cancella, fa schizzi, li cancella, ed in questa maniera crea un film. In questo caso, quello che Mike fa è variare la y tra diversi animali, in una rete disegnata per riconoscere e distinguere diversi animali l'uno dall''altro. E si ottiene questa strana trasformazione stile Escher da un animale all'altro. Qui lui ed Alex insieme hanno cercato di ridurre la y ad uno spazio di sole due dimensioni, in modo tale da creare una mappa a aprtire dallo spazio delle cose riconosciute da questa rete. Facendo questo tipo di sintesi o generazione di immagini su tutta quella superficie, variando y sulla superficie, si può creare una sorta di mappa, una mappa visuale di tutte le cose che la rete sa come riconoscere. Gli animali sono tutti qui; "armadillo" è in quel posto. Potete fare questo anche con altri generi di reti. Questa è una rete disegnata per riconoscere i visi, per distinguere una faccia da un'altra. E qui, stiamo inserendo una y che dice "me", i miei parametri facciali. E quando questa cosa risolve la x, genera questa specie di pazza, cubista, surreale, psichedelica immagine di me stesso da molteplici punti di vista insieme. La ragione per cui sembrano più punti di vista insieme è che la rete è costruita per scartare le ambiguità di un volto che sia in una posa o in un'altra guardato con un tipo di luce, poi con un altro. Così quando si fa questo tipo di ricostruzione, se non si usa una qualche sorta di immagine guida, o statistica guida, otterrete una sorta di confusione di differenti punti di vista, perchè è ambiguo. Questo è quello che succede se Alex usa la sua faccia come immagine campione durante il processo di ottimizzazione per ricostruire il mio viso. Come potete vedere non è perfetto. C'è ancora un bel po' di lavoro da fare su come migliorare il processo di ottimizzazione. Ma si è cominciato ad ottenere qualcosa di più simile a un viso, usando la mia faccia come modello. Non è necessario iniziare con una tela bianca o con un rumore bianco. Quando risolvete la x, potete iniziare con una x, che di per sè è già una qualche altra immagine. Questa ne è una piccola dimostrazione. Questa è una reta disegnata per categorizzare ogni genere di oggetti diversi: strutture create dall'uomo, animali... Qui cominciamo semplicemente con una foto di nubi, e appena ottimizziamo, sostanzialmente, questa rete cerca di capire ciò che vede nelle nubi. E più tempo state a guardarla, più cose riuscirete a vedere nelle nubi. Si potrebbe anche utilizzare la rete dei visi per allucinarla ed ottenere cose piuttosto folli. (Risate) Oppure, Mike ha fatto qualche altro esperimento in cui prende questa immagine di nuvole allucinata, zoomata, allucinata zoomata, allucinata, zoomata. Ed in questo modo, è possibile ottenere una sorta di stato di fuga dalla rete, suppongo, o una sorta di libera associazione, nella quale la rete si morde la coda. Così ogni immagine è adesso la base per: "Cosa penso di vedere dopo? Cosa penso di vedere dopo? Cosa penso di vedere dopo?" Ho mostrato questa cosa per la prima volta in pubblico a un gruppo in una conferenza a Seattle chiamato "Istruzione superiore", subito dopo che la marijuana fu legalizzata. (Risate) Così mi piacerebbe concludere velocemente semplicemente facendovi notare che questa tecnologia non è vincolata. Vi ho mostrato esempi puramente visuali perché sono divertenti da vedere. Ma non è una tecnologia puramente visiva. Il nostro collaboratore artistico, Ross Goodwin, ha fatto esperimenti con una fotocamera che cattura un'immagine, e con un computer nel suo zaino che scrive una poesia usando reti neurali, basata sui contenuti dell'immagine. E quella rete neurale di poesia è stata allenata su un vasto materiale di poesie del XX secolo. E, sapete, la poesia, secondo me, in realtà non è male. (Risate) Per finire, penso che Michelangelo avesse ragione; percezione e creatività sono strettamente correlate. Quello che abbiamo appena visto sono reti neurali che sono completamente allenate a distinguere o a riconoscere differenti cose nel mondo, e se attivate al contrario, per creare. Una delle cose che mi suggerisce è che non solo Michelangelo potesse davvero vedere la scultura all'interno del blocco di pietra, ma che ogni creatura, ogni essere, ogni alieno che è in grado di eseguire atti percettivi di questo genere è anche in grado di creare perché è esattamente la stessa macchina che viene usata in entrambi i casi. Inoltre penso che la percezione e la creazione non siano mezzi unicamente umani. Iniziamo ad avere modelli di computer che fanno proprio questo genere di cose. E questo non dovrebbe sorprendere; il cervello è computazionale. Ed infine, il calcolo iniziò come un esercizio per creare macchine intelligenti. È iniziato dall'idea che potessimo creare macchine intelligenti. E finalmente stiamo iniziando ad adempiere adesso ad alcune delle promesse di quei primi pionieri, di Turing e von Neumann, di MacCulloch e Pitts. E pens che l'informatica non sia solo calcolare o giocare a Candy Crush o altro. Fin dal principio, l'abbiamo modellata sulle nostre menti. Ed essa ci hanno fornito sia la capacità di capire meglio la nostra mente sia di ampliarla. Grazie mille. (ApplausiI)