Bé, dirigeixo un equip a Google encarregat d'IA. Dit d'una altra manera, la disciplina d'enginyeria que fa que els ordinadors imitin processos mentals. Això fa que ens interessem en els cervells reals, així com en la neurociència i més concretament en els processos cerebrals que són molt superiors als processos dels ordinadors. Històricament, una d'aquestes àrees és la percepció. El procés mitjançant el qual coses del món exterior, sons i imatges, és converteixen en conceptes a la nostra ment. És un procés essencial per als nostres cervells i també resulta útil en el cas dels ordinadors. Els algoritmes de percepció de la màquina que fem a l'equip són els que fan possible buscar les fotos a Google Photos, basant-los en què contenen. Però la percepció també és creativitat. Fer d'un concepte, una cosa que hi ha al món. Durant els darrers anys, el nostre treball en la percepció mecànica ha connectat, inesperadament, amb el món de la creativitat mecànica, i l'art de les màquines. En Miquel Àngel tenia una profunda comprensió d'aquesta relació dual entre percepció i creativitat. Per exemple, en aquesta cita seva: "En cada bloc de marbre hi ha una escultura, i la feina de l'escultor es descobrir-la." Crec que al que en Miquel Àngel es referia és a que creem per mitjà de la percepció. La percepció, en si mateixa, és un acte d'imaginació, i, per tant, l'àmbit de la creativitat. L'òrgan que pensa, percep i imagina és, per descomptat, el cervell. M'agradaria començar amb un xic d'història, sobre el que sabem del cervell. A diferència d'òrgans com el cor o els intestins, no se'n pot dir gaire d'un cervell, amb només mirar-lo, com a mínim a simple vista. Els primers anatomistes que observaren el cervell, van donar a les estructures superficials tota mena de noms originals, com l'hipocamp, que vol dir 'gambeta'. Però, obviament, aquests noms no ens en diuen pas gaire de què passa realment a l'interior. La primera persona que, considero, va desenvolupar algun tipus de coneixement en relació als processos cerebrals va ser el gran neuroanatomista espanyol Santiago Ramón y Cajal, durant el segle XIX. Va utilitzar el microscopi i colorants especials per omplir o buidar selectivament, per tal d'aconseguir un contrast molt alt de les cèlules individuals del cervell, i així començar a entendre les seves morfologies. Aquests dibuixos de les neurones en són el resultat, tot això al segle XIX. Aquest és d'un cervell d'ocell. S'observa l'increïble varietat de tipus de cèl·lules que hi ha, fins i tot la pròpia teoria cel·lular era innovadora en aquell moment. Aquestes estructures, aquestes cèl·lules amb arboritzacions, aquestes branques que poden anar molt i molt lluny, tot això era molt nou per l'època. Recorden, per descomptat, a cables. Això podia ser molt obvi per a alguna gent del segle XIX, donat que acabava de començar la revolució elèctrica i dels cables. Però en molts sentits, els dibuixos microanatòmics d'en Ramón y Cajal, com aquest, en certa manera encara avui són inmillorables. Més d'un segle desprès, encara intentem acabar la feina que ell va començar. Aquestes són les dades dels nostres col·laboradors, de l'Institut de Neurociència Max Planck. El que aquests col·laboradors han fet és prendre imatges de petits trossos de teixits cerebrals. Aquesta mostra completa té una mida d'un mil·límetre cúbic, i això només és una porció minúscula. La barra de l'esquerra és una micra, si fa no fa. Les estructures que es veuen són les mitocòndries. Tenen la mida d'un bacteri. Aquests són costats consecutius, travessant aquest diminut bloc de teixit. Per a fer-se una idea, el diàmetre d'un fil mitjà del cabell té unes 100 micres. Així doncs, ara mateix observem quelcom molt més petit que un simple fil de cabell. A partir d'aquestes sèries de porcions de microscòpia d'electrons, és poden arribar a fer reconstruccions de neurones en 3D. Són així. Aquestes són similars a les de l'estil de Ramón y Cajal. Només il·luminem certes neurones donat que de no ser així no podríem veure res. Estaria massa atapeït, massa ple d'estructura, de connexions cerebrals entre una neurona i una altra. Ramón y Cajal va ser un avançat al seu temps. El progrés en relació a la comprensió del cervell va seguir lentament durant les dècades següents. Però vam aprendre que les neurones usen electricitat. A la Segona Guerra Mundial, la tecnologia havia avançat prou com per a fer experiments elèctrics amb neurones vives, per tal d'entendre'n el funcionament. Va ser el mateix moment en que s'inventaren els primers ordinadors, molt basats en l'idea de modelar el cervell humà, de fer "màquines intel·ligents", com va dir l'Alan Turing, un dels pares de la informàtica. Warren McCulloch i Walter Pitts observaren els dibuixos d'en Ramon y Cajal del còrtex visual, que mostro aquí. Aquest còrtex processa les imatges que reben els ulls. Per ells, això semblava un esquema de connexions. Per això hi ha molts detalls als esquemes d'en McCulloch i en Pitt que no són gaire correctes. Però aquesta idea bàsica, que el còrtex visual funciona com una serie d'elements computacionals tot passant informació d'un a l'altre en una cascada és, en essència, correcta. Aturem-nos un moment per parlar del que ha de fer un model de processador d'informació visual. La tasca de percepció més bàsica seria: agafar una imatge i poder dir "és un ocell". Una tasca ben senzilla per als nostres cervells. Però cal entendre que, en el cas d'un ordinador, era una tasca impossible només fa uns anys. El paradigma clàssic de la informàtica no és aquell on aquesta tasca és fàcil de fer. Així doncs, què passa entre els píxels, entre la imatge de l'ocell i la paraula "ocell", és, essencialment, un conjunt de neurones interconnectades en una xarxa neuronal, Com mostra el diagrama. Aquesta xarxa neural pot ser biològica, dins el nostre còrtex visual, o, com hem començat a ser capaços de fer, modelar aquestes xarxes neurals a l'ordinador. Els ensenyaré quin aspecte té. Així, els píxels es poden entendre com una primera capa de neurones, que, de fet, és com funciona en el cas de l'ull, les neurones que hi ha a la retina. Una rere l'altra, capes, capes i més capes de neurones, totes interconnectades per sinapsis de diferents pesos. El comportament de la xarxa es caracteritza per la força de totes aquestes sinapsis. Aquestes determinen les propietats computacionals de la xarxa. El resultat final, és una neurona o un petit grup de neurones que s'il·luminen i diuen "ocell". Ara representaré aquestes tres coses: Els píxels d'entrada, les sinapsis a la xarxa neuronal i l'ocell, el resultat; amb tres variables: x, w i y. Potser hi ha un milió o més de 'x', un milió de píxels a la imatge. Hi ha milers de milions de 'w', que representen els pesos de les sinapsis a la xarxa neuronal. Però hi ha un nombre molt petit de 'y', els resultats de la xarxa neuronal. "Bird" ['ocell'] són 4 lletres, oi? Plantegem-nos-ho com una fórmula senzilla: x "x" w = y Poso els temps entre cometes perquè el que passa realment, per descomptat, són una serie d'operacions matemàtiques molt complicades. Això és una equació. Hi ha 3 variables. Tothom sap que si tenim una equació, es pot resoldre una variable per mitjà de conèixer les altres dues. Així que el problema de la inferència, és a dir esbrinar que la imatge de l'ocell és un ocell, és el següent: 'y' és la incògnita i 'w' i 'x' són valors coneguts. Sabem la xarxa neural, sabem les píxels. De fet, en realitat es tracta d'un problema relativament senzill. Multiplicant 2 vegades 3 estaria resolt. Els ensenyaré una xarxa neuronal artificial, que hem construït fa poc, seguint aquesta idea. Això s'executa en temps real des d'un telèfon mòbil, la qual cosa ja és, en si, prou sorprenent; el fet que telèfons mòbils facin milers de milions i bilions d'operacions, en uns pocs segons. El que veuen és un telèfon, mirant una per una imatges d'ocells. De fet, no només mirant i dient "Sí, és un ocell", sinó també identificant-ne l'espècie d'au per mitjà d'aquesta xarxa. Així, en aquesta imatge, 'x' i 'w' són valors coneguts, i 'y' és la incògnita. Per descomptat, passem per alt la part més difícil, que és: com descobrim el valor de 'w', el cervell que ho pot fer? Com podríem aprendre un model així? Doncs aquest procés d'aprenentatge, de resoldre el valor de 'w', si el fem amb l'equació, on pensem en el problema com a números, sabem com fer-ho exactament: 6 = 2 x w. Dividim entre 2 i s'ha acabat. El problema ve amb aquesta operació. La divisió. Hem utilitzat la divisió perquè és l'oposat a la multiplicació, però com hem dit, la multiplicació no és del tot certa aquí. Es una operació tremendament complicada, una operació no lineal, que no té oposat. Així que hem d'esbrinar la manera de resoldre l'equació sense usar la divisió. La manera per fer-ho és bastant directa. Només s'ha de fer un petit truc d'àlgebra. És mou el 6 a la part dreta de l'equació. Així, encara usem la multiplicació. Aquest 0, considerem-lo un error. És a dir, si hem resolt 'w' correctament, l'error és 0; si no l'hem resolt bé, l'error serà més gran que 0. Ara només podem calcular a ull, per tal de minimitzar l'error, i els ordinadors són bons en aquest tipus de coses. Prenent una aproximació inicial: què passa si w = 0? Bé, llavors l'error és 6. Què passa si w = 1? L'error és 4. I així l'ordinador pot jugar a Marco Polo, per tal de reduir l'error prop de 0. A mesura que ho fa, fa aproximacions successives a 'w'. En general, mai hi arriba del tot, però desprès d'uns 12 passos, s'arriba a w=2.999, que està prou a prop. Aquest és el procés d'aprenentatge. Recordem que el que hem estat fent aquí ha estat usar molts valors coneguts 'x' i 'y' i resoldre la 'w' central mitjançant un procés de repetició. És exactament la mateixa manera en la que aprenem nosaltres mateixos. De nadons tenim moltíssimes imatges i se'ns diu: "Això és un ocell, això no ho és". Amb el temps, a través de la repetició, resolem la nostra 'w', resolent les seves connexions neurals. Bé, ara hem mantingut 'x' i 'w' per tal de resoldre 'y' això és diari, la percepció ràpida. Hem descobert com resoldre 'w', l'aprenentatge, molt més difícil perquè s'ha de minimitzar l'error practicant amb molts exemples, i fa un any, l'Alex Mordvintsev, del nostre equip, va decidir experimentar què passa en intentar resoldre 'x', amb una 'w' i una 'y' conegudes. És a dir, sabem que és un ocell, i tenim la xarxa neural entrenada en ocells, però què és la imatge d'un ocell? Va resultar que usant el mateix procés de minimitzar l'error, mitjançant la xarxa entrenada en reconèixer ocells, el resultat és... una imatge d'ocells. Aquesta imatge d'ocells es genera totalment per la xarxa neural entrenada en reconèixer ocells, tot resolent 'x' en lloc de resoldre 'y' de manera repetitiva. Aquest és un altre bon exemple. És un treball fet pel Mike Tyka, del nostre grup. El va anomenar "Cavalcada d'animals". Em recorda una mica l'obra d'en William Kentridge, fa esborranys, els refrega, fa esborranys, els refrega i amb tot plegat fa una pel·lícula. En aquest cas, en Mike va variar 'y' en l'espai de diferents animals, a una xarxa dissenyada que reconeix i distingeix entre diferents animals. El resultat és aquest estil Escher d'animals transformant-se'n altres. Ell i l'Alex van provar a reduir 'y' a un espai de només 2 dimensions, tot fent un mapa fora de l'espai de totes les coses que reconeix aquesta xarxa. En fer aquesta combinació o generar les imatges sobre tota aquesta superfície variant 'y' per la mateixa, es genera una mena de mapa; un mapa visual de tot allò que la xarxa pot reconèixer. Tots els animals hi són, com l'armadillo just en aquest punt. Això també es pot fer amb altra mena de xarxes. Aquesta és una xarxa dissenyada per a reconèixer cares. Per a distingir una cara d'una altra. Aquí hem posat a 'y' on hi posa "jo" els paràmetres de la meva cara. Quan amb això resolem 'x' genera aquesta bogeria. Barreja de cubista, surrealista i psicodèlica foto meva, amb múltiples punts de vista aplegats. La raó per la qual aplega múltiples punts de vista alhora és perquè la xarxa està dissenyada per a obviar l'ambigüitat d'una mateixa cara amb un gest o un altre, observat amb una il·luminació o una altra de diferent. Així, en fer aquesta mena de reconstrucció si no s'utilitza algun tipus d'imatge de guia, d'estadístiques de guia, el resultat és una confusió de diferents punts de vista, perquè és ambigu. Això és el que passa quan l'Alex usa la seva cara com a imatge de guia en el procés d'optimització per tal de reconstruir la meva cara. Es pot apreciar que no es perfecte. Encara queda molta feina a fer, per tal de millorar aquest procés d'optimització. Però, es comença a obtenir quelcom semblant a una cara, he deixat d'usar la meva cara com a guia. No s'ha de començar d'un llenç en blanc o d'un so en blanc. Quan resolem 'x', es pot començar amb una 'x', és a dir, amb una altra imatge. Com en aquesta petita demostració. Aquesta és una xarxa dissenyada per tal de categoritzar tota mena d'objectes: estructures fetes per l'home, animals... Comencem amb una senzilla fotografia de núvols i en optimitzar, la xarxa esbrina, en essència, què hi veu als núvols. Com a més temps passem observant-ho, més coses hi veurem, als núvols. També podem usar la xarxa de reconeixement facial per al·lucinar, i aconseguim coses bastant boges. (Riures) En Mike també ha fet d'altres experiments. Ha agafat la imatge del núvols, al·lucina, fa zoom, al·lucina, fa zoom... D'aquesta manera, s'obté una mena d'estat de fuga dissociativa a la xarxa, una mena d'associació lliure, on la xarxa és menja la seva pròpia cua. Fent, així, de cada imatge, la base de: "Què crec que hi veig aquí? I ara què hi veig? I ara?..." La primera vegada que ho vaig ensenyar en públic va ser a un grup a una conferència a Seattle anomenat "Higher Education", tot just després de legalitzar la marihuana. (Riures) M'agradaria acabar ràpidament, dient que aquesta tecnologia no és només això. He ensenyat exemples visuals perquè són divertits, però no només es tracta de tecnologia visual. Un artista col·laborador, en Ross Goodwin, ha fet experiments fent fotografies amb una càmera i que un ordinador a la seva motxilla en faci un poema amb una xarxa neural; bastant-se en la imatge. Aquesta xarxa neural de poesia s'ha preparat amb un extens corpus de poesia del segle XX. Els poemes resultants són... Bé, no estan del tot malament. (Riures) En resum. Crec que en Miquel Àngel tenia raó. La percepció i la creativitat estan lligades molt íntimament. Això són xarxes neuronals preparades per tal de poder discriminar o reconèixer diferents coses del món; capaces de córrer en sentit invers per tal de poder generar. Una de les coses que em suggereix, és que no només en Miquel Àngel era capaç de veure l'escultura dins els blocs de marbre; sino que qualsevol criatura, qualsevol ésser, qualsevol marcià capaç de fer aquesta mena d'actes de percepció, també pot crear. Perquè s'utilitza exactament el mateix mecanisme en ambdós casos. També considero que tant la percepció com la creativitat no són exclusivament humanes. Comencem a tenir models d'ordinador capaços de dur a terme aquestes tasques. Això no ens hauria de sorprendre, ja que el cervell és computacional. Per acabar, la informàtica començà com a un exercici de disseny de màquines intel·ligents. Es va modelar molt en torn a la idea de com fer màquines intel·ligents. Finalment, ara comencem a aconseguir algunes de les promeses d'aquells primers pioners, d'en Turing, en Von Neumann, d'en McCulloch i en Pitts. Crec que la informàtica no és només comptabilitat, o jugar al "Candy Crush" i coses així. Vam començar seguint el model de les nostres ments. Ens dóna tant l'habilitat d'entendre'ns millor a nosaltres mateixos com de millora-la. Moltes gràcies. (Aplaudiments)