Bé, dirigeixo un equip a Google
encarregat d'IA.
Dit d'una altra manera,
la disciplina d'enginyeria
que fa que els ordinadors
imitin processos mentals.
Això fa que ens interessem
en els cervells reals,
així com en la neurociència
i més concretament
en els processos cerebrals
que són molt superiors
als processos dels ordinadors.
Històricament, una d'aquestes àrees
és la percepció.
El procés mitjançant el qual
coses del món exterior,
sons i imatges,
és converteixen en conceptes
a la nostra ment.
És un procés essencial
per als nostres cervells
i també resulta útil
en el cas dels ordinadors.
Els algoritmes de percepció de la màquina
que fem a l'equip
són els que fan possible
buscar les fotos a Google Photos,
basant-los en què contenen.
Però la percepció també és creativitat.
Fer d'un concepte,
una cosa que hi ha al món.
Durant els darrers anys, el nostre treball
en la percepció mecànica
ha connectat, inesperadament,
amb el món de la creativitat mecànica,
i l'art de les màquines.
En Miquel Àngel tenia
una profunda comprensió
d'aquesta relació dual
entre percepció i creativitat.
Per exemple, en aquesta cita seva:
"En cada bloc de marbre
hi ha una escultura,
i la feina de l'escultor es descobrir-la."
Crec que al que
en Miquel Àngel es referia
és a que creem per mitjà de la percepció.
La percepció, en si mateixa,
és un acte d'imaginació,
i, per tant, l'àmbit de la creativitat.
L'òrgan que pensa,
percep i imagina és,
per descomptat, el cervell.
M'agradaria començar
amb un xic d'història,
sobre el que sabem del cervell.
A diferència d'òrgans
com el cor o els intestins,
no se'n pot dir gaire d'un cervell,
amb només mirar-lo,
com a mínim a simple vista.
Els primers anatomistes
que observaren el cervell,
van donar a les estructures superficials
tota mena de noms originals,
com l'hipocamp, que vol dir 'gambeta'.
Però, obviament, aquests noms
no ens en diuen pas gaire
de què passa realment a l'interior.
La primera persona que, considero,
va desenvolupar algun tipus de coneixement
en relació als processos cerebrals
va ser el gran neuroanatomista espanyol
Santiago Ramón y Cajal,
durant el segle XIX.
Va utilitzar el microscopi
i colorants especials
per omplir o buidar selectivament,
per tal d'aconseguir un contrast molt alt
de les cèlules individuals del cervell,
i així començar a entendre
les seves morfologies.
Aquests dibuixos de les neurones
en són el resultat,
tot això al segle XIX.
Aquest és d'un cervell d'ocell.
S'observa l'increïble varietat
de tipus de cèl·lules que hi ha,
fins i tot la pròpia teoria cel·lular
era innovadora en aquell moment.
Aquestes estructures,
aquestes cèl·lules amb arboritzacions,
aquestes branques que poden anar
molt i molt lluny,
tot això era molt nou per l'època.
Recorden, per descomptat, a cables.
Això podia ser molt obvi
per a alguna gent del segle XIX,
donat que acabava de començar
la revolució elèctrica i dels cables.
Però en molts sentits,
els dibuixos microanatòmics
d'en Ramón y Cajal, com aquest,
en certa manera encara avui
són inmillorables.
Més d'un segle desprès,
encara intentem acabar la feina
que ell va començar.
Aquestes són les dades
dels nostres col·laboradors,
de l'Institut de Neurociència Max Planck.
El que aquests col·laboradors han fet
és prendre imatges de petits trossos
de teixits cerebrals.
Aquesta mostra completa
té una mida d'un mil·límetre cúbic,
i això només és una porció minúscula.
La barra de l'esquerra
és una micra, si fa no fa.
Les estructures que es veuen
són les mitocòndries.
Tenen la mida d'un bacteri.
Aquests són costats consecutius,
travessant aquest diminut
bloc de teixit.
Per a fer-se una idea,
el diàmetre d'un fil mitjà del cabell
té unes 100 micres.
Així doncs, ara mateix observem
quelcom molt més petit
que un simple fil de cabell.
A partir d'aquestes sèries
de porcions de microscòpia d'electrons,
és poden arribar a fer reconstruccions
de neurones en 3D. Són així.
Aquestes són similars
a les de l'estil de Ramón y Cajal.
Només il·luminem
certes neurones
donat que de no ser així
no podríem veure res.
Estaria massa atapeït,
massa ple d'estructura,
de connexions cerebrals
entre una neurona i una altra.
Ramón y Cajal va ser
un avançat al seu temps.
El progrés en relació
a la comprensió del cervell
va seguir lentament
durant les dècades següents.
Però vam aprendre
que les neurones usen electricitat.
A la Segona Guerra Mundial,
la tecnologia havia avançat prou
com per a fer experiments elèctrics
amb neurones vives,
per tal d'entendre'n el funcionament.
Va ser el mateix moment en que
s'inventaren els primers ordinadors,
molt basats en l'idea de modelar
el cervell humà,
de fer "màquines intel·ligents",
com va dir l'Alan Turing,
un dels pares de la informàtica.
Warren McCulloch i Walter Pitts
observaren els dibuixos d'en Ramon y Cajal
del còrtex visual,
que mostro aquí.
Aquest còrtex processa les imatges
que reben els ulls.
Per ells, això semblava
un esquema de connexions.
Per això hi ha molts detalls als esquemes
d'en McCulloch i en Pitt
que no són gaire correctes.
Però aquesta idea bàsica,
que el còrtex visual funciona
com una serie d'elements computacionals
tot passant informació d'un a l'altre
en una cascada
és, en essència, correcta.
Aturem-nos un moment
per parlar del que ha de fer un model
de processador d'informació visual.
La tasca de percepció més bàsica seria:
agafar una imatge i poder dir
"és un ocell".
Una tasca ben senzilla
per als nostres cervells.
Però cal entendre que,
en el cas d'un ordinador,
era una tasca impossible
només fa uns anys.
El paradigma clàssic de la informàtica
no és aquell on aquesta tasca
és fàcil de fer.
Així doncs, què passa entre els píxels,
entre la imatge de l'ocell
i la paraula "ocell",
és, essencialment,
un conjunt de neurones interconnectades
en una xarxa neuronal,
Com mostra el diagrama.
Aquesta xarxa neural pot ser biològica,
dins el nostre còrtex visual,
o, com hem començat
a ser capaços de fer,
modelar aquestes xarxes neurals
a l'ordinador.
Els ensenyaré quin aspecte té.
Així, els píxels es poden entendre
com una primera capa de neurones,
que, de fet, és com funciona
en el cas de l'ull,
les neurones que hi ha a la retina.
Una rere l'altra,
capes, capes i més capes
de neurones,
totes interconnectades per sinapsis
de diferents pesos.
El comportament de la xarxa
es caracteritza per la força
de totes aquestes sinapsis.
Aquestes determinen
les propietats computacionals de la xarxa.
El resultat final,
és una neurona
o un petit grup de neurones
que s'il·luminen i diuen "ocell".
Ara representaré aquestes tres coses:
Els píxels d'entrada, les sinapsis
a la xarxa neuronal
i l'ocell, el resultat;
amb tres variables: x, w i y.
Potser hi ha un milió o més de 'x',
un milió de píxels a la imatge.
Hi ha milers de milions de 'w',
que representen els pesos de les sinapsis
a la xarxa neuronal.
Però hi ha un nombre molt petit de 'y',
els resultats de la xarxa neuronal.
"Bird" ['ocell'] són 4 lletres, oi?
Plantegem-nos-ho
com una fórmula senzilla:
x "x" w = y
Poso els temps entre cometes
perquè el que passa realment,
per descomptat,
són una serie d'operacions matemàtiques
molt complicades.
Això és una equació.
Hi ha 3 variables.
Tothom sap que si tenim una equació,
es pot resoldre una variable
per mitjà de conèixer les altres dues.
Així que el problema de la inferència,
és a dir esbrinar que
la imatge de l'ocell és un ocell,
és el següent:
'y' és la incògnita
i 'w' i 'x' són valors coneguts.
Sabem la xarxa neural,
sabem les píxels.
De fet, en realitat es tracta
d'un problema relativament senzill.
Multiplicant 2 vegades 3
estaria resolt.
Els ensenyaré
una xarxa neuronal artificial,
que hem construït fa poc,
seguint aquesta idea.
Això s'executa en temps real
des d'un telèfon mòbil,
la qual cosa ja és, en si,
prou sorprenent;
el fet que telèfons mòbils facin
milers de milions i bilions d'operacions,
en uns pocs segons.
El que veuen és un telèfon,
mirant una per una
imatges d'ocells.
De fet, no només mirant
i dient "Sí, és un ocell",
sinó també identificant-ne l'espècie d'au
per mitjà d'aquesta xarxa.
Així, en aquesta imatge,
'x' i 'w' són valors coneguts,
i 'y' és la incògnita.
Per descomptat, passem per alt
la part més difícil,
que és: com descobrim el valor de 'w',
el cervell que ho pot fer?
Com podríem aprendre un model així?
Doncs aquest procés d'aprenentatge,
de resoldre el valor de 'w',
si el fem amb l'equació,
on pensem en el problema com a números,
sabem com fer-ho exactament: 6 = 2 x w.
Dividim entre 2 i s'ha acabat.
El problema ve amb aquesta operació.
La divisió.
Hem utilitzat la divisió
perquè és l'oposat a la multiplicació,
però com hem dit,
la multiplicació no és del tot certa aquí.
Es una operació tremendament complicada,
una operació no lineal,
que no té oposat.
Així que hem d'esbrinar
la manera de resoldre l'equació
sense usar la divisió.
La manera per fer-ho
és bastant directa.
Només s'ha de fer
un petit truc d'àlgebra.
És mou el 6 a la part dreta de l'equació.
Així, encara usem la multiplicació.
Aquest 0, considerem-lo un error.
És a dir, si hem resolt 'w'
correctament,
l'error és 0;
si no l'hem resolt bé,
l'error serà més gran que 0.
Ara només podem calcular a ull,
per tal de minimitzar l'error,
i els ordinadors són bons
en aquest tipus de coses.
Prenent una aproximació inicial:
què passa si w = 0?
Bé, llavors l'error és 6.
Què passa si w = 1?
L'error és 4.
I així l'ordinador pot jugar
a Marco Polo,
per tal de reduir l'error prop de 0.
A mesura que ho fa,
fa aproximacions successives a 'w'.
En general, mai hi arriba del tot,
però desprès d'uns 12 passos,
s'arriba a w=2.999,
que està prou a prop.
Aquest és el procés d'aprenentatge.
Recordem que el que hem estat fent aquí
ha estat usar
molts valors coneguts 'x' i 'y'
i resoldre la 'w' central
mitjançant un procés de repetició.
És exactament la mateixa manera
en la que aprenem nosaltres mateixos.
De nadons tenim moltíssimes imatges
i se'ns diu:
"Això és un ocell, això no ho és".
Amb el temps, a través de la repetició,
resolem la nostra 'w',
resolent les seves connexions neurals.
Bé, ara hem mantingut
'x' i 'w' per tal de resoldre 'y'
això és diari, la percepció ràpida.
Hem descobert com resoldre 'w',
l'aprenentatge, molt més difícil
perquè s'ha de minimitzar l'error
practicant amb molts exemples,
i fa un any, l'Alex Mordvintsev,
del nostre equip,
va decidir experimentar
què passa en intentar resoldre 'x',
amb una 'w' i una 'y' conegudes.
És a dir,
sabem que és un ocell,
i tenim la xarxa neural
entrenada en ocells,
però què és la imatge d'un ocell?
Va resultar que usant el mateix procés
de minimitzar l'error,
mitjançant la xarxa entrenada
en reconèixer ocells,
el resultat és...
una imatge d'ocells.
Aquesta imatge d'ocells
es genera totalment per la xarxa neural
entrenada en reconèixer ocells,
tot resolent 'x' en lloc de resoldre 'y'
de manera repetitiva.
Aquest és un altre bon exemple.
És un treball fet pel Mike Tyka,
del nostre grup.
El va anomenar "Cavalcada d'animals".
Em recorda una mica
l'obra d'en William Kentridge,
fa esborranys, els refrega,
fa esborranys, els refrega
i amb tot plegat fa una pel·lícula.
En aquest cas,
en Mike va variar 'y'
en l'espai de diferents animals,
a una xarxa dissenyada
que reconeix i distingeix
entre diferents animals.
El resultat és aquest estil Escher
d'animals transformant-se'n altres.
Ell i l'Alex van provar a reduir
'y' a un espai de només 2 dimensions,
tot fent un mapa
fora de l'espai de totes les coses
que reconeix aquesta xarxa.
En fer aquesta combinació
o generar les imatges
sobre tota aquesta superfície
variant 'y' per la mateixa,
es genera una mena de mapa;
un mapa visual de tot allò
que la xarxa pot reconèixer.
Tots els animals hi són,
com l'armadillo just en aquest punt.
Això també es pot fer amb
altra mena de xarxes.
Aquesta és una xarxa
dissenyada per a reconèixer cares.
Per a distingir una cara d'una altra.
Aquí hem posat a 'y'
on hi posa "jo"
els paràmetres de la meva cara.
Quan amb això resolem 'x'
genera aquesta bogeria.
Barreja de cubista, surrealista
i psicodèlica foto meva,
amb múltiples punts de vista aplegats.
La raó per la qual aplega
múltiples punts de vista alhora
és perquè la xarxa està dissenyada
per a obviar l'ambigüitat
d'una mateixa cara
amb un gest o un altre,
observat amb una il·luminació
o una altra de diferent.
Així, en fer aquesta mena de reconstrucció
si no s'utilitza
algun tipus d'imatge de guia,
d'estadístiques de guia,
el resultat és una confusió
de diferents punts de vista,
perquè és ambigu.
Això és el que passa quan l'Alex
usa la seva cara com a imatge de guia
en el procés d'optimització per tal
de reconstruir la meva cara.
Es pot apreciar que no es perfecte.
Encara queda molta feina a fer,
per tal de millorar
aquest procés d'optimització.
Però, es comença a obtenir
quelcom semblant a una cara,
he deixat d'usar la meva cara com a guia.
No s'ha de començar
d'un llenç en blanc
o d'un so en blanc.
Quan resolem 'x',
es pot començar amb una 'x',
és a dir, amb una altra imatge.
Com en aquesta petita demostració.
Aquesta és una xarxa dissenyada
per tal de categoritzar
tota mena d'objectes:
estructures fetes per l'home, animals...
Comencem amb una senzilla
fotografia de núvols
i en optimitzar,
la xarxa esbrina, en essència,
què hi veu als núvols.
Com a més temps passem
observant-ho,
més coses hi veurem,
als núvols.
També podem usar la xarxa
de reconeixement facial per al·lucinar,
i aconseguim coses bastant boges.
(Riures)
En Mike també ha fet d'altres experiments.
Ha agafat la imatge del núvols,
al·lucina, fa zoom,
al·lucina, fa zoom...
D'aquesta manera,
s'obté una mena d'estat
de fuga dissociativa a la xarxa,
una mena d'associació lliure,
on la xarxa és menja la seva pròpia cua.
Fent, així, de cada imatge, la base de:
"Què crec que hi veig aquí?
I ara què hi veig? I ara?..."
La primera vegada
que ho vaig ensenyar en públic
va ser a un grup a una conferència
a Seattle anomenat "Higher Education",
tot just després
de legalitzar la marihuana.
(Riures)
M'agradaria acabar ràpidament,
dient que aquesta
tecnologia no és només això.
He ensenyat exemples visuals
perquè són divertits,
però no només es tracta
de tecnologia visual.
Un artista col·laborador,
en Ross Goodwin,
ha fet experiments
fent fotografies amb una càmera
i que un ordinador a la seva motxilla
en faci un poema amb una xarxa neural;
bastant-se en la imatge.
Aquesta xarxa neural de poesia
s'ha preparat
amb un extens corpus de poesia
del segle XX.
Els poemes resultants són...
Bé, no estan del tot malament.
(Riures)
En resum.
Crec que en Miquel Àngel
tenia raó.
La percepció i la creativitat
estan lligades molt íntimament.
Això són xarxes neuronals
preparades per tal de poder
discriminar
o reconèixer diferents coses
del món;
capaces de córrer en sentit invers
per tal de poder generar.
Una de les coses que em suggereix,
és que no només
en Miquel Àngel era capaç de veure
l'escultura dins els blocs de marbre;
sino que qualsevol criatura,
qualsevol ésser, qualsevol marcià
capaç de fer aquesta mena
d'actes de percepció,
també pot crear.
Perquè s'utilitza exactament
el mateix mecanisme en ambdós casos.
També considero que tant
la percepció com la creativitat no són
exclusivament humanes.
Comencem a tenir models d'ordinador
capaços de dur a terme aquestes tasques.
Això no ens hauria de sorprendre,
ja que el cervell és computacional.
Per acabar,
la informàtica començà com a un exercici
de disseny de màquines intel·ligents.
Es va modelar molt en torn
a la idea
de com fer màquines intel·ligents.
Finalment, ara comencem a aconseguir
algunes de les promeses
d'aquells primers pioners,
d'en Turing, en Von Neumann,
d'en McCulloch i en Pitts.
Crec que la informàtica
no és només comptabilitat,
o jugar al "Candy Crush" i coses així.
Vam començar seguint
el model de les nostres ments.
Ens dóna tant l'habilitat
d'entendre'ns millor a nosaltres mateixos
com de millora-la.
Moltes gràcies.
(Aplaudiments)