1 00:00:00,800 --> 00:00:03,924 Bé, dirigeixo un equip a Google encarregat d'IA. 2 00:00:03,948 --> 00:00:06,328 Dit d'una altra manera, la disciplina d'enginyeria 3 00:00:06,382 --> 00:00:11,041 que fa que els ordinadors imitin processos mentals. 4 00:00:11,439 --> 00:00:14,538 Això fa que ens interessem en els cervells reals, 5 00:00:14,562 --> 00:00:15,851 així com en la neurociència 6 00:00:15,875 --> 00:00:20,047 i més concretament en els processos cerebrals 7 00:00:20,071 --> 00:00:24,113 que són molt superiors als processos dels ordinadors. 8 00:00:25,209 --> 00:00:28,818 Històricament, una d'aquestes àrees és la percepció. 9 00:00:28,842 --> 00:00:31,881 El procés mitjançant el qual coses del món exterior, 10 00:00:31,905 --> 00:00:33,489 sons i imatges, 11 00:00:33,513 --> 00:00:35,691 és converteixen en conceptes a la nostra ment. 12 00:00:36,235 --> 00:00:38,752 És un procés essencial per als nostres cervells 13 00:00:38,776 --> 00:00:41,240 i també resulta útil en el cas dels ordinadors. 14 00:00:41,636 --> 00:00:44,986 Els algoritmes de percepció de la màquina que fem a l'equip 15 00:00:45,010 --> 00:00:48,884 són els que fan possible buscar les fotos a Google Photos, 16 00:00:48,908 --> 00:00:50,305 basant-los en què contenen. 17 00:00:51,594 --> 00:00:55,087 Però la percepció també és creativitat. 18 00:00:55,111 --> 00:00:58,149 Fer d'un concepte, una cosa que hi ha al món. 19 00:00:58,173 --> 00:01:01,728 Durant els darrers anys, el nostre treball en la percepció mecànica 20 00:01:01,752 --> 00:01:06,611 ha connectat, inesperadament, amb el món de la creativitat mecànica, 21 00:01:06,635 --> 00:01:07,795 i l'art de les màquines. 22 00:01:08,556 --> 00:01:11,840 En Miquel Àngel tenia una profunda comprensió 23 00:01:11,864 --> 00:01:15,520 d'aquesta relació dual entre percepció i creativitat. 24 00:01:16,023 --> 00:01:18,029 Per exemple, en aquesta cita seva: 25 00:01:18,053 --> 00:01:21,376 "En cada bloc de marbre hi ha una escultura, 26 00:01:22,036 --> 00:01:25,038 i la feina de l'escultor es descobrir-la." 27 00:01:26,029 --> 00:01:29,245 Crec que al que en Miquel Àngel es referia 28 00:01:29,269 --> 00:01:32,449 és a que creem per mitjà de la percepció. 29 00:01:32,473 --> 00:01:35,496 La percepció, en si mateixa, és un acte d'imaginació, 30 00:01:35,520 --> 00:01:37,981 i, per tant, l'àmbit de la creativitat. 31 00:01:38,691 --> 00:01:42,616 L'òrgan que pensa, percep i imagina és, 32 00:01:42,640 --> 00:01:44,228 per descomptat, el cervell. 33 00:01:45,089 --> 00:01:47,634 M'agradaria començar amb un xic d'història, 34 00:01:47,658 --> 00:01:49,960 sobre el que sabem del cervell. 35 00:01:50,496 --> 00:01:52,942 A diferència d'òrgans com el cor o els intestins, 36 00:01:52,966 --> 00:01:56,110 no se'n pot dir gaire d'un cervell, amb només mirar-lo, 37 00:01:56,134 --> 00:01:57,546 com a mínim a simple vista. 38 00:01:57,983 --> 00:02:00,399 Els primers anatomistes que observaren el cervell, 39 00:02:00,423 --> 00:02:04,230 van donar a les estructures superficials tota mena de noms originals, 40 00:02:04,254 --> 00:02:06,687 com l'hipocamp, que vol dir 'gambeta'. 41 00:02:06,711 --> 00:02:09,475 Però, obviament, aquests noms no ens en diuen pas gaire 42 00:02:09,499 --> 00:02:11,817 de què passa realment a l'interior. 43 00:02:12,780 --> 00:02:16,393 La primera persona que, considero, va desenvolupar algun tipus de coneixement 44 00:02:16,417 --> 00:02:18,347 en relació als processos cerebrals 45 00:02:18,371 --> 00:02:22,291 va ser el gran neuroanatomista espanyol Santiago Ramón y Cajal, 46 00:02:22,315 --> 00:02:23,859 durant el segle XIX. 47 00:02:23,883 --> 00:02:27,638 Va utilitzar el microscopi i colorants especials 48 00:02:27,662 --> 00:02:31,832 per omplir o buidar selectivament, per tal d'aconseguir un contrast molt alt 49 00:02:31,856 --> 00:02:33,864 de les cèlules individuals del cervell, 50 00:02:33,888 --> 00:02:37,042 i així començar a entendre les seves morfologies. 51 00:02:37,972 --> 00:02:40,863 Aquests dibuixos de les neurones en són el resultat, 52 00:02:40,887 --> 00:02:42,096 tot això al segle XIX. 53 00:02:42,120 --> 00:02:44,004 Aquest és d'un cervell d'ocell. 54 00:02:44,028 --> 00:02:47,085 S'observa l'increïble varietat de tipus de cèl·lules que hi ha, 55 00:02:47,109 --> 00:02:50,544 fins i tot la pròpia teoria cel·lular era innovadora en aquell moment. 56 00:02:50,568 --> 00:02:51,846 Aquestes estructures, 57 00:02:51,870 --> 00:02:54,129 aquestes cèl·lules amb arboritzacions, 58 00:02:54,153 --> 00:02:56,761 aquestes branques que poden anar molt i molt lluny, 59 00:02:56,785 --> 00:02:58,401 tot això era molt nou per l'època. 60 00:02:58,779 --> 00:03:01,682 Recorden, per descomptat, a cables. 61 00:03:01,706 --> 00:03:05,163 Això podia ser molt obvi per a alguna gent del segle XIX, 62 00:03:05,187 --> 00:03:09,501 donat que acabava de començar la revolució elèctrica i dels cables. 63 00:03:09,964 --> 00:03:11,142 Però en molts sentits, 64 00:03:11,166 --> 00:03:14,479 els dibuixos microanatòmics d'en Ramón y Cajal, com aquest, 65 00:03:14,503 --> 00:03:16,835 en certa manera encara avui són inmillorables. 66 00:03:16,859 --> 00:03:18,713 Més d'un segle desprès, 67 00:03:18,737 --> 00:03:21,562 encara intentem acabar la feina que ell va començar. 68 00:03:21,586 --> 00:03:24,720 Aquestes són les dades dels nostres col·laboradors, 69 00:03:24,744 --> 00:03:27,625 de l'Institut de Neurociència Max Planck. 70 00:03:27,649 --> 00:03:29,439 El que aquests col·laboradors han fet 71 00:03:29,463 --> 00:03:34,464 és prendre imatges de petits trossos de teixits cerebrals. 72 00:03:34,488 --> 00:03:37,814 Aquesta mostra completa té una mida d'un mil·límetre cúbic, 73 00:03:37,838 --> 00:03:40,459 i això només és una porció minúscula. 74 00:03:40,483 --> 00:03:42,829 La barra de l'esquerra és una micra, si fa no fa. 75 00:03:42,853 --> 00:03:45,262 Les estructures que es veuen són les mitocòndries. 76 00:03:45,286 --> 00:03:47,330 Tenen la mida d'un bacteri. 77 00:03:47,354 --> 00:03:48,905 Aquests són costats consecutius, 78 00:03:48,929 --> 00:03:52,077 travessant aquest diminut bloc de teixit. 79 00:03:52,101 --> 00:03:54,504 Per a fer-se una idea, 80 00:03:54,528 --> 00:03:58,320 el diàmetre d'un fil mitjà del cabell té unes 100 micres. 81 00:03:58,344 --> 00:04:00,618 Així doncs, ara mateix observem quelcom molt més petit 82 00:04:00,642 --> 00:04:02,040 que un simple fil de cabell. 83 00:04:02,064 --> 00:04:06,095 A partir d'aquestes sèries de porcions de microscòpia d'electrons, 84 00:04:06,119 --> 00:04:11,127 és poden arribar a fer reconstruccions de neurones en 3D. Són així. 85 00:04:11,151 --> 00:04:14,308 Aquestes són similars a les de l'estil de Ramón y Cajal. 86 00:04:14,332 --> 00:04:15,824 Només il·luminem certes neurones 87 00:04:15,848 --> 00:04:18,629 donat que de no ser així no podríem veure res. 88 00:04:18,653 --> 00:04:19,965 Estaria massa atapeït, 89 00:04:19,989 --> 00:04:21,319 massa ple d'estructura, 90 00:04:21,343 --> 00:04:24,067 de connexions cerebrals entre una neurona i una altra. 91 00:04:25,293 --> 00:04:28,097 Ramón y Cajal va ser un avançat al seu temps. 92 00:04:28,121 --> 00:04:30,676 El progrés en relació a la comprensió del cervell 93 00:04:30,700 --> 00:04:32,971 va seguir lentament durant les dècades següents. 94 00:04:33,455 --> 00:04:36,308 Però vam aprendre que les neurones usen electricitat. 95 00:04:36,332 --> 00:04:39,268 A la Segona Guerra Mundial, la tecnologia havia avançat prou 96 00:04:39,292 --> 00:04:42,098 com per a fer experiments elèctrics amb neurones vives, 97 00:04:42,122 --> 00:04:44,228 per tal d'entendre'n el funcionament. 98 00:04:44,631 --> 00:04:48,987 Va ser el mateix moment en que s'inventaren els primers ordinadors, 99 00:04:49,011 --> 00:04:52,111 molt basats en l'idea de modelar el cervell humà, 100 00:04:52,135 --> 00:04:55,220 de fer "màquines intel·ligents", com va dir l'Alan Turing, 101 00:04:55,244 --> 00:04:57,235 un dels pares de la informàtica. 102 00:04:57,923 --> 00:05:02,555 Warren McCulloch i Walter Pitts observaren els dibuixos d'en Ramon y Cajal 103 00:05:02,579 --> 00:05:03,896 del còrtex visual, 104 00:05:03,920 --> 00:05:05,482 que mostro aquí. 105 00:05:05,506 --> 00:05:09,948 Aquest còrtex processa les imatges que reben els ulls. 106 00:05:10,424 --> 00:05:13,932 Per ells, això semblava un esquema de connexions. 107 00:05:14,353 --> 00:05:18,188 Per això hi ha molts detalls als esquemes d'en McCulloch i en Pitt 108 00:05:18,212 --> 00:05:19,564 que no són gaire correctes. 109 00:05:19,588 --> 00:05:20,823 Però aquesta idea bàsica, 110 00:05:20,847 --> 00:05:24,839 que el còrtex visual funciona com una serie d'elements computacionals 111 00:05:24,863 --> 00:05:27,609 tot passant informació d'un a l'altre en una cascada 112 00:05:27,633 --> 00:05:29,235 és, en essència, correcta. 113 00:05:29,259 --> 00:05:31,609 Aturem-nos un moment 114 00:05:31,633 --> 00:05:35,665 per parlar del que ha de fer un model de processador d'informació visual. 115 00:05:36,228 --> 00:05:38,969 La tasca de percepció més bàsica seria: 116 00:05:38,993 --> 00:05:43,187 agafar una imatge i poder dir 117 00:05:43,211 --> 00:05:44,387 "és un ocell". 118 00:05:44,411 --> 00:05:47,285 Una tasca ben senzilla per als nostres cervells. 119 00:05:47,309 --> 00:05:50,730 Però cal entendre que, en el cas d'un ordinador, 120 00:05:50,754 --> 00:05:53,841 era una tasca impossible només fa uns anys. 121 00:05:53,865 --> 00:05:55,781 El paradigma clàssic de la informàtica 122 00:05:55,805 --> 00:05:58,312 no és aquell on aquesta tasca és fàcil de fer. 123 00:05:59,366 --> 00:06:01,918 Així doncs, què passa entre els píxels, 124 00:06:01,942 --> 00:06:05,970 entre la imatge de l'ocell i la paraula "ocell", 125 00:06:05,994 --> 00:06:08,808 és, essencialment, un conjunt de neurones interconnectades 126 00:06:08,832 --> 00:06:09,987 en una xarxa neuronal, 127 00:06:10,011 --> 00:06:11,234 Com mostra el diagrama. 128 00:06:11,258 --> 00:06:14,530 Aquesta xarxa neural pot ser biològica, dins el nostre còrtex visual, 129 00:06:14,554 --> 00:06:16,716 o, com hem començat a ser capaços de fer, 130 00:06:16,740 --> 00:06:19,194 modelar aquestes xarxes neurals a l'ordinador. 131 00:06:19,834 --> 00:06:22,187 Els ensenyaré quin aspecte té. 132 00:06:22,211 --> 00:06:25,627 Així, els píxels es poden entendre com una primera capa de neurones, 133 00:06:25,651 --> 00:06:27,890 que, de fet, és com funciona en el cas de l'ull, 134 00:06:27,914 --> 00:06:29,577 les neurones que hi ha a la retina. 135 00:06:29,601 --> 00:06:31,101 Una rere l'altra, 136 00:06:31,125 --> 00:06:34,528 capes, capes i més capes de neurones, 137 00:06:34,552 --> 00:06:37,585 totes interconnectades per sinapsis de diferents pesos. 138 00:06:37,609 --> 00:06:38,944 El comportament de la xarxa 139 00:06:38,968 --> 00:06:42,252 es caracteritza per la força de totes aquestes sinapsis. 140 00:06:42,276 --> 00:06:45,564 Aquestes determinen les propietats computacionals de la xarxa. 141 00:06:45,588 --> 00:06:47,058 El resultat final, 142 00:06:47,082 --> 00:06:49,529 és una neurona o un petit grup de neurones 143 00:06:49,553 --> 00:06:51,200 que s'il·luminen i diuen "ocell". 144 00:06:51,824 --> 00:06:54,956 Ara representaré aquestes tres coses: 145 00:06:54,980 --> 00:06:59,676 Els píxels d'entrada, les sinapsis a la xarxa neuronal 146 00:06:59,700 --> 00:07:01,285 i l'ocell, el resultat; 147 00:07:01,309 --> 00:07:04,366 amb tres variables: x, w i y. 148 00:07:04,877 --> 00:07:06,688 Potser hi ha un milió o més de 'x', 149 00:07:06,688 --> 00:07:08,641 un milió de píxels a la imatge. 150 00:07:08,665 --> 00:07:11,111 Hi ha milers de milions de 'w', 151 00:07:11,135 --> 00:07:14,556 que representen els pesos de les sinapsis a la xarxa neuronal. 152 00:07:14,580 --> 00:07:16,455 Però hi ha un nombre molt petit de 'y', 153 00:07:16,479 --> 00:07:18,337 els resultats de la xarxa neuronal. 154 00:07:18,361 --> 00:07:20,110 "Bird" ['ocell'] són 4 lletres, oi? 155 00:07:21,088 --> 00:07:24,514 Plantegem-nos-ho com una fórmula senzilla: 156 00:07:24,538 --> 00:07:26,701 x "x" w = y 157 00:07:26,725 --> 00:07:28,761 Poso els temps entre cometes 158 00:07:28,785 --> 00:07:31,065 perquè el que passa realment, per descomptat, 159 00:07:31,089 --> 00:07:34,135 són una serie d'operacions matemàtiques molt complicades. 160 00:07:35,172 --> 00:07:36,393 Això és una equació. 161 00:07:36,417 --> 00:07:38,089 Hi ha 3 variables. 162 00:07:38,113 --> 00:07:40,839 Tothom sap que si tenim una equació, 163 00:07:40,863 --> 00:07:44,505 es pot resoldre una variable per mitjà de conèixer les altres dues. 164 00:07:45,158 --> 00:07:48,538 Així que el problema de la inferència, 165 00:07:48,562 --> 00:07:51,435 és a dir esbrinar que la imatge de l'ocell és un ocell, 166 00:07:51,459 --> 00:07:52,733 és el següent: 167 00:07:52,757 --> 00:07:56,216 'y' és la incògnita i 'w' i 'x' són valors coneguts. 168 00:07:56,240 --> 00:07:58,699 Sabem la xarxa neural, sabem les píxels. 169 00:07:58,723 --> 00:08:02,050 De fet, en realitat es tracta d'un problema relativament senzill. 170 00:08:02,074 --> 00:08:04,260 Multiplicant 2 vegades 3 estaria resolt. 171 00:08:04,862 --> 00:08:06,985 Els ensenyaré una xarxa neuronal artificial, 172 00:08:07,009 --> 00:08:09,305 que hem construït fa poc, seguint aquesta idea. 173 00:08:09,634 --> 00:08:12,494 Això s'executa en temps real des d'un telèfon mòbil, 174 00:08:12,518 --> 00:08:15,831 la qual cosa ja és, en si, prou sorprenent; 175 00:08:15,855 --> 00:08:19,323 el fet que telèfons mòbils facin milers de milions i bilions d'operacions, 176 00:08:19,347 --> 00:08:20,595 en uns pocs segons. 177 00:08:20,619 --> 00:08:22,234 El que veuen és un telèfon, 178 00:08:22,258 --> 00:08:25,805 mirant una per una imatges d'ocells. 179 00:08:25,829 --> 00:08:28,544 De fet, no només mirant i dient "Sí, és un ocell", 180 00:08:28,568 --> 00:08:31,979 sinó també identificant-ne l'espècie d'au per mitjà d'aquesta xarxa. 181 00:08:32,890 --> 00:08:34,716 Així, en aquesta imatge, 182 00:08:34,740 --> 00:08:38,542 'x' i 'w' són valors coneguts, i 'y' és la incògnita. 183 00:08:38,566 --> 00:08:41,074 Per descomptat, passem per alt la part més difícil, 184 00:08:41,098 --> 00:08:44,959 que és: com descobrim el valor de 'w', 185 00:08:44,983 --> 00:08:47,170 el cervell que ho pot fer? 186 00:08:47,194 --> 00:08:49,028 Com podríem aprendre un model així? 187 00:08:49,418 --> 00:08:52,651 Doncs aquest procés d'aprenentatge, de resoldre el valor de 'w', 188 00:08:52,675 --> 00:08:55,322 si el fem amb l'equació, 189 00:08:55,346 --> 00:08:57,346 on pensem en el problema com a números, 190 00:08:57,370 --> 00:09:00,057 sabem com fer-ho exactament: 6 = 2 x w. 191 00:09:00,081 --> 00:09:03,393 Dividim entre 2 i s'ha acabat. 192 00:09:04,001 --> 00:09:06,221 El problema ve amb aquesta operació. 193 00:09:06,823 --> 00:09:07,974 La divisió. 194 00:09:07,998 --> 00:09:11,119 Hem utilitzat la divisió perquè és l'oposat a la multiplicació, 195 00:09:11,143 --> 00:09:12,583 però com hem dit, 196 00:09:12,607 --> 00:09:15,056 la multiplicació no és del tot certa aquí. 197 00:09:15,080 --> 00:09:18,406 Es una operació tremendament complicada, una operació no lineal, 198 00:09:18,430 --> 00:09:20,134 que no té oposat. 199 00:09:20,158 --> 00:09:23,308 Així que hem d'esbrinar la manera de resoldre l'equació 200 00:09:23,332 --> 00:09:25,356 sense usar la divisió. 201 00:09:25,380 --> 00:09:27,723 La manera per fer-ho és bastant directa. 202 00:09:27,747 --> 00:09:30,418 Només s'ha de fer un petit truc d'àlgebra. 203 00:09:30,442 --> 00:09:33,348 És mou el 6 a la part dreta de l'equació. 204 00:09:33,372 --> 00:09:35,198 Així, encara usem la multiplicació. 205 00:09:35,675 --> 00:09:39,255 Aquest 0, considerem-lo un error. 206 00:09:39,279 --> 00:09:41,794 És a dir, si hem resolt 'w' correctament, 207 00:09:41,818 --> 00:09:43,474 l'error és 0; 208 00:09:43,498 --> 00:09:45,436 si no l'hem resolt bé, 209 00:09:45,460 --> 00:09:47,209 l'error serà més gran que 0. 210 00:09:47,233 --> 00:09:50,599 Ara només podem calcular a ull, per tal de minimitzar l'error, 211 00:09:50,623 --> 00:09:53,310 i els ordinadors són bons en aquest tipus de coses. 212 00:09:53,334 --> 00:09:54,927 Prenent una aproximació inicial: 213 00:09:54,951 --> 00:09:56,107 què passa si w = 0? 214 00:09:56,131 --> 00:09:57,371 Bé, llavors l'error és 6. 215 00:09:57,395 --> 00:09:58,841 Què passa si w = 1? L'error és 4. 216 00:09:58,865 --> 00:10:01,232 I així l'ordinador pot jugar a Marco Polo, 217 00:10:01,256 --> 00:10:03,623 per tal de reduir l'error prop de 0. 218 00:10:03,647 --> 00:10:07,021 A mesura que ho fa, fa aproximacions successives a 'w'. 219 00:10:07,045 --> 00:10:10,701 En general, mai hi arriba del tot, però desprès d'uns 12 passos, 220 00:10:10,725 --> 00:10:15,349 s'arriba a w=2.999, que està prou a prop. 221 00:10:16,302 --> 00:10:18,116 Aquest és el procés d'aprenentatge. 222 00:10:18,140 --> 00:10:20,870 Recordem que el que hem estat fent aquí 223 00:10:20,894 --> 00:10:25,272 ha estat usar molts valors coneguts 'x' i 'y' 224 00:10:25,296 --> 00:10:28,750 i resoldre la 'w' central mitjançant un procés de repetició. 225 00:10:28,774 --> 00:10:32,330 És exactament la mateixa manera en la que aprenem nosaltres mateixos. 226 00:10:32,354 --> 00:10:34,584 De nadons tenim moltíssimes imatges 227 00:10:34,608 --> 00:10:37,241 i se'ns diu: "Això és un ocell, això no ho és". 228 00:10:37,714 --> 00:10:39,812 Amb el temps, a través de la repetició, 229 00:10:39,836 --> 00:10:42,764 resolem la nostra 'w', resolent les seves connexions neurals. 230 00:10:43,460 --> 00:10:47,546 Bé, ara hem mantingut 'x' i 'w' per tal de resoldre 'y' 231 00:10:47,570 --> 00:10:49,417 això és diari, la percepció ràpida. 232 00:10:49,441 --> 00:10:51,204 Hem descobert com resoldre 'w', 233 00:10:51,228 --> 00:10:53,131 l'aprenentatge, molt més difícil 234 00:10:53,155 --> 00:10:55,140 perquè s'ha de minimitzar l'error 235 00:10:55,164 --> 00:10:56,851 practicant amb molts exemples, 236 00:10:56,875 --> 00:11:00,062 i fa un any, l'Alex Mordvintsev, del nostre equip, 237 00:11:00,086 --> 00:11:03,636 va decidir experimentar què passa en intentar resoldre 'x', 238 00:11:03,660 --> 00:11:05,697 amb una 'w' i una 'y' conegudes. 239 00:11:06,124 --> 00:11:07,275 És a dir, 240 00:11:07,299 --> 00:11:08,651 sabem que és un ocell, 241 00:11:08,675 --> 00:11:11,978 i tenim la xarxa neural entrenada en ocells, 242 00:11:12,002 --> 00:11:14,346 però què és la imatge d'un ocell? 243 00:11:15,034 --> 00:11:20,058 Va resultar que usant el mateix procés de minimitzar l'error, 244 00:11:20,082 --> 00:11:23,512 mitjançant la xarxa entrenada en reconèixer ocells, 245 00:11:23,536 --> 00:11:26,924 el resultat és... 246 00:11:30,400 --> 00:11:31,705 una imatge d'ocells. 247 00:11:32,814 --> 00:11:36,551 Aquesta imatge d'ocells es genera totalment per la xarxa neural 248 00:11:36,575 --> 00:11:38,401 entrenada en reconèixer ocells, 249 00:11:38,425 --> 00:11:41,963 tot resolent 'x' en lloc de resoldre 'y' 250 00:11:41,987 --> 00:11:43,275 de manera repetitiva. 251 00:11:43,732 --> 00:11:45,579 Aquest és un altre bon exemple. 252 00:11:45,603 --> 00:11:49,040 És un treball fet pel Mike Tyka, del nostre grup. 253 00:11:49,064 --> 00:11:51,372 El va anomenar "Cavalcada d'animals". 254 00:11:51,396 --> 00:11:54,272 Em recorda una mica l'obra d'en William Kentridge, 255 00:11:54,296 --> 00:11:56,785 fa esborranys, els refrega, 256 00:11:56,809 --> 00:11:58,269 fa esborranys, els refrega 257 00:11:58,293 --> 00:11:59,691 i amb tot plegat fa una pel·lícula. 258 00:11:59,715 --> 00:12:00,866 En aquest cas, 259 00:12:00,890 --> 00:12:04,167 en Mike va variar 'y' en l'espai de diferents animals, 260 00:12:04,191 --> 00:12:06,573 a una xarxa dissenyada que reconeix i distingeix 261 00:12:06,597 --> 00:12:08,407 entre diferents animals. 262 00:12:08,431 --> 00:12:12,182 El resultat és aquest estil Escher d'animals transformant-se'n altres. 263 00:12:14,221 --> 00:12:18,835 Ell i l'Alex van provar a reduir 264 00:12:18,859 --> 00:12:21,618 'y' a un espai de només 2 dimensions, 265 00:12:21,642 --> 00:12:25,080 tot fent un mapa fora de l'espai de totes les coses 266 00:12:25,104 --> 00:12:26,823 que reconeix aquesta xarxa. 267 00:12:26,847 --> 00:12:28,870 En fer aquesta combinació 268 00:12:28,894 --> 00:12:31,276 o generar les imatges sobre tota aquesta superfície 269 00:12:31,300 --> 00:12:34,146 variant 'y' per la mateixa, es genera una mena de mapa; 270 00:12:34,170 --> 00:12:37,311 un mapa visual de tot allò que la xarxa pot reconèixer. 271 00:12:37,335 --> 00:12:40,200 Tots els animals hi són, com l'armadillo just en aquest punt. 272 00:12:40,919 --> 00:12:43,398 Això també es pot fer amb altra mena de xarxes. 273 00:12:43,422 --> 00:12:46,296 Aquesta és una xarxa dissenyada per a reconèixer cares. 274 00:12:46,320 --> 00:12:48,320 Per a distingir una cara d'una altra. 275 00:12:48,344 --> 00:12:51,593 Aquí hem posat a 'y' on hi posa "jo" 276 00:12:51,617 --> 00:12:53,192 els paràmetres de la meva cara. 277 00:12:53,216 --> 00:12:54,922 Quan amb això resolem 'x' 278 00:12:54,946 --> 00:12:57,564 genera aquesta bogeria. 279 00:12:57,588 --> 00:13:02,016 Barreja de cubista, surrealista i psicodèlica foto meva, 280 00:13:02,040 --> 00:13:03,846 amb múltiples punts de vista aplegats. 281 00:13:03,870 --> 00:13:06,604 La raó per la qual aplega múltiples punts de vista alhora 282 00:13:06,628 --> 00:13:10,315 és perquè la xarxa està dissenyada per a obviar l'ambigüitat 283 00:13:10,339 --> 00:13:12,815 d'una mateixa cara amb un gest o un altre, 284 00:13:12,839 --> 00:13:16,215 observat amb una il·luminació o una altra de diferent. 285 00:13:16,239 --> 00:13:18,324 Així, en fer aquesta mena de reconstrucció 286 00:13:18,348 --> 00:13:20,652 si no s'utilitza algun tipus d'imatge de guia, 287 00:13:20,676 --> 00:13:21,887 d'estadístiques de guia, 288 00:13:21,911 --> 00:13:25,676 el resultat és una confusió de diferents punts de vista, 289 00:13:25,700 --> 00:13:27,068 perquè és ambigu. 290 00:13:27,786 --> 00:13:32,009 Això és el que passa quan l'Alex usa la seva cara com a imatge de guia 291 00:13:32,033 --> 00:13:35,354 en el procés d'optimització per tal de reconstruir la meva cara. 292 00:13:36,284 --> 00:13:38,612 Es pot apreciar que no es perfecte. 293 00:13:38,636 --> 00:13:40,510 Encara queda molta feina a fer, 294 00:13:40,534 --> 00:13:42,987 per tal de millorar aquest procés d'optimització. 295 00:13:43,011 --> 00:13:45,838 Però, es comença a obtenir quelcom semblant a una cara, 296 00:13:45,862 --> 00:13:47,876 he deixat d'usar la meva cara com a guia. 297 00:13:48,892 --> 00:13:51,393 No s'ha de començar d'un llenç en blanc 298 00:13:51,417 --> 00:13:52,573 o d'un so en blanc. 299 00:13:52,597 --> 00:13:53,901 Quan resolem 'x', 300 00:13:53,925 --> 00:13:57,814 es pot començar amb una 'x', és a dir, amb una altra imatge. 301 00:13:57,838 --> 00:14:00,394 Com en aquesta petita demostració. 302 00:14:00,418 --> 00:14:04,540 Aquesta és una xarxa dissenyada per tal de categoritzar 303 00:14:04,564 --> 00:14:07,683 tota mena d'objectes: estructures fetes per l'home, animals... 304 00:14:07,707 --> 00:14:10,300 Comencem amb una senzilla fotografia de núvols 305 00:14:10,324 --> 00:14:11,995 i en optimitzar, 306 00:14:12,019 --> 00:14:16,505 la xarxa esbrina, en essència, què hi veu als núvols. 307 00:14:16,931 --> 00:14:19,251 Com a més temps passem observant-ho, 308 00:14:19,275 --> 00:14:22,028 més coses hi veurem, als núvols. 309 00:14:23,004 --> 00:14:26,379 També podem usar la xarxa de reconeixement facial per al·lucinar, 310 00:14:26,403 --> 00:14:28,215 i aconseguim coses bastant boges. 311 00:14:28,239 --> 00:14:29,389 (Riures) 312 00:14:30,401 --> 00:14:33,145 En Mike també ha fet d'altres experiments. 313 00:14:33,169 --> 00:14:37,074 Ha agafat la imatge del núvols, 314 00:14:37,098 --> 00:14:40,605 al·lucina, fa zoom, al·lucina, fa zoom... 315 00:14:40,629 --> 00:14:41,780 D'aquesta manera, 316 00:14:41,804 --> 00:14:45,479 s'obté una mena d'estat de fuga dissociativa a la xarxa, 317 00:14:45,503 --> 00:14:49,183 una mena d'associació lliure, 318 00:14:49,207 --> 00:14:51,434 on la xarxa és menja la seva pròpia cua. 319 00:14:51,458 --> 00:14:54,879 Fent, així, de cada imatge, la base de: 320 00:14:54,903 --> 00:14:56,324 "Què crec que hi veig aquí? 321 00:14:56,348 --> 00:14:59,151 I ara què hi veig? I ara?..." 322 00:14:59,487 --> 00:15:02,423 La primera vegada que ho vaig ensenyar en públic 323 00:15:02,447 --> 00:15:07,884 va ser a un grup a una conferència a Seattle anomenat "Higher Education", 324 00:15:07,908 --> 00:15:10,345 tot just després de legalitzar la marihuana. 325 00:15:10,369 --> 00:15:12,784 (Riures) 326 00:15:14,627 --> 00:15:16,731 M'agradaria acabar ràpidament, 327 00:15:16,755 --> 00:15:21,010 dient que aquesta tecnologia no és només això. 328 00:15:21,034 --> 00:15:24,699 He ensenyat exemples visuals perquè són divertits, 329 00:15:24,723 --> 00:15:27,174 però no només es tracta de tecnologia visual. 330 00:15:27,198 --> 00:15:29,191 Un artista col·laborador, en Ross Goodwin, 331 00:15:29,215 --> 00:15:32,886 ha fet experiments fent fotografies amb una càmera 332 00:15:32,910 --> 00:15:37,144 i que un ordinador a la seva motxilla en faci un poema amb una xarxa neural; 333 00:15:37,168 --> 00:15:39,112 bastant-se en la imatge. 334 00:15:39,136 --> 00:15:42,083 Aquesta xarxa neural de poesia s'ha preparat 335 00:15:42,107 --> 00:15:44,341 amb un extens corpus de poesia del segle XX. 336 00:15:44,365 --> 00:15:45,864 Els poemes resultants són... 337 00:15:45,888 --> 00:15:47,802 Bé, no estan del tot malament. 338 00:15:47,826 --> 00:15:49,210 (Riures) 339 00:15:49,234 --> 00:15:50,393 En resum. 340 00:15:50,417 --> 00:15:52,549 Crec que en Miquel Àngel 341 00:15:52,573 --> 00:15:53,807 tenia raó. 342 00:15:53,831 --> 00:15:57,267 La percepció i la creativitat estan lligades molt íntimament. 343 00:15:57,611 --> 00:16:00,245 Això són xarxes neuronals 344 00:16:00,269 --> 00:16:02,572 preparades per tal de poder discriminar 345 00:16:02,596 --> 00:16:04,838 o reconèixer diferents coses del món; 346 00:16:04,862 --> 00:16:08,023 capaces de córrer en sentit invers per tal de poder generar. 347 00:16:08,047 --> 00:16:09,830 Una de les coses que em suggereix, 348 00:16:09,854 --> 00:16:12,252 és que no només en Miquel Àngel era capaç de veure 349 00:16:12,276 --> 00:16:14,728 l'escultura dins els blocs de marbre; 350 00:16:14,752 --> 00:16:18,390 sino que qualsevol criatura, qualsevol ésser, qualsevol marcià 351 00:16:18,414 --> 00:16:22,071 capaç de fer aquesta mena d'actes de percepció, 352 00:16:22,095 --> 00:16:23,470 també pot crear. 353 00:16:23,494 --> 00:16:26,718 Perquè s'utilitza exactament el mateix mecanisme en ambdós casos. 354 00:16:26,742 --> 00:16:31,274 També considero que tant la percepció com la creativitat no són 355 00:16:31,298 --> 00:16:32,508 exclusivament humanes. 356 00:16:32,532 --> 00:16:36,240 Comencem a tenir models d'ordinador capaços de dur a terme aquestes tasques. 357 00:16:36,264 --> 00:16:39,592 Això no ens hauria de sorprendre, ja que el cervell és computacional. 358 00:16:39,616 --> 00:16:41,273 Per acabar, 359 00:16:41,297 --> 00:16:45,965 la informàtica començà com a un exercici de disseny de màquines intel·ligents. 360 00:16:45,989 --> 00:16:48,451 Es va modelar molt en torn a la idea 361 00:16:48,475 --> 00:16:51,488 de com fer màquines intel·ligents. 362 00:16:51,512 --> 00:16:53,674 Finalment, ara comencem a aconseguir 363 00:16:53,698 --> 00:16:56,104 algunes de les promeses d'aquells primers pioners, 364 00:16:56,128 --> 00:16:57,841 d'en Turing, en Von Neumann, 365 00:16:57,865 --> 00:17:00,130 d'en McCulloch i en Pitts. 366 00:17:00,154 --> 00:17:04,252 Crec que la informàtica no és només comptabilitat, 367 00:17:04,276 --> 00:17:06,423 o jugar al "Candy Crush" i coses així. 368 00:17:06,447 --> 00:17:09,025 Vam començar seguint el model de les nostres ments. 369 00:17:09,049 --> 00:17:12,318 Ens dóna tant l'habilitat d'entendre'ns millor a nosaltres mateixos 370 00:17:12,342 --> 00:17:13,871 com de millora-la. 371 00:17:14,627 --> 00:17:15,794 Moltes gràcies. 372 00:17:15,818 --> 00:17:21,757 (Aplaudiments)