1 00:00:00,000 --> 00:00:02,070 Guardate queste immagini. 2 00:00:02,110 --> 00:00:04,686 Ditemi quale Obama è reale. 3 00:00:04,710 --> 00:00:07,571 (Video) Barack Obama: Gli aiuti alle famiglie per la casa, 4 00:00:07,595 --> 00:00:10,242 gli investimenti per l'alta tecnologia, 5 00:00:10,266 --> 00:00:11,425 energia pulita 6 00:00:11,449 --> 00:00:14,228 ed infrastrutture che creano nuove opportunità di lavoro. 7 00:00:14,647 --> 00:00:16,131 Supason Auwajanakorn: Qual è? 8 00:00:16,155 --> 00:00:18,029 La risposta è: neanche uno. 9 00:00:18,053 --> 00:00:19,167 (Risate) 10 00:00:19,191 --> 00:00:20,977 Neanche uno di questi è reale. 11 00:00:21,001 --> 00:00:23,591 Lasciate che vi racconti come ci siamo arrivati. 12 00:00:23,940 --> 00:00:25,518 L'ispirazione per questo lavoro 13 00:00:25,542 --> 00:00:28,433 mi è venuta da un progetto volto a preservare l'ultima chance 14 00:00:28,453 --> 00:00:32,745 di approfondire l'Olocausto, grazie al racconto dei sopravvissuti. 15 00:00:32,769 --> 00:00:34,669 Si chiama 'New Dimensions in Testimony' 16 00:00:35,420 --> 00:00:38,546 e vi permette di conversare 17 00:00:38,570 --> 00:00:41,126 con l'ologramma di un reale superstite dell'Olocausto. 18 00:00:41,403 --> 00:00:43,759 (Video) Uomo: Com'è sopravvissuto all'Olocausto? 19 00:00:43,783 --> 00:00:45,841 (Video) Ologramma: Come sono sopravvissuto? 20 00:00:45,912 --> 00:00:47,719 Sono sopravvissuto, 21 00:00:48,419 --> 00:00:49,946 io credo, 22 00:00:49,970 --> 00:00:52,993 per un disegno della provvidenza. 23 00:00:53,573 --> 00:00:57,027 SS: Queste risposte erano state registrate in precedenza in uno studio. 24 00:00:57,051 --> 00:00:59,503 Eppure l'effetto è sorprendente. 25 00:00:59,527 --> 00:01:03,146 Ci si sente davvero legati alla sua storia e a lui come persona. 26 00:01:04,011 --> 00:01:07,312 Penso che ci sia qualcosa di speciale nelle interazioni umane 27 00:01:07,336 --> 00:01:10,093 che le rende più profonde 28 00:01:10,117 --> 00:01:12,315 e intime 29 00:01:12,339 --> 00:01:15,807 rispetto a quanto possano insegnare libri, conferenze o film. 30 00:01:15,837 --> 00:01:18,286 Ho visto questo filmato e ho cominciato a chiedermi: 31 00:01:18,326 --> 00:01:21,523 possiamo creare una rappresentazione 3D come questa per chiunque? 32 00:01:21,563 --> 00:01:24,705 Una rappresentazione 3D che vede, parla e agisce come le persone? 33 00:01:25,435 --> 00:01:27,580 Ho deciso di scoprire se lo si poteva fare 34 00:01:27,604 --> 00:01:29,914 e alla fine sono arrivato ad una nuova soluzione 35 00:01:29,938 --> 00:01:33,458 che può creare un un modello di persona usando nient'altro che questi: 36 00:01:33,747 --> 00:01:35,961 foto e video esistenti di una persona. 37 00:01:36,101 --> 00:01:39,318 Se si possono sfruttare questo tipo di informazioni passive, 38 00:01:39,342 --> 00:01:41,349 foto e video che sono in circolazione, 39 00:01:41,373 --> 00:01:43,429 questo è il modo per riprodurre chiunque. 40 00:01:44,119 --> 00:01:45,896 A proposito, lui è Richard Feynman, 41 00:01:45,920 --> 00:01:49,333 che, oltre ad aver vinto il premio Nobel per la fisica, 42 00:01:49,357 --> 00:01:51,810 era anche un insegnante leggendario. 43 00:01:52,520 --> 00:01:55,278 Non sarebbe grandioso se potessimo riportarlo indietro 44 00:01:55,302 --> 00:01:58,567 a tenere le sue lezioni ed ispirare milioni di ragazzi, 45 00:01:58,591 --> 00:02:01,583 non solo in lingua inglese ma in tutte le altre lingue? 46 00:02:02,441 --> 00:02:07,043 O se potessimo chiedere consiglio ai nonni e sentire le loro parole di conforto 47 00:02:07,067 --> 00:02:08,837 anche se non sono più con noi? 48 00:02:09,653 --> 00:02:13,079 O forse, utilizzando questo strumento, scrittori, vivi o no, 49 00:02:13,103 --> 00:02:16,930 potrebbero leggere tutti i loro libri ad alta voce a chiunque fosse interessato. 50 00:02:17,199 --> 00:02:19,636 Le possibilità sono infinite 51 00:02:19,660 --> 00:02:21,873 e, a mio parere, la questione è appassionante. 52 00:02:22,595 --> 00:02:24,461 Ad oggi, funziona in questo modo. 53 00:02:24,491 --> 00:02:26,288 Primo, introduciamo una nuova tecnica 54 00:02:26,312 --> 00:02:30,884 che può ricostruire un modello facciale 3D altamente accurato da qualsiasi immagine 55 00:02:30,908 --> 00:02:33,227 senza mai eseguire la scansione 3D della persona. 56 00:02:33,890 --> 00:02:37,412 Questa è la stessa rappresentazione partendo da differenti angolazioni. 57 00:02:37,972 --> 00:02:39,471 Funziona anche con i video, 58 00:02:39,495 --> 00:02:42,347 eseguendo lo stesso algoritmo su ogni fotogramma video 59 00:02:42,371 --> 00:02:44,843 e generando una rappresentazione 3D in movimento. 60 00:02:45,538 --> 00:02:48,870 Questa è la stessa rappresentazione da diverse angolazioni. 61 00:02:49,653 --> 00:02:52,108 In effetti, tale tecnica è molto complessa, 62 00:02:52,108 --> 00:02:55,008 ma il fulcro è che andremo ad analizzare 63 00:02:55,040 --> 00:02:58,006 preliminarmente un grande numero di immagini della persona. 64 00:02:58,650 --> 00:03:01,189 Per George W. Bush, basta cercare foto su Google 65 00:03:01,379 --> 00:03:04,642 e da quelle possiamo creare un modello medio, 66 00:03:04,672 --> 00:03:07,943 una rappresentazione definita, iterativa per recuperare l'espressione 67 00:03:07,967 --> 00:03:11,053 nei minimi dettagli, come grinze e rughe d'espressione. 68 00:03:11,326 --> 00:03:12,729 Ciò che affascina 69 00:03:12,753 --> 00:03:16,176 è che la raccolta fotografica può derivare dalle vostre tipiche foto. 70 00:03:16,200 --> 00:03:18,803 Non è importante l'espressione 71 00:03:18,827 --> 00:03:20,712 o dove sono state scattate le foto. 72 00:03:20,736 --> 00:03:23,136 Ciò che importa è averne molte. 73 00:03:23,160 --> 00:03:24,790 E qui non abbiamo ancora i colori, 74 00:03:24,790 --> 00:03:27,268 quindi sviluppiamo una nuova tecnica di fusione 75 00:03:27,292 --> 00:03:30,128 che perfeziona il metodo a media singola 76 00:03:30,152 --> 00:03:32,970 e produce strutture facciali e colori nitidi. 77 00:03:33,779 --> 00:03:36,550 Ciò può essere fatto per ogni espressione. 78 00:03:36,765 --> 00:03:39,984 Ora abbiamo il controllo del modello di una persona 79 00:03:40,008 --> 00:03:43,803 che viene gestito tramite una sequenza di foto statiche. 80 00:03:43,827 --> 00:03:46,953 Notate come le rughe vanno e vengono in base all'espressione, 81 00:03:47,639 --> 00:03:50,855 Possiamo anche usare un video per ottenere la rappresentazione 3D. 82 00:03:50,879 --> 00:03:53,472 (Video) Daniel Craig: Giusto, ma in qualche modo, 83 00:03:53,496 --> 00:03:57,339 siamo riusciti ad attrarre persone più interessanti. 84 00:03:58,021 --> 00:03:59,663 SS: Ecco un'altra demo divertente. 85 00:03:59,687 --> 00:04:02,443 Quello che vedete qui sono modelli controllabili di persone 86 00:04:02,443 --> 00:04:04,551 che ho costruito dalle loro foto su internet. 87 00:04:04,555 --> 00:04:07,329 Trasferendo il movimento dal video in ingresso, 88 00:04:07,353 --> 00:04:08,949 possiamo gestire tutto il gruppo. 89 00:04:08,949 --> 00:04:11,701 George W. Bush: È difficile far approvare questa legge, 90 00:04:11,725 --> 00:04:14,028 perché ci sono troppi emendamenti, 91 00:04:14,052 --> 00:04:19,283 e il percorso legislativo può essere insidioso. 92 00:04:19,958 --> 00:04:20,768 (Applausi) 93 00:04:20,798 --> 00:04:22,332 SS: Per fare un passo indietro, 94 00:04:22,342 --> 00:04:26,013 il nostro obiettivo ultimo, piuttosto, è catturare le loro tipicità espressive 95 00:04:26,037 --> 00:04:29,202 o il modo unico in cui ciascuna di queste persone parla e sorride. 96 00:04:29,242 --> 00:04:31,419 Per farlo, possiamo insegnare ai computer 97 00:04:31,443 --> 00:04:33,665 a imitare il modo in cui uno parla 98 00:04:33,689 --> 00:04:36,639 mostrando solo la ripresa video di quella persona? 99 00:04:36,898 --> 00:04:39,475 Quello che ho fatto, è stato far guardare al computer 100 00:04:39,499 --> 00:04:42,776 14 ore di discorsi tenuti da Barack Obama. 101 00:04:43,443 --> 00:04:46,959 Questo è ciò che possiamo produrre solo con il suo audio. 102 00:04:46,983 --> 00:04:48,760 (Video) BO: I risultati sono chiari. 103 00:04:48,784 --> 00:04:53,133 Le imprese americane hanno creato 14,5 milioni di nuovi posti di lavoro 104 00:04:53,157 --> 00:04:55,931 per 75 mesi di fila. 105 00:04:55,955 --> 00:04:58,860 SS: Qui abbiamo sintetizzato solo la zona della bocca, 106 00:04:58,884 --> 00:05:00,424 in questo modo. 107 00:05:00,514 --> 00:05:02,590 Le sequenze lineari usano una rete neurale 108 00:05:02,614 --> 00:05:05,550 per convertire un input audio in questi punti della labbra. 109 00:05:06,547 --> 00:05:10,772 (Video) BO: È grazie al nostro lavoro, o grazie a Medicare, o Medicaid. 110 00:05:10,796 --> 00:05:14,216 SS: Dopo sintetizziamo la struttura, miglioriamo dettagli e dentatura, 111 00:05:14,240 --> 00:05:17,314 e li uniamo alla testa e allo sfondo, presi da un video sorgente. 112 00:05:17,338 --> 00:05:19,413 (Video) BO: Per le donne checkup gratuiti, 113 00:05:19,433 --> 00:05:22,395 e non dovranno pagare di più solo per il fatto di essere donne. 114 00:05:22,973 --> 00:05:26,279 I giovani potranno rimanere a carico dei genitori fino a 26 anni. 115 00:05:27,267 --> 00:05:30,219 SS: Penso che questi risultati siano realistici ed intriganti, 116 00:05:30,243 --> 00:05:33,416 ma allo stesso tempo fanno paura, persino a me. 117 00:05:33,440 --> 00:05:37,455 Il nostro obiettivo era un modello 3D accurato, non una falsificazione. 118 00:05:37,956 --> 00:05:41,067 Ciò che mi preoccupa è l'abuso che potrebbe derivarne. 119 00:05:42,078 --> 00:05:44,929 Le persone si occupano di questo problema da molto tempo, 120 00:05:44,953 --> 00:05:47,824 da quando Photoshop apparve per la prima volta sul mercato. 121 00:05:47,862 --> 00:05:51,663 Come ricercatore, sto anche lavorando su una tecnologia di contromisura, 122 00:05:51,687 --> 00:05:54,629 e faccio parte di un progetto in corso alla AI Foundation, 123 00:05:54,653 --> 00:05:58,050 che usa un mix di apprendimento automatico e moderatori umani 124 00:05:58,074 --> 00:06:00,218 per scoprire immagini e video falsi, 125 00:06:00,242 --> 00:06:02,286 combattendo contro il mio stesso lavoro. 126 00:06:02,675 --> 00:06:05,865 Uno dei dispositivi prossimi al lancio si chiama 'Reality Defender', 127 00:06:05,889 --> 00:06:09,928 un'estensione delle funzioni del browser in grado di segnalare contenuti falsi 128 00:06:09,952 --> 00:06:12,485 in automatico, direttamente nel browser. 129 00:06:12,509 --> 00:06:16,621 (Applausi) 130 00:06:16,651 --> 00:06:18,058 Nonostante questo, tuttavia, 131 00:06:18,078 --> 00:06:20,078 i video falsi possono arrecare molti danni, 132 00:06:20,102 --> 00:06:23,396 persino prima che qualcuno abbia l'opportunità di verificarli, 133 00:06:23,420 --> 00:06:26,142 quindi è molto importante che rendiamo tutti consapevoli 134 00:06:26,166 --> 00:06:28,173 di ciò che è attualmente possibile 135 00:06:28,197 --> 00:06:31,826 così da partire dal presupposto giusto ed essere critici su ciò che vediamo. 136 00:06:32,423 --> 00:06:37,430 Manca ancora molto prima di poter creare modelli completi di una persona 137 00:06:37,454 --> 00:06:40,440 e prima di poter garantire la sicurezza di questa tecnologia. 138 00:06:40,857 --> 00:06:42,684 Ma sono pieno di entusiasmo e speranza, 139 00:06:42,708 --> 00:06:46,247 perché se usato bene e attentamente, 140 00:06:46,271 --> 00:06:50,580 questo strumento può far sì che il nostro impatto positivo sul mondo 141 00:06:50,604 --> 00:06:52,438 possa essere fortemente accresciuto 142 00:06:52,438 --> 00:06:55,730 e contribuire a plasmare il futuro nel modo in cui vogliamo che sia. 143 00:06:55,760 --> 00:06:56,735 Grazie. 144 00:06:56,759 --> 00:07:01,849 (Applausi)