WEBVTT 00:00:00.000 --> 00:00:02.070 Guardate queste immagini. 00:00:02.110 --> 00:00:04.686 Ditemi quale Obama è reale. NOTE Paragraph 00:00:04.710 --> 00:00:07.571 (Video) Barack Obama: Gli aiuti alle famiglie per la casa, 00:00:07.595 --> 00:00:10.242 gli investimenti per l'alta tecnologia, 00:00:10.266 --> 00:00:11.425 energia pulita 00:00:11.449 --> 00:00:14.228 ed infrastrutture che creano nuove opportunità di lavoro. NOTE Paragraph 00:00:14.647 --> 00:00:16.131 Supason Auwajanakorn: Qual è? 00:00:16.155 --> 00:00:18.029 La risposta è: neanche uno. NOTE Paragraph 00:00:18.053 --> 00:00:19.167 (Risate) NOTE Paragraph 00:00:19.191 --> 00:00:20.977 Neanche uno di questi è reale. 00:00:21.001 --> 00:00:23.591 Lasciate che vi racconti come ci siamo arrivati. 00:00:23.940 --> 00:00:25.518 L'ispirazione per questo lavoro 00:00:25.542 --> 00:00:28.433 mi è venuta da un progetto volto a preservare l'ultima chance 00:00:28.453 --> 00:00:32.745 di approfondire l'Olocausto, grazie al racconto dei sopravvissuti. 00:00:32.769 --> 00:00:34.669 Si chiama 'New Dimensions in Testimony' 00:00:35.420 --> 00:00:38.546 e vi permette di conversare 00:00:38.570 --> 00:00:41.126 con l'ologramma di un reale superstite dell'Olocausto. NOTE Paragraph 00:00:41.403 --> 00:00:43.759 (Video) Uomo: Com'è sopravvissuto all'Olocausto? NOTE Paragraph 00:00:43.783 --> 00:00:45.841 (Video) Ologramma: Come sono sopravvissuto? 00:00:45.912 --> 00:00:47.719 Sono sopravvissuto, 00:00:48.419 --> 00:00:49.946 io credo, 00:00:49.970 --> 00:00:52.993 per un disegno della provvidenza. NOTE Paragraph 00:00:53.573 --> 00:00:57.027 SS: Queste risposte erano state registrate in precedenza in uno studio. 00:00:57.051 --> 00:00:59.503 Eppure l'effetto è sorprendente. 00:00:59.527 --> 00:01:03.146 Ci si sente davvero legati alla sua storia e a lui come persona. 00:01:04.011 --> 00:01:07.312 Penso che ci sia qualcosa di speciale nelle interazioni umane 00:01:07.336 --> 00:01:10.093 che le rende più profonde 00:01:10.117 --> 00:01:12.315 e intime 00:01:12.339 --> 00:01:15.807 rispetto a quanto possano insegnare libri, conferenze o film. NOTE Paragraph 00:01:15.837 --> 00:01:18.286 Ho visto questo filmato e ho cominciato a chiedermi: 00:01:18.326 --> 00:01:21.523 possiamo creare una rappresentazione 3D come questa per chiunque? 00:01:21.563 --> 00:01:24.705 Una rappresentazione 3D che vede, parla e agisce come le persone? 00:01:25.435 --> 00:01:27.580 Ho deciso di scoprire se lo si poteva fare 00:01:27.604 --> 00:01:29.914 e alla fine sono arrivato ad una nuova soluzione 00:01:29.938 --> 00:01:33.458 che può creare un un modello di persona usando nient'altro che questi: 00:01:33.747 --> 00:01:35.961 foto e video esistenti di una persona. 00:01:36.101 --> 00:01:39.318 Se si possono sfruttare questo tipo di informazioni passive, 00:01:39.342 --> 00:01:41.349 foto e video che sono in circolazione, 00:01:41.373 --> 00:01:43.429 questo è il modo per riprodurre chiunque. NOTE Paragraph 00:01:44.119 --> 00:01:45.896 A proposito, lui è Richard Feynman, 00:01:45.920 --> 00:01:49.333 che, oltre ad aver vinto il premio Nobel per la fisica, 00:01:49.357 --> 00:01:51.810 era anche un insegnante leggendario. 00:01:52.520 --> 00:01:55.278 Non sarebbe grandioso se potessimo riportarlo indietro 00:01:55.302 --> 00:01:58.567 a tenere le sue lezioni ed ispirare milioni di ragazzi, 00:01:58.591 --> 00:02:01.583 non solo in lingua inglese ma in tutte le altre lingue? 00:02:02.441 --> 00:02:07.043 O se potessimo chiedere consiglio ai nonni e sentire le loro parole di conforto 00:02:07.067 --> 00:02:08.837 anche se non sono più con noi? 00:02:09.653 --> 00:02:13.079 O forse, utilizzando questo strumento, scrittori, vivi o no, 00:02:13.103 --> 00:02:16.930 potrebbero leggere tutti i loro libri ad alta voce a chiunque fosse interessato. NOTE Paragraph 00:02:17.199 --> 00:02:19.636 Le possibilità sono infinite 00:02:19.660 --> 00:02:21.873 e, a mio parere, la questione è appassionante. 00:02:22.595 --> 00:02:24.461 Ad oggi, funziona in questo modo. NOTE Paragraph 00:02:24.491 --> 00:02:26.288 Primo, introduciamo una nuova tecnica 00:02:26.312 --> 00:02:30.884 che può ricostruire un modello facciale 3D altamente accurato da qualsiasi immagine 00:02:30.908 --> 00:02:33.227 senza mai eseguire la scansione 3D della persona. 00:02:33.890 --> 00:02:37.412 Questa è la stessa rappresentazione partendo da differenti angolazioni. 00:02:37.972 --> 00:02:39.471 Funziona anche con i video, 00:02:39.495 --> 00:02:42.347 eseguendo lo stesso algoritmo su ogni fotogramma video 00:02:42.371 --> 00:02:44.843 e generando una rappresentazione 3D in movimento. 00:02:45.538 --> 00:02:48.870 Questa è la stessa rappresentazione da diverse angolazioni. NOTE Paragraph 00:02:49.653 --> 00:02:52.108 In effetti, tale tecnica è molto complessa, 00:02:52.108 --> 00:02:55.008 ma il fulcro è che andremo ad analizzare 00:02:55.040 --> 00:02:58.006 preliminarmente un grande numero di immagini della persona. 00:02:58.650 --> 00:03:01.189 Per George W. Bush, basta cercare foto su Google 00:03:01.379 --> 00:03:04.642 e da quelle possiamo creare un modello medio, 00:03:04.672 --> 00:03:07.943 una rappresentazione definita, iterativa per recuperare l'espressione 00:03:07.967 --> 00:03:11.053 nei minimi dettagli, come grinze e rughe d'espressione. 00:03:11.326 --> 00:03:12.729 Ciò che affascina 00:03:12.753 --> 00:03:16.176 è che la raccolta fotografica può derivare dalle vostre tipiche foto. 00:03:16.200 --> 00:03:18.803 Non è importante l'espressione 00:03:18.827 --> 00:03:20.712 o dove sono state scattate le foto. 00:03:20.736 --> 00:03:23.136 Ciò che importa è averne molte. 00:03:23.160 --> 00:03:24.790 E qui non abbiamo ancora i colori, 00:03:24.790 --> 00:03:27.268 quindi sviluppiamo una nuova tecnica di fusione 00:03:27.292 --> 00:03:30.128 che perfeziona il metodo a media singola 00:03:30.152 --> 00:03:32.970 e produce strutture facciali e colori nitidi. 00:03:33.779 --> 00:03:36.550 Ciò può essere fatto per ogni espressione. NOTE Paragraph 00:03:36.765 --> 00:03:39.984 Ora abbiamo il controllo del modello di una persona 00:03:40.008 --> 00:03:43.803 che viene gestito tramite una sequenza di foto statiche. 00:03:43.827 --> 00:03:46.953 Notate come le rughe vanno e vengono in base all'espressione, 00:03:47.639 --> 00:03:50.855 Possiamo anche usare un video per ottenere la rappresentazione 3D. NOTE Paragraph 00:03:50.879 --> 00:03:53.472 (Video) Daniel Craig: Giusto, ma in qualche modo, 00:03:53.496 --> 00:03:57.339 siamo riusciti ad attrarre persone più interessanti. NOTE Paragraph 00:03:58.021 --> 00:03:59.663 SS: Ecco un'altra demo divertente. 00:03:59.687 --> 00:04:02.443 Quello che vedete qui sono modelli controllabili di persone 00:04:02.443 --> 00:04:04.551 che ho costruito dalle loro foto su internet. 00:04:04.555 --> 00:04:07.329 Trasferendo il movimento dal video in ingresso, 00:04:07.353 --> 00:04:08.949 possiamo gestire tutto il gruppo. NOTE Paragraph 00:04:08.949 --> 00:04:11.701 George W. Bush: È difficile far approvare questa legge, 00:04:11.725 --> 00:04:14.028 perché ci sono troppi emendamenti, 00:04:14.052 --> 00:04:19.283 e il percorso legislativo può essere insidioso. NOTE Paragraph 00:04:19.958 --> 00:04:20.768 (Applausi) NOTE Paragraph 00:04:20.798 --> 00:04:22.332 SS: Per fare un passo indietro, 00:04:22.342 --> 00:04:26.013 il nostro obiettivo ultimo, piuttosto, è catturare le loro tipicità espressive 00:04:26.037 --> 00:04:29.202 o il modo unico in cui ciascuna di queste persone parla e sorride. 00:04:29.242 --> 00:04:31.419 Per farlo, possiamo insegnare ai computer 00:04:31.443 --> 00:04:33.665 a imitare il modo in cui uno parla 00:04:33.689 --> 00:04:36.639 mostrando solo la ripresa video di quella persona? 00:04:36.898 --> 00:04:39.475 Quello che ho fatto, è stato far guardare al computer 00:04:39.499 --> 00:04:42.776 14 ore di discorsi tenuti da Barack Obama. 00:04:43.443 --> 00:04:46.959 Questo è ciò che possiamo produrre solo con il suo audio. NOTE Paragraph 00:04:46.983 --> 00:04:48.760 (Video) BO: I risultati sono chiari. 00:04:48.784 --> 00:04:53.133 Le imprese americane hanno creato 14,5 milioni di nuovi posti di lavoro 00:04:53.157 --> 00:04:55.931 per 75 mesi di fila. NOTE Paragraph 00:04:55.955 --> 00:04:58.860 SS: Qui abbiamo sintetizzato solo la zona della bocca, 00:04:58.884 --> 00:05:00.424 in questo modo. 00:05:00.514 --> 00:05:02.590 Le sequenze lineari usano una rete neurale 00:05:02.614 --> 00:05:05.550 per convertire un input audio in questi punti della labbra. NOTE Paragraph 00:05:06.547 --> 00:05:10.772 (Video) BO: È grazie al nostro lavoro, o grazie a Medicare, o Medicaid. NOTE Paragraph 00:05:10.796 --> 00:05:14.216 SS: Dopo sintetizziamo la struttura, miglioriamo dettagli e dentatura, 00:05:14.240 --> 00:05:17.314 e li uniamo alla testa e allo sfondo, presi da un video sorgente. NOTE Paragraph 00:05:17.338 --> 00:05:19.413 (Video) BO: Per le donne checkup gratuiti, 00:05:19.433 --> 00:05:22.395 e non dovranno pagare di più solo per il fatto di essere donne. 00:05:22.973 --> 00:05:26.279 I giovani potranno rimanere a carico dei genitori fino a 26 anni. NOTE Paragraph 00:05:27.267 --> 00:05:30.219 SS: Penso che questi risultati siano realistici ed intriganti, 00:05:30.243 --> 00:05:33.416 ma allo stesso tempo fanno paura, persino a me. 00:05:33.440 --> 00:05:37.455 Il nostro obiettivo era un modello 3D accurato, non una falsificazione. 00:05:37.956 --> 00:05:41.067 Ciò che mi preoccupa è l'abuso che potrebbe derivarne. 00:05:42.078 --> 00:05:44.929 Le persone si occupano di questo problema da molto tempo, 00:05:44.953 --> 00:05:47.824 da quando Photoshop apparve per la prima volta sul mercato. 00:05:47.862 --> 00:05:51.663 Come ricercatore, sto anche lavorando su una tecnologia di contromisura, 00:05:51.687 --> 00:05:54.629 e faccio parte di un progetto in corso alla AI Foundation, 00:05:54.653 --> 00:05:58.050 che usa un mix di apprendimento automatico e moderatori umani 00:05:58.074 --> 00:06:00.218 per scoprire immagini e video falsi, 00:06:00.242 --> 00:06:02.286 combattendo contro il mio stesso lavoro. 00:06:02.675 --> 00:06:05.865 Uno dei dispositivi prossimi al lancio si chiama 'Reality Defender', 00:06:05.889 --> 00:06:09.928 un'estensione delle funzioni del browser in grado di segnalare contenuti falsi 00:06:09.952 --> 00:06:12.485 in automatico, direttamente nel browser. NOTE Paragraph 00:06:12.509 --> 00:06:16.621 (Applausi) NOTE Paragraph 00:06:16.651 --> 00:06:18.058 Nonostante questo, tuttavia, 00:06:18.078 --> 00:06:20.078 i video falsi possono arrecare molti danni, 00:06:20.102 --> 00:06:23.396 persino prima che qualcuno abbia l'opportunità di verificarli, 00:06:23.420 --> 00:06:26.142 quindi è molto importante che rendiamo tutti consapevoli 00:06:26.166 --> 00:06:28.173 di ciò che è attualmente possibile 00:06:28.197 --> 00:06:31.826 così da partire dal presupposto giusto ed essere critici su ciò che vediamo. NOTE Paragraph 00:06:32.423 --> 00:06:37.430 Manca ancora molto prima di poter creare modelli completi di una persona 00:06:37.454 --> 00:06:40.440 e prima di poter garantire la sicurezza di questa tecnologia. 00:06:40.857 --> 00:06:42.684 Ma sono pieno di entusiasmo e speranza, 00:06:42.708 --> 00:06:46.247 perché se usato bene e attentamente, 00:06:46.271 --> 00:06:50.580 questo strumento può far sì che il nostro impatto positivo sul mondo 00:06:50.604 --> 00:06:52.438 possa essere fortemente accresciuto 00:06:52.438 --> 00:06:55.730 e contribuire a plasmare il futuro nel modo in cui vogliamo che sia. NOTE Paragraph 00:06:55.760 --> 00:06:56.735 Grazie. NOTE Paragraph 00:06:56.759 --> 00:07:01.849 (Applausi)