WEBVTT

00:00:00.974 --> 00:00:05.889
In genere pensiamo al movimento
come un fatto prevalentemente visivo.

00:00:05.889 --> 00:00:10.977
Se io attraverso questo palcoscenico
o faccio dei gesti mentre parlo,

00:00:10.977 --> 00:00:14.255
i miei movimenti
sono qualcosa che si può vedere.

00:00:14.255 --> 00:00:19.737
Ma esiste tutta una serie di movimenti
impercettibili all'occhio umano

00:00:19.737 --> 00:00:21.778
e, nel corso degli ultimi anni,

00:00:21.778 --> 00:00:23.775
abbiamo osservato che le telecamere

00:00:23.775 --> 00:00:27.185
riescono a vedere questi movimenti
che sono invisibili all'occhio umano.

NOTE Paragraph

00:00:28.163 --> 00:00:29.837
Passo ora a mostrarvi cosa intendo.

00:00:30.717 --> 00:00:34.339
Sulla sinistra, vedete un video
che riprende il polso di una persona

00:00:34.339 --> 00:00:37.486
mentre, sulla destra, vedete il video
di un bambino che dorme.

00:00:37.486 --> 00:00:40.632
Se non vi avessi detto
che si trattava di filmati,

00:00:40.632 --> 00:00:44.393
si potrebbe supporre che si tratti
di normali fotografie

00:00:44.393 --> 00:00:46.065
perché, in entrambi i casi,

00:00:46.065 --> 00:00:50.175
questi video appaiono
quasi completamente fermi.

00:00:50.175 --> 00:00:54.060
Ma in realtà ci sono tantissimi 
movimenti sottili in atto.

00:00:54.060 --> 00:00:56.452
Infatti, se toccassimo il polso
sulla sinistra,

00:00:56.452 --> 00:00:58.448
potremmo avvertire il battito del polso

00:00:58.448 --> 00:01:00.933
e se prendessimo in braccio
il bambino sulla destra,

00:01:00.933 --> 00:01:03.324
avvertiremmo il suo petto
sollevarsi e abbassarsi

00:01:03.324 --> 00:01:05.762
nei movimenti respiratori.

00:01:05.762 --> 00:01:09.338
Questi movimenti
sono molto significativi,

00:01:09.338 --> 00:01:12.681
ma sono troppo piccoli
per essere visti,

00:01:12.681 --> 00:01:14.957
e per essere in grado di osservarli

00:01:14.957 --> 00:01:18.997
abbiamo bisogno del contatto diretto.

NOTE Paragraph

00:01:18.997 --> 00:01:20.262
Alcuni anni fa,

00:01:20.262 --> 00:01:24.667
i miei colleghi del MIT hanno creato
il cosiddetto microscopio da movimento,

00:01:24.667 --> 00:01:29.051
vale a dire un software che individua
i movimenti sottili nei video

00:01:29.051 --> 00:01:33.416
e li amplifica per fare in modo
che siano visibili al nostro occhio.

00:01:33.416 --> 00:01:36.899
Adoperando questo software
sul video di sinistra,

00:01:36.899 --> 00:01:40.149
saremo in grado di vedere
il battito del polso

00:01:40.149 --> 00:01:41.844
e, se cominciamo a contare,

00:01:41.844 --> 00:01:45.095
potremmo anche ricavare
la frequenza cardiaca della persona.

00:01:45.095 --> 00:01:48.160
Con lo stesso software,
sul video di destra

00:01:48.160 --> 00:01:51.387
potremmo vedere
ogni singolo respiro del bambino

00:01:51.387 --> 00:01:55.524
e potremmo usare questo mezzo
per monitorare il respiro senza contatto.

NOTE Paragraph

00:01:56.884 --> 00:02:02.232
La grandezza di questa tecnologia
sta nel fatto che questi fenomeni,

00:02:02.232 --> 00:02:04.599
normalmente percepiti
con il contatto fisico,

00:02:04.599 --> 00:02:07.914
possono essere catturati in modo visivo
e non invasivo.

NOTE Paragraph

00:02:09.104 --> 00:02:13.515
Un paio di anni fa, iniziai a lavorare
con i creatori del software

00:02:13.515 --> 00:02:16.882
e decidemmo di approfondire un'idea folle.

00:02:16.882 --> 00:02:19.575
Pensavamo che andasse bene
usare il software

00:02:19.575 --> 00:02:22.710
per visualizzare movimenti minuscoli
come questi,

00:02:22.710 --> 00:02:27.168
è come un modo per ampliare
il senso del tatto.

00:02:27.168 --> 00:02:31.227
Ma che accadrebbe se facessimo
la stessa cosa con l'udito?

00:02:32.508 --> 00:02:37.173
Se potessimo usare dei video
per catturare la vibrazione dei suoni,

00:02:37.173 --> 00:02:40.000
che altro non sono
se non un diverso tipo di movimento,

00:02:40.000 --> 00:02:43.346
e trasformare tutto ciò che vediamo
in una sorta di microfono?

NOTE Paragraph

00:02:44.236 --> 00:02:46.207
Certo, l'idea può suonare strana,

00:02:46.207 --> 00:02:49.760
perciò permettetemi
di illustrarvela meglio.

00:02:49.760 --> 00:02:53.011
I microfoni tradizionali
funzionano convertendo il movimento

00:02:53.011 --> 00:02:56.610
di un diaframma interno
in un segnale elettrico

00:02:56.610 --> 00:03:00.928
e il diaframma è fatto in modo
da muoversi appena colpito dal suono

00:03:00.928 --> 00:03:05.735
così che il suo movimento possa essere
registrato e interpretato come audio.

00:03:05.735 --> 00:03:09.403
Il suono fa vibrare tutte le cose,

00:03:09.403 --> 00:03:14.883
ma quelle vibrazioni, di solito, 
sono troppo piccole e veloci da vedere.

NOTE Paragraph

00:03:14.883 --> 00:03:18.621
E se si potessero registrare
con una video camera ad alta velocità

00:03:18.621 --> 00:03:22.197
e quindi usare il software
per estrarre i movimenti impercettibili

00:03:22.197 --> 00:03:24.287
dal nostro video ad alta velocità,

00:03:24.287 --> 00:03:29.129
analizzando quei movimenti per capire
da quali suoni abbiano avuto origine?

00:03:29.859 --> 00:03:35.308
Si potrebbero trasformare oggetti visibili
in microfoni visivi a distanza.

00:03:37.080 --> 00:03:39.263
Noi abbiamo provato a farlo.

00:03:39.263 --> 00:03:41.190
In uno dei nostri esperimenti,

00:03:41.190 --> 00:03:44.139
abbiamo preso una pianta in vaso,
che vedete sulla destra,

00:03:44.139 --> 00:03:46.577
e l'abbiamo ripresa ad alta velocità

00:03:46.577 --> 00:03:50.106
mentre un altoparlante
emetteva questo suono.

NOTE Paragraph

00:03:50.106 --> 00:03:58.799
(Musica: "Mary aveva un agnellino")

NOTE Paragraph

00:03:59.820 --> 00:04:02.644
Ecco il video che abbiamo registrato

00:04:02.644 --> 00:04:06.568
e nonostante sia stato registrato
a migliaia di frame al secondo,

00:04:06.568 --> 00:04:08.890
anche se guardate molto da vicino,

00:04:08.890 --> 00:04:10.841
non vedrete altro che delle foglie

00:04:10.841 --> 00:04:13.906
che se ne stanno lì 
senza far nulla

00:04:13.906 --> 00:04:18.712
perché il nostro suono muoveva le foglie
di appena un micrometro,

00:04:19.455 --> 00:04:23.379
vale a dire la decimillesima parte
di un centimetro,

00:04:23.379 --> 00:04:27.535
che va da un centesimo
a un millesimo di un pixel

00:04:27.535 --> 00:04:30.423
in questa immagine.

00:04:30.423 --> 00:04:32.768
Potete strizzare gli occhi quanto volete,

00:04:32.768 --> 00:04:36.597
movimenti così piccoli sono
impossibili da percepire.

00:04:37.667 --> 00:04:41.824
Ma ci sono cose che, 
anche se non percepibili visivamente,

00:04:41.824 --> 00:04:44.633
sono comunque significative
a livello numerico,

00:04:44.633 --> 00:04:46.635
perché con gli algoritmi giusti,

00:04:46.635 --> 00:04:50.322
da un video apparentemente
silenzioso come questo

00:04:50.322 --> 00:04:52.690
è possibile recuperare questo suono.

NOTE Paragraph

00:04:52.690 --> 00:05:00.074
(Musica: "Mary aveva un agnellino")

NOTE Paragraph

00:05:00.074 --> 00:05:05.902
(Applausi)

NOTE Paragraph

00:05:10.058 --> 00:05:11.997
Com'è possibile?

00:05:11.997 --> 00:05:16.341
Come ricavare tante informazioni
da una quantità di moto così piccola?

00:05:16.341 --> 00:05:21.702
Ipotizziamo che quelle foglie
si siano mosse di un solo micrometro

00:05:21.702 --> 00:05:27.495
e che la nostra immagine subisca
uno spostamento di un singolo pixel.

00:05:27.495 --> 00:05:29.841
Potrà sembrare pochissimo,

00:05:29.841 --> 00:05:31.837
ma un unico frame

00:05:31.837 --> 00:05:35.094
può contenere centinaia di migliaia
di pixel

00:05:35.094 --> 00:05:38.548
per cui combinando tutti i movimenti 
microscopici che vediamo

00:05:38.548 --> 00:05:40.846
in tutta l'immagine,

00:05:40.846 --> 00:05:43.469
improvvisamente migliaia di pixel

00:05:43.469 --> 00:05:47.185
cominciano a sommarsi
per formare qualcosa di significativo.

NOTE Paragraph

00:05:47.185 --> 00:05:50.505
E vi dirò, la cosa ci esaltò non poco
quando capimmo come funzionava.

00:05:50.505 --> 00:05:52.825
(Risate)

00:05:52.825 --> 00:05:56.078
Ma anche con l'algoritmo giusto,

00:05:56.078 --> 00:05:59.695
mancava ancora un pezzo
piuttosto importante del puzzle.

00:05:59.695 --> 00:06:03.299
Molti sono i fattori che influiscono

00:06:03.299 --> 00:06:05.296
sul funzionamento di questa tecnica.

00:06:05.296 --> 00:06:08.500
Può dipendere dall'oggetto
e dalla sua distanza;

00:06:08.500 --> 00:06:10.894
dalla telecamera usata
e dal tipo di lente;

00:06:10.894 --> 00:06:14.985
dal modo in cui l'oggetto è illuminato
e dal volume del suono.

00:06:15.945 --> 00:06:19.320
E anche disponendo 
dell'algoritmo giusto,

00:06:19.320 --> 00:06:22.710
dovevamo stare molto attenti
nei nostri primi esperimenti

00:06:22.710 --> 00:06:25.102
perché se anche uno solo dei fattori
era sbagliato,

00:06:25.102 --> 00:06:27.470
era assolutamente impossibile
dire quale fosse.

00:06:27.470 --> 00:06:30.117
Avremmo solo ottenuto dei rumori.

00:06:30.117 --> 00:06:33.437
Molti dei nostri esperimenti iniziali
erano più o meno così.

00:06:33.437 --> 00:06:35.643
Qui ci sono io

00:06:35.643 --> 00:06:39.683
e sulla sinistra in basso s'intravvede
la telecamera ad alta velocità

00:06:39.683 --> 00:06:41.866
puntata su una busta di patatine

00:06:41.866 --> 00:06:44.815
e il tutto è illuminato
da una lampada.

00:06:44.815 --> 00:06:49.180
Dovevamo stare molto attenti
con questi primi esperimenti

00:06:49.180 --> 00:06:51.688
ed ecco come andava.

NOTE Paragraph

00:06:51.688 --> 00:06:55.449
(Video) Abe Davis: Tre, due, uno, via.

00:06:55.449 --> 00:07:00.836
Mari aveva un agnellino!
Un agnellino! Un agnellino!

NOTE Paragraph

00:07:00.836 --> 00:07:05.336
(Risate)

NOTE Paragraph

00:07:05.336 --> 00:07:08.150
AD: questo esperimento
è assolutamente ridicolo.

00:07:08.150 --> 00:07:09.938
(Risate)

00:07:09.938 --> 00:07:12.283
Insomma,
io che urlo a una busta di patatine...

00:07:12.283 --> 00:07:13.834
(Risate)

00:07:13.834 --> 00:07:15.951
e la luce
è praticamente sparata a giorno,

00:07:15.951 --> 00:07:20.181
la prima busta si sciolse letteralmente
quando facemmo la prova. (Risate)

00:07:20.181 --> 00:07:23.799
Ma per quanto questo esperimento
possa sembrare ridicolo,

00:07:23.799 --> 00:07:25.587

in realtà fu molto importante

00:07:25.587 --> 00:07:28.513
perché riuscimmo
a recuperare questo suono.

NOTE Paragraph

00:07:28.513 --> 00:07:33.225
(Audio) Mary aveva un agnellino!
Un agnellino! Un agnellino!

NOTE Paragraph

00:07:33.225 --> 00:07:37.313
(Applausi)

NOTE Paragraph

00:07:37.313 --> 00:07:39.194
AD: La cosa era piuttosto significativa:

00:07:39.194 --> 00:07:43.052
per la prima volta recuperavamo
voce umana intelligibile

00:07:43.052 --> 00:07:45.765
dal video muto di un oggetto.

00:07:45.765 --> 00:07:48.156
L'esperimento ci fornì
un punto di riferimento

00:07:48.156 --> 00:07:51.778
e, gradualmente, cominciammo
a modificare il procedimento,

00:07:51.778 --> 00:07:55.911
usando oggetti diversi
oppure spostandoli più lontano,

00:07:55.911 --> 00:07:59.510
diminuendo la luce o usando
suoni più deboli.

00:07:59.510 --> 00:08:02.761
Analizzammo tutti gli esperimenti

00:08:02.761 --> 00:08:06.383
fino a che non ci furono chiari i limiti
della nostra tecnica

00:08:06.383 --> 00:08:08.333
e, una volta compresi i limiti,

00:08:08.333 --> 00:08:10.679
riuscimmo a capire come superarli.

NOTE Paragraph

00:08:10.679 --> 00:08:13.860
Ciò condusse 
a esperimenti come questo,

00:08:13.860 --> 00:08:16.599
in cui io parlo di nuovo
a una busta di patatine,

00:08:16.599 --> 00:08:21.429
ma questa volta la telecamera
si trova a circa 4,5 metri di distanza,

00:08:21.429 --> 00:08:24.262
all'esterno, dietro a un vetro antirumore.

00:08:24.262 --> 00:08:28.371
Tutta la scena è illuminata
da luce naturale diurna.

00:08:28.371 --> 00:08:31.160
Questo è il video che abbiamo ripreso.

00:08:32.450 --> 00:08:37.009
Questi sono i suoni udibili dall'interno,
vicino alla busta di patatine.

NOTE Paragraph

00:08:37.009 --> 00:08:42.047
(Audio): "Mary aveva un agnellino
con il manto bianco come la neve

00:08:42.047 --> 00:08:47.666
e ovunque Mary andava,
l'agnello la seguiva."

NOTE Paragraph

00:08:47.666 --> 00:08:51.683
AD: E questo è quanto abbiamo
recuperato dal video muto

00:08:51.683 --> 00:08:54.028
ripreso all'esterno, fuori della finestra.

NOTE Paragraph

00:08:54.028 --> 00:08:58.463
(Audio): "Mary aveva un agnellino
con il manto bianco come la neve

00:08:58.463 --> 00:09:03.920
e ovunque Mary andava,
l'agnello la seguiva."

NOTE Paragraph

00:09:03.920 --> 00:09:10.421
(Applauso)

NOTE Paragraph

00:09:10.421 --> 00:09:13.963
AD: Ma ci sono altri modi
per superare i limiti.

00:09:13.963 --> 00:09:15.761
Questo è un esperimento
più tranquillo

00:09:15.761 --> 00:09:19.871
in cui abbiamo filmato degli auricolari
connessi a un computer portatile.

00:09:19.871 --> 00:09:23.981
Il nostro scopo era recuperare
la musica suonata dal computer

00:09:23.981 --> 00:09:26.280
dal video muto che riprendeva

00:09:26.280 --> 00:09:28.787
i due auricolari di plastica

00:09:28.787 --> 00:09:30.970
e siamo stati così bravi
che abbiamo potuto

00:09:30.970 --> 00:09:33.431
addirittura usare il risultato con Shazam.

00:09:33.431 --> 00:09:37.657
(Risate)

NOTE Paragraph

00:09:37.657 --> 00:09:47.225
(Musica: "Under Pressure" dei Queen)

NOTE Paragraph

00:09:49.615 --> 00:09:54.584
(Applauso)

NOTE Paragraph

00:09:54.584 --> 00:09:59.135
Possiamo influire sui risultati
anche cambiando tipo di hardware.

00:09:59.135 --> 00:10:01.596
Gli esperimenti
che vi ho mostrato finora

00:10:01.596 --> 00:10:03.918
sono stati fatti
con una telecamera high-speed

00:10:03.918 --> 00:10:06.797
che può registrare video
a una velocità 100 volte superiore

00:10:06.797 --> 00:10:08.724
a quella dei cellulari,

00:10:08.724 --> 00:10:11.533
ma abbiamo trovato il modo
di usare questa tecnica

00:10:11.533 --> 00:10:13.763
con telecamere normali,

00:10:13.763 --> 00:10:17.832
approfittando di un effetto 
comunemente chiamato "rolling shutter".

00:10:17.832 --> 00:10:22.630
La maggior parte delle telecamere
registrano le immagini una riga alla volta

00:10:22.630 --> 00:10:28.332
quindi, se un soggetto si muove
durante la registrazione di un'immagine,

00:10:28.344 --> 00:10:31.061
c'è un leggero ritardo
tra una riga e l'altra,

00:10:31.061 --> 00:10:34.218
questo fa sì che piccoli artefatti

00:10:34.218 --> 00:10:37.701
vengano codificati
in ciascun frame di un video.

00:10:37.701 --> 00:10:41.507
Analizzando questi artefatti,
riusciamo a recuperare suoni

00:10:41.507 --> 00:10:46.122
usando una versione modificata
del nostro algoritmo.

00:10:46.122 --> 00:10:48.034
In questo esperimento

00:10:48.034 --> 00:10:49.729
abbiamo filmato
un pacco di caramelle

00:10:49.729 --> 00:10:51.470
mentre da un altoparlante vicino

00:10:51.470 --> 00:10:54.442
arrivava la musica di prima
"Mary aveva un agnellino",

00:10:54.442 --> 00:10:58.645
ma questa volta abbiamo usato
una normale telecamera commerciale

00:10:58.645 --> 00:11:01.819
e in un attimo riprodurrò per voi
il suono che abbiamo recuperato.

00:11:01.819 --> 00:11:03.869
Questa volta
il suono sarà distorto,

00:11:03.869 --> 00:11:07.514
ma ascoltate e vedete
se riuscite a riconoscere la musica.

NOTE Paragraph

00:11:07.514 --> 00:11:13.946
(Audio: "Mary aveva un agnellino")

NOTE Paragraph

00:11:25.718 --> 00:11:28.992
Il suono, certo, risulta distorto,

00:11:28.992 --> 00:11:33.378
ma è pur vero che la telecamera
che abbiamo usato

00:11:33.378 --> 00:11:36.004
era una di quelle
che si potevano comprare

00:11:36.004 --> 00:11:38.222
al negozio sotto casa.

NOTE Paragraph

00:11:39.122 --> 00:11:40.485
A questo punto,

00:11:40.485 --> 00:11:42.459
molte persone 
che vedono questo lavoro,

00:11:42.459 --> 00:11:45.872
pensano immediatamente
ai servizi di vigilanza.

00:11:45.872 --> 00:11:48.287
E per la verità,

00:11:48.287 --> 00:11:52.420
è molto facile immaginare di usare
questa tecnologia per spiare qualcuno.

00:11:52.420 --> 00:11:56.367
Ma ricordate che esiste già
una tecnologia molto evoluta

00:11:56.367 --> 00:11:57.946
per i sistemi di sorveglianza.

00:11:57.946 --> 00:12:00.036
I laser, ad esempio, sono stati usati

00:12:00.036 --> 00:12:03.749
per decenni per intercettare oggetti
a distanza.

00:12:03.749 --> 00:12:06.003
L'elemento veramente nuovo

00:12:06.003 --> 00:12:07.443
e diverso che si presenta qui

00:12:07.443 --> 00:12:11.738
è un modo nuovo di raffigurare
le vibrazioni di un oggetto

00:12:11.738 --> 00:12:15.151
che ci dà una nuova lente
attraverso la quale guardare il mondo.

00:12:15.151 --> 00:12:16.661
Possiamo usare questa lente

00:12:16.661 --> 00:12:21.560
non solo per imparare che forze
come il suono fanno vibrare un oggetto,

00:12:21.560 --> 00:12:24.671
ma anche per imparare qualcosa
sull'oggetto stesso.

NOTE Paragraph

00:12:24.671 --> 00:12:26.668
Ora faccio un passo indietro
per riflettere

00:12:26.668 --> 00:12:30.917
su come ciò potrebbe cambiare
il nostro modo di usare il video.

00:12:30.917 --> 00:12:34.470
Di solito usiamo il video
per guardare degli oggetti,

00:12:34.470 --> 00:12:36.792
ma, come vi ho appena dimostrato,
si può usare anche

00:12:36.792 --> 00:12:38.649
per ascoltare gli oggetti.

00:12:38.649 --> 00:12:42.620
Ma c'è un altro modo fondamentale
per conoscere il mondo

00:12:42.620 --> 00:12:44.895
ed è l'interazione.

00:12:44.895 --> 00:12:48.006
Noi tiriamo, spingiamo
e tocchiamo le cose.

00:12:48.006 --> 00:12:51.187
Le agitiamo e poi
stiamo a guardare cosa succede.

00:12:51.187 --> 00:12:55.460
Ma questo il video
non ci permette di farlo,

00:12:55.460 --> 00:12:57.596
almeno non in modo tradizionale.

00:12:57.596 --> 00:12:59.546
Per cui voglio ora mostrarvi
un lavoro nuovo,

00:12:59.546 --> 00:13:02.212
basato su in'idea
che ho avuto alcuni mesi fa

00:13:02.212 --> 00:13:05.513
ed è la prima volta
che lo faccio vedere in pubblico.

00:13:05.513 --> 00:13:10.877
L'idea di fondo è quella
di usare le vibrazioni in un video

00:13:10.877 --> 00:13:15.358
per riprendere gli oggetti in modo
che sia possibile un'interazione con essi

00:13:15.358 --> 00:13:18.290
e vedere in che modo reagiscono a noi.

NOTE Paragraph

00:13:19.120 --> 00:13:20.884
Questo è un oggetto.

00:13:20.884 --> 00:13:24.716
In questo caso, si tratta di una figura
di ferro filato con forma umana.

00:13:24.716 --> 00:13:27.804
Riprenderemo l'oggetto 
con una normale telecamera.

00:13:27.804 --> 00:13:29.928
Non c'è nulla di speciale
in questa telecamera.

00:13:29.928 --> 00:13:32.889
Anzi, altre volte l'ho fatto
con il mio telefono cellulare.

00:13:32.889 --> 00:13:35.141
Noi vogliamo vedere come l'oggetto vibra,

00:13:35.141 --> 00:13:36.274
e perché ciò accada,

00:13:36.274 --> 00:13:39.620
andremo a colpire leggermente
la superficie sulla quale si trova

00:13:39.620 --> 00:13:41.758
mentre giriamo il video.

NOTE Paragraph

00:13:47.398 --> 00:13:51.069
E questo è tutto: cinque secondi
di normale ripresa,

00:13:51.069 --> 00:13:53.205
mentre la superficie viene percossa

00:13:53.205 --> 00:13:56.718
e poi useremo le vibrazioni
presenti nel video

00:13:56.718 --> 00:14:01.262
per conoscere le proprietà strutturali
e materiali del nostro oggetto.

00:14:01.262 --> 00:14:06.096
Useremo quelle informazioni per creare
qualcosa di nuovo e interattivo.

00:14:13.073 --> 00:14:15.519
Ed ecco la nostra creazione.

00:14:15.519 --> 00:14:17.748
All'apparenza
è una normalissima immagine

00:14:17.748 --> 00:14:20.859
eppure non è un'immagine
e neanche un video

00:14:20.859 --> 00:14:23.227
perché ora io posso prendere il mouse

00:14:23.227 --> 00:14:26.086
e iniziare a interagire
con l'oggetto.

00:14:32.936 --> 00:14:34.489
Quella che vedete

00:14:34.489 --> 00:14:37.615
è una simulazione di come quest'oggetto

00:14:37.615 --> 00:14:42.073
risponderebbe a forze nuove
e sconosciute,

00:14:42.073 --> 00:14:46.345
una creazione fatta grazie a un normale
video di cinque secondi.

NOTE Paragraph

00:14:46.345 --> 00:14:51.964
(Applauso)

NOTE Paragraph

00:14:57.421 --> 00:15:00.648
Questa visione del mondo
è davvero efficace

00:15:00.648 --> 00:15:03.620
perché ci consente di prevedere
come gli oggetti risponderanno

00:15:03.620 --> 00:15:05.443
a situazioni nuove.

00:15:05.443 --> 00:15:08.916
Immaginate, ad esempio,
di guardare un vecchio ponte

00:15:08.916 --> 00:15:12.443
chiedendovi cosa succederebbe
e se quel ponte reggerebbe

00:15:12.443 --> 00:15:15.276
passandoci sopra con la macchina.

00:15:15.276 --> 00:15:18.050
Un interrogativo al quale certamente
vorreste rispondere

00:15:18.050 --> 00:15:21.988
prima di cominciare
ad attraversare il ponte.

00:15:21.988 --> 00:15:25.260
Naturalmente ci saranno dei limiti
a questa tecnica,

00:15:25.260 --> 00:15:27.722
esattamente 
come per il microfono visivo,

00:15:27.722 --> 00:15:30.903
ma abbiamo sperimentato che funziona
in molte situazioni

00:15:30.903 --> 00:15:32.778
in cui non ce lo aspetteremmo,

00:15:32.778 --> 00:15:35.546
specie se si fanno video più lunghi.

NOTE Paragraph

00:15:35.546 --> 00:15:38.054
Questo, ad esempio,
è il video di un cespuglio

00:15:38.054 --> 00:15:40.353
girato fuori casa mia.

00:15:40.353 --> 00:15:43.441
Nulla è stato fatto a questo cespuglio

00:15:43.441 --> 00:15:46.146
se non girare un video di un minuto.

00:15:46.146 --> 00:15:49.524
Una sottile brezza ha causato
vibrazioni sufficienti

00:15:49.524 --> 00:15:53.519
a farci imparare quanto era necessario
per creare questa simulazione.

00:15:55.909 --> 00:16:01.412
(Applausi)

00:16:01.412 --> 00:16:04.384
Immaginate questa tecnologia
nelle mani di un regista

00:16:04.384 --> 00:16:06.103
per controllare, ad esempio,

00:16:06.103 --> 00:16:11.025
la forza e la direzione del vento
di una scena dopo che è stata girata.

00:16:12.810 --> 00:16:17.345
In questo caso, abbiamo puntato
la telecamera verso una tenda

00:16:17.345 --> 00:16:21.474
e, vedete, non c'è alcun movimento
in questo video.

00:16:21.474 --> 00:16:24.399
Ma girando per due minuti,

00:16:24.399 --> 00:16:26.837
le naturali correnti d'aria nella stanza

00:16:26.837 --> 00:16:31.249
hanno creato impercettibili movimenti
e vibrazioni sufficienti

00:16:31.249 --> 00:16:34.244
da farci imparare quanto basta
per creare questa simulazione.

NOTE Paragraph

00:16:36.705 --> 00:16:38.609
E paradossalmente,

00:16:38.609 --> 00:16:41.697
noi siamo abbastanza abituati
a questo tipo di interattività

00:16:41.697 --> 00:16:44.344
quando si tratta di oggetti virtuali,

00:16:44.344 --> 00:16:47.641
video game
e modelli tridimensionali,

00:16:47.641 --> 00:16:52.045
ma riuscire a carpire queste informazioni
da oggetti reali nel mondo reale

00:16:52.045 --> 00:16:54.862
per mezzo di semplici video,

00:16:54.862 --> 00:16:58.414
è un fatto nuovo
con potenzialità enormi.

NOTE Paragraph

00:16:58.414 --> 00:17:04.111
Ecco le persone straordinarie che hanno
lavorato con me su questi progetti.

00:17:04.111 --> 00:17:12.466
(Applausi)

NOTE Paragraph

00:17:12.466 --> 00:17:15.756
Quello che vi ho mostrato oggi
è solo il principio.

00:17:15.756 --> 00:17:17.989
Abbiamo solo cominciato
a scalfire la superficie

00:17:17.989 --> 00:17:20.961
di ciò che è possibile fare
con questo tipo di imaging

00:17:20.961 --> 00:17:23.097
che ci dà un nuovo modo

00:17:23.097 --> 00:17:28.066
di catturare il mondo circostante
con una tecnologia comune, accessibile.

00:17:28.066 --> 00:17:29.995
Guardando al futuro, credo

00:17:29.995 --> 00:17:32.032
che sarà davvero
interessante esplorare

00:17:32.032 --> 00:17:34.683
ciò che questa tecnologia
saprà dirci del mondo.

NOTE Paragraph

00:17:34.683 --> 00:17:36.424
Grazie.

NOTE Paragraph

00:17:36.424 --> 00:17:42.531
(Applauso)