In genere pensiamo al movimento
come un fatto prevalentemente visivo.
Se io attraverso questo palcoscenico
o faccio dei gesti mentre parlo,
i miei movimenti
sono qualcosa che si può vedere.
Ma esiste tutta una serie di movimenti
impercettibili all'occhio umano
e, nel corso degli ultimi anni,
abbiamo osservato che le telecamere
riescono a vedere questi movimenti
che sono invisibili all'occhio umano.
Passo ora a mostrarvi cosa intendo.
Sulla sinistra, vedete un video
che riprende il polso di una persona
mentre, sulla destra, vedete il video
di un bambino che dorme.
Se non vi avessi detto
che si trattava di filmati,
si potrebbe supporre che si tratti
di normali fotografie
perché, in entrambi i casi,
questi video appaiono
quasi completamente fermi.
Ma in realtà ci sono tantissimi
movimenti sottili in atto.
Infatti, se toccassimo il polso
sulla sinistra,
potremmo avvertire il battito del polso
e se prendessimo in braccio
il bambino sulla destra,
avvertiremmo il suo petto
sollevarsi e abbassarsi
nei movimenti respiratori.
Questi movimenti
sono molto significativi,
ma sono troppo piccoli
per essere visti,
e per essere in grado di osservarli
abbiamo bisogno del contatto diretto.
Alcuni anni fa,
i miei colleghi del MIT hanno creato
il cosiddetto microscopio da movimento,
vale a dire un software che individua
i movimenti sottili nei video
e li amplifica per fare in modo
che siano visibili al nostro occhio.
Adoperando questo software
sul video di sinistra,
saremo in grado di vedere
il battito del polso
e, se cominciamo a contare,
potremmo anche ricavare
la frequenza cardiaca della persona.
Con lo stesso software,
sul video di destra
potremmo vedere
ogni singolo respiro del bambino
e potremmo usare questo mezzo
per monitorare il respiro senza contatto.
La grandezza di questa tecnologia
sta nel fatto che questi fenomeni,
normalmente percepiti
con il contatto fisico,
possono essere catturati in modo visivo
e non invasivo.
Un paio di anni fa, iniziai a lavorare
con i creatori del software
e decidemmo di approfondire un'idea folle.
Pensavamo che andasse bene
usare il software
per visualizzare movimenti minuscoli
come questi,
è come un modo per ampliare
il senso del tatto.
Ma che accadrebbe se facessimo
la stessa cosa con l'udito?
Se potessimo usare dei video
per catturare la vibrazione dei suoni,
che altro non sono
se non un diverso tipo di movimento,
e trasformare tutto ciò che vediamo
in una sorta di microfono?
Certo, l'idea può suonare strana,
perciò permettetemi
di illustrarvela meglio.
I microfoni tradizionali
funzionano convertendo il movimento
di un diaframma interno
in un segnale elettrico
e il diaframma è fatto in modo
da muoversi appena colpito dal suono
così che il suo movimento possa essere
registrato e interpretato come audio.
Il suono fa vibrare tutte le cose,
ma quelle vibrazioni, di solito,
sono troppo piccole e veloci da vedere.
E se si potessero registrare
con una video camera ad alta velocità
e quindi usare il software
per estrarre i movimenti impercettibili
dal nostro video ad alta velocità,
analizzando quei movimenti per capire
da quali suoni abbiano avuto origine?
Si potrebbero trasformare oggetti visibili
in microfoni visivi a distanza.
Noi abbiamo provato a farlo.
In uno dei nostri esperimenti,
abbiamo preso una pianta in vaso,
che vedete sulla destra,
e l'abbiamo ripresa ad alta velocità
mentre un altoparlante
emetteva questo suono.
(Musica: "Mary aveva un agnellino")
Ecco il video che abbiamo registrato
e nonostante sia stato registrato
a migliaia di frame al secondo,
anche se guardate molto da vicino,
non vedrete altro che delle foglie
che se ne stanno lì
senza far nulla
perché il nostro suono muoveva le foglie
di appena un micrometro,
vale a dire la decimillesima parte
di un centimetro,
che va da un centesimo
a un millesimo di un pixel
in questa immagine.
Potete strizzare gli occhi quanto volete,
movimenti così piccoli sono
impossibili da percepire.
Ma ci sono cose che,
anche se non percepibili visivamente,
sono comunque significative
a livello numerico,
perché con gli algoritmi giusti,
da un video apparentemente
silenzioso come questo
è possibile recuperare questo suono.
(Musica: "Mary aveva un agnellino")
(Applausi)
Com'è possibile?
Come ricavare tante informazioni
da una quantità di moto così piccola?
Ipotizziamo che quelle foglie
si siano mosse di un solo micrometro
e che la nostra immagine subisca
uno spostamento di un singolo pixel.
Potrà sembrare pochissimo,
ma un unico frame
può contenere centinaia di migliaia
di pixel
per cui combinando tutti i movimenti
microscopici che vediamo
in tutta l'immagine,
improvvisamente migliaia di pixel
cominciano a sommarsi
per formare qualcosa di significativo.
E vi dirò, la cosa ci esaltò non poco
quando capimmo come funzionava.
(Risate)
Ma anche con l'algoritmo giusto,
mancava ancora un pezzo
piuttosto importante del puzzle.
Molti sono i fattori che influiscono
sul funzionamento di questa tecnica.
Può dipendere dall'oggetto
e dalla sua distanza;
dalla telecamera usata
e dal tipo di lente;
dal modo in cui l'oggetto è illuminato
e dal volume del suono.
E anche disponendo
dell'algoritmo giusto,
dovevamo stare molto attenti
nei nostri primi esperimenti
perché se anche uno solo dei fattori
era sbagliato,
era assolutamente impossibile
dire quale fosse.
Avremmo solo ottenuto dei rumori.
Molti dei nostri esperimenti iniziali
erano più o meno così.
Qui ci sono io
e sulla sinistra in basso s'intravvede
la telecamera ad alta velocità
puntata su una busta di patatine
e il tutto è illuminato
da una lampada.
Dovevamo stare molto attenti
con questi primi esperimenti
ed ecco come andava.
(Video) Abe Davis: Tre, due, uno, via.
Mari aveva un agnellino!
Un agnellino! Un agnellino!
(Risate)
AD: questo esperimento
è assolutamente ridicolo.
(Risate)
Insomma,
io che urlo a una busta di patatine...
(Risate)
e la luce
è praticamente sparata a giorno,
la prima busta si sciolse letteralmente
quando facemmo la prova. (Risate)
Ma per quanto questo esperimento
possa sembrare ridicolo,
in realtà fu molto importante
perché riuscimmo
a recuperare questo suono.
(Audio) Mary aveva un agnellino!
Un agnellino! Un agnellino!
(Applausi)
AD: La cosa era piuttosto significativa:
per la prima volta recuperavamo
voce umana intelligibile
dal video muto di un oggetto.
L'esperimento ci fornì
un punto di riferimento
e, gradualmente, cominciammo
a modificare il procedimento,
usando oggetti diversi
oppure spostandoli più lontano,
diminuendo la luce o usando
suoni più deboli.
Analizzammo tutti gli esperimenti
fino a che non ci furono chiari i limiti
della nostra tecnica
e, una volta compresi i limiti,
riuscimmo a capire come superarli.
Ciò condusse
a esperimenti come questo,
in cui io parlo di nuovo
a una busta di patatine,
ma questa volta la telecamera
si trova a circa 4,5 metri di distanza,
all'esterno, dietro a un vetro antirumore.
Tutta la scena è illuminata
da luce naturale diurna.
Questo è il video che abbiamo ripreso.
Questi sono i suoni udibili dall'interno,
vicino alla busta di patatine.
(Audio): "Mary aveva un agnellino
con il manto bianco come la neve
e ovunque Mary andava,
l'agnello la seguiva."
AD: E questo è quanto abbiamo
recuperato dal video muto
ripreso all'esterno, fuori della finestra.
(Audio): "Mary aveva un agnellino
con il manto bianco come la neve
e ovunque Mary andava,
l'agnello la seguiva."
(Applauso)
AD: Ma ci sono altri modi
per superare i limiti.
Questo è un esperimento
più tranquillo
in cui abbiamo filmato degli auricolari
connessi a un computer portatile.
Il nostro scopo era recuperare
la musica suonata dal computer
dal video muto che riprendeva
i due auricolari di plastica
e siamo stati così bravi
che abbiamo potuto
addirittura usare il risultato con Shazam.
(Risate)
(Musica: "Under Pressure" dei Queen)
(Applauso)
Possiamo influire sui risultati
anche cambiando tipo di hardware.
Gli esperimenti
che vi ho mostrato finora
sono stati fatti
con una telecamera high-speed
che può registrare video
a una velocità 100 volte superiore
a quella dei cellulari,
ma abbiamo trovato il modo
di usare questa tecnica
con telecamere normali,
approfittando di un effetto
comunemente chiamato "rolling shutter".
La maggior parte delle telecamere
registrano le immagini una riga alla volta
quindi, se un soggetto si muove
durante la registrazione di un'immagine,
c'è un leggero ritardo
tra una riga e l'altra,
questo fa sì che piccoli artefatti
vengano codificati
in ciascun frame di un video.
Analizzando questi artefatti,
riusciamo a recuperare suoni
usando una versione modificata
del nostro algoritmo.
In questo esperimento
abbiamo filmato
un pacco di caramelle
mentre da un altoparlante vicino
arrivava la musica di prima
"Mary aveva un agnellino",
ma questa volta abbiamo usato
una normale telecamera commerciale
e in un attimo riprodurrò per voi
il suono che abbiamo recuperato.
Questa volta
il suono sarà distorto,
ma ascoltate e vedete
se riuscite a riconoscere la musica.
(Audio: "Mary aveva un agnellino")
Il suono, certo, risulta distorto,
ma è pur vero che la telecamera
che abbiamo usato
era una di quelle
che si potevano comprare
al negozio sotto casa.
A questo punto,
molte persone
che vedono questo lavoro,
pensano immediatamente
ai servizi di vigilanza.
E per la verità,
è molto facile immaginare di usare
questa tecnologia per spiare qualcuno.
Ma ricordate che esiste già
una tecnologia molto evoluta
per i sistemi di sorveglianza.
I laser, ad esempio, sono stati usati
per decenni per intercettare oggetti
a distanza.
L'elemento veramente nuovo
e diverso che si presenta qui
è un modo nuovo di raffigurare
le vibrazioni di un oggetto
che ci dà una nuova lente
attraverso la quale guardare il mondo.
Possiamo usare questa lente
non solo per imparare che forze
come il suono fanno vibrare un oggetto,
ma anche per imparare qualcosa
sull'oggetto stesso.
Ora faccio un passo indietro
per riflettere
su come ciò potrebbe cambiare
il nostro modo di usare il video.
Di solito usiamo il video
per guardare degli oggetti,
ma, come vi ho appena dimostrato,
si può usare anche
per ascoltare gli oggetti.
Ma c'è un altro modo fondamentale
per conoscere il mondo
ed è l'interazione.
Noi tiriamo, spingiamo
e tocchiamo le cose.
Le agitiamo e poi
stiamo a guardare cosa succede.
Ma questo il video
non ci permette di farlo,
almeno non in modo tradizionale.
Per cui voglio ora mostrarvi
un lavoro nuovo,
basato su in'idea
che ho avuto alcuni mesi fa
ed è la prima volta
che lo faccio vedere in pubblico.
L'idea di fondo è quella
di usare le vibrazioni in un video
per riprendere gli oggetti in modo
che sia possibile un'interazione con essi
e vedere in che modo reagiscono a noi.
Questo è un oggetto.
In questo caso, si tratta di una figura
di ferro filato con forma umana.
Riprenderemo l'oggetto
con una normale telecamera.
Non c'è nulla di speciale
in questa telecamera.
Anzi, altre volte l'ho fatto
con il mio telefono cellulare.
Noi vogliamo vedere come l'oggetto vibra,
e perché ciò accada,
andremo a colpire leggermente
la superficie sulla quale si trova
mentre giriamo il video.
E questo è tutto: cinque secondi
di normale ripresa,
mentre la superficie viene percossa
e poi useremo le vibrazioni
presenti nel video
per conoscere le proprietà strutturali
e materiali del nostro oggetto.
Useremo quelle informazioni per creare
qualcosa di nuovo e interattivo.
Ed ecco la nostra creazione.
All'apparenza
è una normalissima immagine
eppure non è un'immagine
e neanche un video
perché ora io posso prendere il mouse
e iniziare a interagire
con l'oggetto.
Quella che vedete
è una simulazione di come quest'oggetto
risponderebbe a forze nuove
e sconosciute,
una creazione fatta grazie a un normale
video di cinque secondi.
(Applauso)
Questa visione del mondo
è davvero efficace
perché ci consente di prevedere
come gli oggetti risponderanno
a situazioni nuove.
Immaginate, ad esempio,
di guardare un vecchio ponte
chiedendovi cosa succederebbe
e se quel ponte reggerebbe
passandoci sopra con la macchina.
Un interrogativo al quale certamente
vorreste rispondere
prima di cominciare
ad attraversare il ponte.
Naturalmente ci saranno dei limiti
a questa tecnica,
esattamente
come per il microfono visivo,
ma abbiamo sperimentato che funziona
in molte situazioni
in cui non ce lo aspetteremmo,
specie se si fanno video più lunghi.
Questo, ad esempio,
è il video di un cespuglio
girato fuori casa mia.
Nulla è stato fatto a questo cespuglio
se non girare un video di un minuto.
Una sottile brezza ha causato
vibrazioni sufficienti
a farci imparare quanto era necessario
per creare questa simulazione.
(Applausi)
Immaginate questa tecnologia
nelle mani di un regista
per controllare, ad esempio,
la forza e la direzione del vento
di una scena dopo che è stata girata.
In questo caso, abbiamo puntato
la telecamera verso una tenda
e, vedete, non c'è alcun movimento
in questo video.
Ma girando per due minuti,
le naturali correnti d'aria nella stanza
hanno creato impercettibili movimenti
e vibrazioni sufficienti
da farci imparare quanto basta
per creare questa simulazione.
E paradossalmente,
noi siamo abbastanza abituati
a questo tipo di interattività
quando si tratta di oggetti virtuali,
video game
e modelli tridimensionali,
ma riuscire a carpire queste informazioni
da oggetti reali nel mondo reale
per mezzo di semplici video,
è un fatto nuovo
con potenzialità enormi.
Ecco le persone straordinarie che hanno
lavorato con me su questi progetti.
(Applausi)
Quello che vi ho mostrato oggi
è solo il principio.
Abbiamo solo cominciato
a scalfire la superficie
di ciò che è possibile fare
con questo tipo di imaging
che ci dà un nuovo modo
di catturare il mondo circostante
con una tecnologia comune, accessibile.
Guardando al futuro, credo
che sarà davvero
interessante esplorare
ciò che questa tecnologia
saprà dirci del mondo.
Grazie.
(Applauso)