In genere pensiamo al movimento come un fatto prevalentemente visivo. Se io attraverso questo palcoscenico o faccio dei gesti mentre parlo, i miei movimenti sono qualcosa che si può vedere. Ma esiste tutta una serie di movimenti impercettibili all'occhio umano e, nel corso degli ultimi anni, abbiamo osservato che le telecamere riescono a vedere questi movimenti che sono invisibili all'occhio umano. Passo ora a mostrarvi cosa intendo. Sulla sinistra, vedete un video che riprende il polso di una persona mentre, sulla destra, vedete il video di un bambino che dorme. Se non vi avessi detto che si trattava di filmati, si potrebbe supporre che si tratti di normali fotografie perché, in entrambi i casi, questi video appaiono quasi completamente fermi. Ma in realtà ci sono tantissimi movimenti sottili in atto. Infatti, se toccassimo il polso sulla sinistra, potremmo avvertire il battito del polso e se prendessimo in braccio il bambino sulla destra, avvertiremmo il suo petto sollevarsi e abbassarsi nei movimenti respiratori. Questi movimenti sono molto significativi, ma sono troppo piccoli per essere visti, e per essere in grado di osservarli abbiamo bisogno del contatto diretto. Alcuni anni fa, i miei colleghi del MIT hanno creato il cosiddetto microscopio da movimento, vale a dire un software che individua i movimenti sottili nei video e li amplifica per fare in modo che siano visibili al nostro occhio. Adoperando questo software sul video di sinistra, saremo in grado di vedere il battito del polso e, se cominciamo a contare, potremmo anche ricavare la frequenza cardiaca della persona. Con lo stesso software, sul video di destra potremmo vedere ogni singolo respiro del bambino e potremmo usare questo mezzo per monitorare il respiro senza contatto. La grandezza di questa tecnologia sta nel fatto che questi fenomeni, normalmente percepiti con il contatto fisico, possono essere catturati in modo visivo e non invasivo. Un paio di anni fa, iniziai a lavorare con i creatori del software e decidemmo di approfondire un'idea folle. Pensavamo che andasse bene usare il software per visualizzare movimenti minuscoli come questi, è come un modo per ampliare il senso del tatto. Ma che accadrebbe se facessimo la stessa cosa con l'udito? Se potessimo usare dei video per catturare la vibrazione dei suoni, che altro non sono se non un diverso tipo di movimento, e trasformare tutto ciò che vediamo in una sorta di microfono? Certo, l'idea può suonare strana, perciò permettetemi di illustrarvela meglio. I microfoni tradizionali funzionano convertendo il movimento di un diaframma interno in un segnale elettrico e il diaframma è fatto in modo da muoversi appena colpito dal suono così che il suo movimento possa essere registrato e interpretato come audio. Il suono fa vibrare tutte le cose, ma quelle vibrazioni, di solito, sono troppo piccole e veloci da vedere. E se si potessero registrare con una video camera ad alta velocità e quindi usare il software per estrarre i movimenti impercettibili dal nostro video ad alta velocità, analizzando quei movimenti per capire da quali suoni abbiano avuto origine? Si potrebbero trasformare oggetti visibili in microfoni visivi a distanza. Noi abbiamo provato a farlo. In uno dei nostri esperimenti, abbiamo preso una pianta in vaso, che vedete sulla destra, e l'abbiamo ripresa ad alta velocità mentre un altoparlante emetteva questo suono. (Musica: "Mary aveva un agnellino") Ecco il video che abbiamo registrato e nonostante sia stato registrato a migliaia di frame al secondo, anche se guardate molto da vicino, non vedrete altro che delle foglie che se ne stanno lì senza far nulla perché il nostro suono muoveva le foglie di appena un micrometro, vale a dire la decimillesima parte di un centimetro, che va da un centesimo a un millesimo di un pixel in questa immagine. Potete strizzare gli occhi quanto volete, movimenti così piccoli sono impossibili da percepire. Ma ci sono cose che, anche se non percepibili visivamente, sono comunque significative a livello numerico, perché con gli algoritmi giusti, da un video apparentemente silenzioso come questo è possibile recuperare questo suono. (Musica: "Mary aveva un agnellino") (Applausi) Com'è possibile? Come ricavare tante informazioni da una quantità di moto così piccola? Ipotizziamo che quelle foglie si siano mosse di un solo micrometro e che la nostra immagine subisca uno spostamento di un singolo pixel. Potrà sembrare pochissimo, ma un unico frame può contenere centinaia di migliaia di pixel per cui combinando tutti i movimenti microscopici che vediamo in tutta l'immagine, improvvisamente migliaia di pixel cominciano a sommarsi per formare qualcosa di significativo. E vi dirò, la cosa ci esaltò non poco quando capimmo come funzionava. (Risate) Ma anche con l'algoritmo giusto, mancava ancora un pezzo piuttosto importante del puzzle. Molti sono i fattori che influiscono sul funzionamento di questa tecnica. Può dipendere dall'oggetto e dalla sua distanza; dalla telecamera usata e dal tipo di lente; dal modo in cui l'oggetto è illuminato e dal volume del suono. E anche disponendo dell'algoritmo giusto, dovevamo stare molto attenti nei nostri primi esperimenti perché se anche uno solo dei fattori era sbagliato, era assolutamente impossibile dire quale fosse. Avremmo solo ottenuto dei rumori. Molti dei nostri esperimenti iniziali erano più o meno così. Qui ci sono io e sulla sinistra in basso s'intravvede la telecamera ad alta velocità puntata su una busta di patatine e il tutto è illuminato da una lampada. Dovevamo stare molto attenti con questi primi esperimenti ed ecco come andava. (Video) Abe Davis: Tre, due, uno, via. Mari aveva un agnellino! Un agnellino! Un agnellino! (Risate) AD: questo esperimento è assolutamente ridicolo. (Risate) Insomma, io che urlo a una busta di patatine... (Risate) e la luce è praticamente sparata a giorno, la prima busta si sciolse letteralmente quando facemmo la prova. (Risate) Ma per quanto questo esperimento possa sembrare ridicolo, in realtà fu molto importante perché riuscimmo a recuperare questo suono. (Audio) Mary aveva un agnellino! Un agnellino! Un agnellino! (Applausi) AD: La cosa era piuttosto significativa: per la prima volta recuperavamo voce umana intelligibile dal video muto di un oggetto. L'esperimento ci fornì un punto di riferimento e, gradualmente, cominciammo a modificare il procedimento, usando oggetti diversi oppure spostandoli più lontano, diminuendo la luce o usando suoni più deboli. Analizzammo tutti gli esperimenti fino a che non ci furono chiari i limiti della nostra tecnica e, una volta compresi i limiti, riuscimmo a capire come superarli. Ciò condusse a esperimenti come questo, in cui io parlo di nuovo a una busta di patatine, ma questa volta la telecamera si trova a circa 4,5 metri di distanza, all'esterno, dietro a un vetro antirumore. Tutta la scena è illuminata da luce naturale diurna. Questo è il video che abbiamo ripreso. Questi sono i suoni udibili dall'interno, vicino alla busta di patatine. (Audio): "Mary aveva un agnellino con il manto bianco come la neve e ovunque Mary andava, l'agnello la seguiva." AD: E questo è quanto abbiamo recuperato dal video muto ripreso all'esterno, fuori della finestra. (Audio): "Mary aveva un agnellino con il manto bianco come la neve e ovunque Mary andava, l'agnello la seguiva." (Applauso) AD: Ma ci sono altri modi per superare i limiti. Questo è un esperimento più tranquillo in cui abbiamo filmato degli auricolari connessi a un computer portatile. Il nostro scopo era recuperare la musica suonata dal computer dal video muto che riprendeva i due auricolari di plastica e siamo stati così bravi che abbiamo potuto addirittura usare il risultato con Shazam. (Risate) (Musica: "Under Pressure" dei Queen) (Applauso) Possiamo influire sui risultati anche cambiando tipo di hardware. Gli esperimenti che vi ho mostrato finora sono stati fatti con una telecamera high-speed che può registrare video a una velocità 100 volte superiore a quella dei cellulari, ma abbiamo trovato il modo di usare questa tecnica con telecamere normali, approfittando di un effetto comunemente chiamato "rolling shutter". La maggior parte delle telecamere registrano le immagini una riga alla volta quindi, se un soggetto si muove durante la registrazione di un'immagine, c'è un leggero ritardo tra una riga e l'altra, questo fa sì che piccoli artefatti vengano codificati in ciascun frame di un video. Analizzando questi artefatti, riusciamo a recuperare suoni usando una versione modificata del nostro algoritmo. In questo esperimento abbiamo filmato un pacco di caramelle mentre da un altoparlante vicino arrivava la musica di prima "Mary aveva un agnellino", ma questa volta abbiamo usato una normale telecamera commerciale e in un attimo riprodurrò per voi il suono che abbiamo recuperato. Questa volta il suono sarà distorto, ma ascoltate e vedete se riuscite a riconoscere la musica. (Audio: "Mary aveva un agnellino") Il suono, certo, risulta distorto, ma è pur vero che la telecamera che abbiamo usato era una di quelle che si potevano comprare al negozio sotto casa. A questo punto, molte persone che vedono questo lavoro, pensano immediatamente ai servizi di vigilanza. E per la verità, è molto facile immaginare di usare questa tecnologia per spiare qualcuno. Ma ricordate che esiste già una tecnologia molto evoluta per i sistemi di sorveglianza. I laser, ad esempio, sono stati usati per decenni per intercettare oggetti a distanza. L'elemento veramente nuovo e diverso che si presenta qui è un modo nuovo di raffigurare le vibrazioni di un oggetto che ci dà una nuova lente attraverso la quale guardare il mondo. Possiamo usare questa lente non solo per imparare che forze come il suono fanno vibrare un oggetto, ma anche per imparare qualcosa sull'oggetto stesso. Ora faccio un passo indietro per riflettere su come ciò potrebbe cambiare il nostro modo di usare il video. Di solito usiamo il video per guardare degli oggetti, ma, come vi ho appena dimostrato, si può usare anche per ascoltare gli oggetti. Ma c'è un altro modo fondamentale per conoscere il mondo ed è l'interazione. Noi tiriamo, spingiamo e tocchiamo le cose. Le agitiamo e poi stiamo a guardare cosa succede. Ma questo il video non ci permette di farlo, almeno non in modo tradizionale. Per cui voglio ora mostrarvi un lavoro nuovo, basato su in'idea che ho avuto alcuni mesi fa ed è la prima volta che lo faccio vedere in pubblico. L'idea di fondo è quella di usare le vibrazioni in un video per riprendere gli oggetti in modo che sia possibile un'interazione con essi e vedere in che modo reagiscono a noi. Questo è un oggetto. In questo caso, si tratta di una figura di ferro filato con forma umana. Riprenderemo l'oggetto con una normale telecamera. Non c'è nulla di speciale in questa telecamera. Anzi, altre volte l'ho fatto con il mio telefono cellulare. Noi vogliamo vedere come l'oggetto vibra, e perché ciò accada, andremo a colpire leggermente la superficie sulla quale si trova mentre giriamo il video. E questo è tutto: cinque secondi di normale ripresa, mentre la superficie viene percossa e poi useremo le vibrazioni presenti nel video per conoscere le proprietà strutturali e materiali del nostro oggetto. Useremo quelle informazioni per creare qualcosa di nuovo e interattivo. Ed ecco la nostra creazione. All'apparenza è una normalissima immagine eppure non è un'immagine e neanche un video perché ora io posso prendere il mouse e iniziare a interagire con l'oggetto. Quella che vedete è una simulazione di come quest'oggetto risponderebbe a forze nuove e sconosciute, una creazione fatta grazie a un normale video di cinque secondi. (Applauso) Questa visione del mondo è davvero efficace perché ci consente di prevedere come gli oggetti risponderanno a situazioni nuove. Immaginate, ad esempio, di guardare un vecchio ponte chiedendovi cosa succederebbe e se quel ponte reggerebbe passandoci sopra con la macchina. Un interrogativo al quale certamente vorreste rispondere prima di cominciare ad attraversare il ponte. Naturalmente ci saranno dei limiti a questa tecnica, esattamente come per il microfono visivo, ma abbiamo sperimentato che funziona in molte situazioni in cui non ce lo aspetteremmo, specie se si fanno video più lunghi. Questo, ad esempio, è il video di un cespuglio girato fuori casa mia. Nulla è stato fatto a questo cespuglio se non girare un video di un minuto. Una sottile brezza ha causato vibrazioni sufficienti a farci imparare quanto era necessario per creare questa simulazione. (Applausi) Immaginate questa tecnologia nelle mani di un regista per controllare, ad esempio, la forza e la direzione del vento di una scena dopo che è stata girata. In questo caso, abbiamo puntato la telecamera verso una tenda e, vedete, non c'è alcun movimento in questo video. Ma girando per due minuti, le naturali correnti d'aria nella stanza hanno creato impercettibili movimenti e vibrazioni sufficienti da farci imparare quanto basta per creare questa simulazione. E paradossalmente, noi siamo abbastanza abituati a questo tipo di interattività quando si tratta di oggetti virtuali, video game e modelli tridimensionali, ma riuscire a carpire queste informazioni da oggetti reali nel mondo reale per mezzo di semplici video, è un fatto nuovo con potenzialità enormi. Ecco le persone straordinarie che hanno lavorato con me su questi progetti. (Applausi) Quello che vi ho mostrato oggi è solo il principio. Abbiamo solo cominciato a scalfire la superficie di ciò che è possibile fare con questo tipo di imaging che ci dà un nuovo modo di catturare il mondo circostante con una tecnologia comune, accessibile. Guardando al futuro, credo che sarà davvero interessante esplorare ciò che questa tecnologia saprà dirci del mondo. Grazie. (Applauso)