Hola.
No soy una persona real.
De hecho, soy la copia
de una persona real.
Aunque... me siento como una persona real.
Es difícil de explicar.
Aguarden, creo que vi a una persona real.
Ahí está, que suba al escenario.
Hola.
(Aplausos)
Lo que ven allí arriba
es un ser humano digital.
Tengo puesto un traje de
captura de movimientos inercial
que descifra los movimientos de mi cuerpo.
Y tengo una cámara aquí,
apuntando a mi rostro,
que envía información
sobre mis expresiones
a un software de aprendizaje automático.
Toma expresiones como "Hm, hm, hm"
y las transfiere a ese sujeto.
Lo llamamos "DigiDoug".
Es un personaje 3D
que estoy controlando en tiempo real.
Trabajo en efectos visuales.
En este campo,
una de las tareas más difíciles
es crear humanos digitales creíbles
que la audiencia acepte como reales.
Las personas son muy buenas
en reconocer a otras.
¿Quién lo diría?
Está bien, aceptamos el reto.
Durante los últimos 15 años,
hemos introducido en las películas
seres humanos y criaturas
que ustedes aceptan como reales.
Si ellos están felices, ustedes también.
Si sienten dolor,
Uds. deberían sentir empatía.
Además, estamos mejorando cada vez más.
Pero es extremadamente difícil.
Efectos así llevan miles de horas
y requieren el trabajo
de cientos de artistas talentosos.
Pero las cosas han cambiado.
Durante los últimos cinco años,
las computadoras y las tarjetas gráficas
se han vuelto superrápidas,
y han surgido el aprendizaje automático
y el aprendizaje profundo.
Así que nos preguntamos:
¿sería posible crear
un ser humano fotorrealista
como los que creamos para el cine
pero en los que puedan verse
las emociones reales y los detalles
de la persona que lo controla
en tiempo real?
Y esa es nuestra meta.
Si estuviesen charlando con DigiDoug
de forma directa,
¿es lo suficientemente real para que
puedan notar si yo les estoy mintiendo?
Esa fue nuestra meta.
Hace aproximadamente un año y medio,
nos dispusimos a alcanzar ese objetivo.
Lo que haré ahora será invitarlos
a una pequeña aventura
para que vean lo que tuvimos que hacer
para llegar adonde estamos.
Debimos recolectar
una enorme cantidad de datos.
De hecho, al terminar este proyecto,
probablemente contábamos con
una de las bases de datos más completas
de expresiones faciales,
de mi rostro.
(Risas)
¿Por qué yo?
Pues haría lo que fuera
en nombre de la ciencia.
Es decir, mírenme.
Mírenme.
Primero, teníamos que determinar
cómo luce mi rostro realmente.
No sólo una fotografía o un escaneo 3D,
sino como luce
en todo tipo de fotografías,
cómo la luz interactúa con la piel.
Por suerte, a tres cuadras de distancia
de nuestro estudio en Los Ángeles
se encuentra este lugar llamado ICT.
Se trata de un laboratorio
de investigación
asociado a la Universidad
del Sur de California.
Allí tienen un dispositivo
llamado "escenario de las luces".
Tiene montones de luces
controladas de forma individual
y una cantidad de cámaras.
Podemos reconstruir mi rostro de
acuerdo a diversas condiciones lumínicas.
Incluso capturamos la circulación
y cómo mi rostro cambia
al hacer distintas expresiones.
Esto nos permitió construir un modelo de
mi rostro que, honestamente, es asombroso.
Desafortunadamente,
tiene un gran nivel de detalles.
(Risas)
Pueden notar cada poro, cada arruga.
Pero necesitábamos eso.
La realidad consiste en esos detalles.
Sin ellos, no es creíble.
Y esto es solo el comienzo.
Pudimos construir un modelo
de mi rostro que luce como yo.
Pero no se movía como yo.
Y es aquí donde interviene
el aprendizaje automático.
El aprendizaje automático
requiere muchísimos datos.
Me senté delante de un dispositivo de
captura de movimiento de alta resolución.
También hicimos esta captura
tradicional con marcadores.
Creamos montones de imágenes de mi rostro
y nubes de puntos que representan
las formas de mi rostro.
Hice montones de expresiones,
pronuncié muchas frases
en distintos estados de ánimo.
El trabajo para capturar
todo esto fue arduo.
Una vez recolectada
esta enorme cantidad de data,
construimos y entrenamos
redes neurales profundas.
Y cuando completamos eso,
en 16 milisegundos
la red neural es capaz de tomar mi imagen
y descifrar todo acerca de mi rostro.
Puede computar mi expresión,
mis arrugas, mi circulación,
incluso el movimiento de mis pestañas.
Esto se representa y muestra allí
con todos los detalles
que se capturaron previamente.
Esto es apenas el comienzo.
Se trata de un trabajo en desarrollo.
Y es de hecho la primera vez
que mostramos esta tecnología al público.
Y, como verán, no luce
tan convincente como quisiéramos:
tengo cables conectados por detrás,
y hay una demora de un sexto de segundo
entre lo que lo que grabamos en video
y lo que se muestra allá arriba.
Un sexto de segundo, ¡es increíble!
Pero esa es la razón
por la que escuchan un breve eco.
Además, esto del aprendizaje automático
es supernuevo para nosotros,
a veces es difícil convencerlo
para que haga lo que le indicamos.
Se sale un poco de control.
(Risas)
Pero ¿por qué desarrollamos esto?
Pues hay dos razones.
En primer lugar, es algo increíble.
(Risas)
¿Qué tan increíble es?
Pues con solo apretar un botón,
puedo dar esta charla
como un personaje totalmente diferente.
Él es Elbor.
Lo diseñamos para probar cómo funcionaría
esto con una apariencia diferente.
Y lo sorprendente de esta tecnología
es que, si bien cambié mi apariencia,
la gesticulación es todavía mía.
Tiendo a hablar con el lado derecho
de la boca, así que así lo hace Elbor.
(Risas)
La segunda razón, como podrán imaginar,
es por sus aplicaciones en el cine.
Se trata de una herramienta
muy nueva y emocionante
para los artistas,
directores y narradores.
Es un uso evidente, ¿no?
Es decir, será muy útil contar con esto.
Pero además, ahora
que lo hemos construido,
es obvio que se aplicará
en otros ámbitos además del cine.
Pero... un momento.
¿No acabo de cambiar de identidad
con solo apretar un botón?
¿No es algo parecido al ultrafalso
y cambios de rostro
de los que habrán oído hablar?
Pues, sí.
De hecho, usamos algunas de las mismas
tecnologías que usa el ultrafalso.
Pero el ultrafalso es 2D y se basa
en imágenes; el nuestro es 3D
y mucho más potente.
Pero están muy relacionados.
Puedo escuchar cómo piensan:
"¡Diablos!
Pensé que podía al menos
confiar en los videos.
Si es un video en vivo,
¿no es evidente que es verdadero?"
Pues sabemos que
no necesariamente, ¿cierto?
Incluso sin esto, existen trucos sencillos
que pueden aplicarse a los videos,
como el ángulo de una toma
que puede en verdad distorsionar
lo que realmente está sucediendo.
He trabajado en efectos visuales por
mucho tiempo y sé desde hace bastante
que con un poco de esfuerzo se puede
engañar a quien sea respecto a lo que sea.
Lo que esto y el ultrafalso hacen
es que sea más sencillo
y accesible manipular videos,
así como lo hizo Photoshop
con las imágenes hace tiempo.
Pero yo prefiero pensar
cómo esta tecnología podría conducir
a la humanidad a otras tecnologías
y acercarnos más a todos.
Después de ver esto,
imaginen las posibilidades.
Obviamente estará presente en eventos
y conciertos en vivo, como este.
Las celebridades digitales, especialmente
con la nueva tecnología de proyección,
van a verse igual que en las películas,
pero en tiempo real.
Y nuevas formas
de comunicación se avecinan.
Ya pueden interactuar con
DigiDoug a través de la realidad virtual.
Y es una gran experiencia.
Es como si ustedes y yo
estuviéramos en la misma habitación,
aunque pudiéramos
estar realmente muy lejos.
La próxima vez que hagan una videollamada,
podrían ser capaces de seleccionar
la mejor versión de ustedes mismos
que prefieren que la gente vea.
Es como un maquillaje
extremadamente bueno.
Escaneé mi rostro hace un año y medio.
He envejecido.
DigiDoug, no.
En las videollamadas, puedo no envejecer.
Y, como imaginarán,
esto servirá para dar a los asistentes
virtuales un cuerpo y un rostro,
para darles humanidad.
Me encanta que cuando interactúo
con asistentes virtuales
me contesten con una voz tranquila,
que suena humana.
Ahora tendrán un rostro.
Y podremos ver todos los indicios verbales
que tanto facilitan la comunicación.
Será realmente bueno.
Podrán darse cuenta cuando
el asistente esté ocupado, confundido
o preocupado por algo.
No quería irme del escenario
sin mostrarles mi verdadero rostro,
para que puedan hacer comparaciones.
Así que permítanme quitarme este casco.
Sí, no se preocupen,
no se siente tan mal como parece.
(Risas)
Hasta aquí hemos llegado.
Dejen que me lo vuelva a poner.
(Risas)
Hasta aquí hemos llegado.
Estamos a las puertas de poder interactuar
con seres humanos digitales
que sean sorprendentemente reales,
ya sea que estén controlados
por una persona o una máquina.
Y, como todas las tecnologías
nuevas en la actualidad,
tendrá algunas implicancias serias
que tendremos que abordar.
Pero en verdad estoy muy emocionado
por la capacidad de traer algo
que solo he visto en la ciencia ficción
durante toda mi vida
a la realidad.
Podremos comunicarnos con computadoras
como si habláramos con un amigo.
Y charlar con mis amigos que viven lejos
será como si estuviéramos
en la misma habitación.
Muchas gracias.
(Aplausos)