Un algoritmo devuelve la vida a Einstein: una fotografía basta para animar retratos y pinturas

La última creación del departamento de Inteligencia Artificial de Samsung son los “bustos parlantes”, vídeos de alguien generados a partir de una fotografía
Da igual que la persona esté viva o muerta: una sola imagen basta para animar su cara y hacer que parezca real

Albert Einstein, devuelto a la "vida" YOUTUBE

23 de mayo de 2019 21:56h

Hay dos precedentes en la (corta) historia de las redes neuronales aplicadas al tratamiento de imágenes. Uno hay que buscarlo en diciembre del 2017, cuando un usuario de Reddit subió varios vídeos porno en los que cambiaba la cara de las actrices y las sustituía por las de celebrities de Hollywood en lo que hoy todos conocemos como deepfakes. El otro acaba de ocurrir y es obra del departamento de Inteligencia Artificial de Samsung en Moscú: con una fotografía, son capaces de animar la cara de una persona y mostrarla en un vídeo poniendo cualquier expresión.

El algoritmo puede darle vida a Marilyn Monroe, a Dostoievski, a Dalí, a Einstein o a cualquiera que se haya hecho alguna vez una foto. Los “bustos parlantes”, como los investigadores llaman a las creaciones, también pueden ser generados a partir de pinturas, de tal forma que parezca que la Mona Lisa nos está hablando o que La mujer desconocida de Ivan Kramskoi se presente y explique quién es.

A diferencia de lo que pasa con los deepfakes, que necesitan de un gran paquete de datos para obtener resultados dignos, el algoritmo de los investigadores rusos solo necesita una fotografía. La técnica no es nueva, pero sí es mejor que lo que había hasta ahora. Además, añade un nuevo horizonte que es el de “resucitar” a muertos o animar pinturas. Para hacer un deepfake se necesitan, como mínimo, de uno a dos minutos de vídeo en los que aparezca el rostro de alguien poniendo varias expresiones, algo que solventa de un plumazo el nuevo modelo.

Estos últimos años se han hecho famosos varios montajes, como el de Barack Obama diciendo que “el Presidente Trump es un total y completo estúpido”, los de Nicolas Cage protagonizando cientos de películas y, más recientemente el de Jennifer Lawrence con la cara de Steve Buscemi en la ceremonia de los Globos de Oro. La técnica desarrollada por Samsung va un paso más allá y muestra cómo, a partir de una fotografía, es posible generar un vídeo en el que aparezca la persona girando la cabeza, abriendo la boca, sonriendo, hablando o guiñando un ojo.

Así funcionan los “bustos parlantes”

La compañía explica que el modelo crea tres redes neuronales durante el proceso de aprendizaje. La primera se encarga de unir los marcos relacionados a los puntos de referencia de la cara con los vectores. Después, con esos datos, el sistema crea una red de generadores que mapea los puntos de referencia y los traslada a vídeos. Finalmente, la red discriminadora evalúa el realismo y la pose de los marcos generados: si no consigue distinguir los reales de los falsos, tenemos bustos parlantes.

En pocas palabras, la red escanea los puntos de referencia de la cara y los contrapone con las imágenes (miles) con las que ha sido entrenada. Así, la red neuronal puede predecir de alguna forma cómo serán el resto de expresiones o movimientos de la cabeza que tiene que generar a partir de la fotografía original.

Para fabricar el algoritmo han utilizando un tipo de redes neuronales conocidas como GANs (Generative Adversarial Network). Se llaman redes neuronales antagónicas porque compiten entre ellas y están compuestas de dos partes, un generador y un discriminador. El primero se encarga de crear imágenes nuevas a partir de las reales con las que ha sido alimentado, mientras que el discriminador, como su propio nombre indica, tiene que identificar si esas imágenes generadas son reales o falsas. El objetivo siempre es engañar al discriminador, que en este caso tiene que estar seguro al 90% de que la cara que ve es real para que el proceso continúe.

Los investigadores dicen que la técnica está aún en una fase temprana y confían en desarrollarla a medida que el algoritmo se alimente de más imágenes. Esto abre la puerta a que cualquiera pueda generar vídeos de nosotros a partir, por ejemplo, de una foto de Facebook. También da alas a la proliferación de fake news y a la desinformación. Los “bustos parlantes”, como Samsung llama a las creaciones, pueden ser peligrosos en el futuro, pero ¿quién no ha fantaseado alguna vez con la idea de que la Mona Lisa le estuviera mirando a él y no a otro?

Etiquetas