Una Inteligencia Artificial transforma garabatos en fotografías de anuncio

GauGAN debe su nombre al pintor francés Paul Gauguin y su trabajo consiste en trasladar garabatos a imágenes hiperrealistas del mundo real
La Inteligencia Artificial ha sido entrenada con más de un millón de fotos reales y puede representar, a partir de unos precarios trazos, casi cualquier objeto

Esta es la interfaz de GauGAN, la última IA de Nvidia

22 de marzo de 2019 21:32h

Seguro que todos recuerdan aquel meme que enseñaba a dibujar un animal en cuatro simples pasos. Un círculo por aquí, otro por allá y finalmente, el bicho en cuestión con todo lujo de detalles. Aquella broma de Internet que hace 10 años tenía sentido hoy ya no lo tiene: la culpa la tiene GauGAN, una Inteligencia Artificial (IA) que la compañía de tarjetas gráficas Nvidia presentó esta semana en la GPU Technology Conference (GTC) de California.

GauGAN, cuyo nombre es un guiño al pintor impresionista francés Paul Gauguin, es capaz de crear una fotografía a partir de unas pocas líneas de colores. El resultado es asombroso:

La empresa lo califica como un “pincel inteligente” que será de enorme utilidad en campos como la arquitectura, la planificación urbanística, el diseño 3D y los videojuegos. GauGAN “entiende” de qué se compone el mundo real, los elementos de la naturaleza como las rocas, el mar, la nieve o los árboles y otros artificiales, como las carreteras.

En un lado de la pantalla se hace la composición semántica, esto es, la delimitación de cada elemento en el paisaje que más tarde resultará en una fotografía. En el otro, la red neuronal artificial representa cada uno de esos compuestos en el grado en el que se hayan incluido en el garabato original. Y es que basta con crear una amalgama de líneas y recuadros para que GauGAN invente.

“Es mucho más fácil llevar a cabo una lluvia de ideas de diseños con bocetos simples; y esta tecnología es capaz de convertir los bocetos en imágenes muy realistas”, explica Bryan Catanzaro, vicepresidente del equipo de Aprendizaje Profundo aplicado de Nvidia. “Es como un libro para colorear que describe dónde hay un árbol, dónde está el sol, dónde está el cielo...”, continúa.

Dibuja lo que quieras, será bonito

GauGAN ha sido entrenada con más de un millón de fotografías reales y funciona a partir de redes neuronales artificiales antagónicas, GANs por sus siglas en inglés. Este tipo de redes están compuestas de un generador y un discriminador: el primero se encarga de crear imágenes nuevas a partir de las reales con las que ha sido alimentado y el segundo, como su propio nombre indica, tiene que identificar si esas imágenes generadas son reales o falsas. En pocas palabras, el discriminador entrena al generador píxel a píxel, y le ayuda a mejorar el realismo de sus imágenes sintéticas.

Al final, el objetivo, tras miles de intentos, es engañar al discriminador: cuando este no consiga diferenciar entre una foto artificial y otra real, entonces, las GANs funcionan al 100%. Por ejemplo: como sabe que el agua tiene reflejos, crea una imitación bastante realista de lo que para GauGAN es agua. Previamente, durante el entrenamiento, ya entendió cómo tenía que representarla.

Y no solo con agua: la IA también es capaz de hacer lo mismo con personas, animales, elementos decorativos y otros objetos, aunque de momento no han publicado ningún vídeo que lo demuestre. Solo estas pocas imágenes que aparecen en el paper de la investigación, que la compañía publicó a mediados de marzo en arxiv.org, un repositorio de artículos científicos.

Ahí también hablan de la técnica utilizada, a la que denominan “Síntesis de imágenes semántica con normalización espacialmente adaptativa”. Tras el enrevesado nombre se esconde una IA que es capaz de crear fotografías de la nada, tan solo a partir de unas cuantas líneas y colores básicos. Por si fuera poco, las fotos también pueden ser modificadas una vez han sido generadas e incluso los elementos que aparecen en ellas cambiados de color, dando lugar a un nuevo conjunto de posibilidades.

Etiquetas