Máquina 10 - Humanos 1: la Inteligencia Artificial ya nos gana al videojuego de estrategia 'Starcraft'

La última máquina creada por Google DeepMind ha ganado fácil a dos profesionales del popular videojuego de estrategia Starcraft
Ha sido entrenada con más de 65.000 repeticiones de humanos, pero solo al principio: después aprende sola
“La precisión de sus acciones es extrema”, explica el director del proyecto, el catalán Oriol Vinyals

Un momento de la partida entre TLO y AlphaStar YOUTUBE

25 de enero de 2019 21:41 h

Solo pudimos ver unas pocas partidas jugadas contra dos jugadores profesionales, pero quedó claro que la máquina es implacable: 10-1 contra los humanos. La última Inteligencia Artificial (IA) creada por Google DeepMind ha ganado fácil a dos profesionales del popular videojuego de estrategia Starcraft II.

Starcraft II, lanzado al mercado en 2010, aúna varios conceptos muy interesantes para los investigadores que se dedican a la IA. Aunque con varias modalidades, la más jugada es el versus, que enfrenta a un jugador contra otro. El jueves, DeepMind, la empresa comprada por Google hace tres años y dedicada a la investigación en IA, presentó AlphaStar.

A diferencia del Go, el ajedrez y el shogi (el ajedrez japonés), en los que continuamente vemos los movimientos del rival, el póker y Starcraft son juegos de información imperfecta. Decimos que es así porque en el caso del juego de cartas no sabemos qué mano llevan nuestros rivales hasta que las descubren y en Starcraft, el mapa está oculto en su totalidad excepto en la zona donde el jugador se encuentra. Por eso necesitamos llevar unidades hasta la base del enemigo, para saber qué hace, cómo construye y qué estrategia está llevando a cabo.

El juego es llamativo para los investigadores porque requiere al jugador una atención constante: no solo a nivel técnico, sino también a nivel espacial y estratégico. Gana el que aniquile antes al rival, y para eso es necesario extraer recursos (gas y minerales), construir expansiones (más bases en puntos de extracción cercanos) y unidades. Dominar el espacio es vital para tener éxito, tanto como proteger los enclaves en los que nos asentamos. Hay tres razas: Protoss, Terran y Zerg, pero AlphaStar solo sabe jugar con la primera.

“Intenté, simplemente, sobrevivir”

Darío “TLO” Wunsch y Grzegorz “MaNa” Komincz fueron los dos jugadores elegidos por DeepMind para intentar batir al bot. Fueron cinco partidas contra cada uno, con una diferencia de 14 días entre las que jugó TLO y las de MaNa. En esas dos semanas AlphaStar entrenó más, ya que el segundo jugador no solo es profesional del juego, sino que también domina la raza Protoss. TLO, en cambio, suele usar a los Zerg.

Los encuentros, llevados a cabo en secreto en las oficinas de la compañía en Londres estos últimos meses, fueron un desastre para los humanos. Hay un momento desolador durante la transmisión, después de que MaNa haya perdido su tercera partida seguida y le pregunten los presentadores qué pasa en la siguiente: “En el juego cuatro intenté, simplemente, sobrevivir”, dice lacónico.

Todo lo que sabe AlphaStar lo ha aprendido viendo repeticiones de jugadores humanos. Cuando el sabadellense Oriol Vinyals, director del proyecto, anunció en la BlizzCon de 2016 que comenzarían a trabajar con Blizzard (creadores de Starcraft II) en el desarrollo de una IA maestra, también dijo que sería entrenada con 65.000 partidas de profesionales. “Es lo que llamamos aprendizaje imitativo: cogemos muchas repeticiones de profesionales y procuramos entender las básicas de Starcraft, imitándoles. Intentamos que la IA se desenvuelva de la manera en lo que lo haría un humano”, explicaba este jueves Vinyals.

Para preparar los enfrentamientos contra los pros, AlphaStar ha jugado contra sí misma durante una semana en lo que los investigadores han llamado “AlphaStar League” (Liga AlphaStar). El bot jugaba contra sus propias variantes en tres fases hasta que solo quedaba el mejor. Según Vinyals, la máquina más fuerte acumula el equivalente a 200 años jugando a Starcraft.

Solo el AlphaStar inicial es el alimentado por las repeticiones de los humanos. “Después, AlphaStar jugaba contra iteracciones de sí mismo para intentar ganar al resto, que usaban diferentes estrategias”, explicaba en el streaming David Silver, uno de los ingenieros. Cada una de esas iteracciones tenía unos objetivos, como jugar haciendo rush (atacando al principio de la partida), usando técnicas de camuflaje o construyendo más unas unidades que otras. “Al final de la AlphaStar League, seleccionamos el bot menos explotable, que es el que ha jugado contra los humanos”, continuaba Silver.

Menos acciones pero más precisas e inteligentes

“Incluso aunque no estén incentivados, hace cosas que no entendemos. Lo mismo algún pro sí que lo entiende”, decía Vinyals de AlphaStar. La máquina no juega perfecto, pero sí comete menos fallos que los humanos. A veces usa estrategias propias y a veces nos copia a nosotros, pero lo relevante es que piensa y entiende que necesita explotar las debilidades de los chicos para ganarles.

La máquina ni se cansa ni sufre al perder unidades. Tampoco tiene bajones anímicos por haber cometido errores. Y lo mejor de todo: no necesita estar permanentemente mirando a la pantalla. Esto es primordial, ya que el pro tiene que mover el ratón para seleccionar la parte del mapa en la que se encuentra la acción pero AlphaStar no, porque sabe donde están sus unidades en todo momento y puede actuar a la vez en varios sitios.

Los profesionales utilizan el concepto Actions Per Minute (APM - Acciones Por Minuto) para evaluar la habilidad y la técnica. Cuando hablan, llaman “micrear” a mover las unidades rápido, sacarlas y meterlas en mitad de una batalla y esconder a las que tienen menos vida y adelantar a las sanas. Así, cuantas más APM, mejores (teóricamente) son. TLO hizo una media de 678 y MaNa de 390, mientras que el bot tuvo 277. “La manera en la que AlphaStar micrea es increíble”, decía MaNa tras la cuarta partida. “Había ataques en el norte, en el este, en el oeste... no puedo ver todo el mapa”, gruñía, impotente, el humano.

Vinyals se reía. Le contestó que “la precisión de sus acciones [del bot] es extrema”. Y es cierto: aunque AlphaStar haga menos acciones por minuto, es mejor tomando decisiones y evaluando el campo de batalla. “Le encanta atacar”, decía entre risas TLO después de perder su primer partida.

Salvando nuestro honor... con truco

El streaming, que duró casi dos horas y media, guardaba una sorpresa final: una partida en directo entre MaNa y AlphaStar. Pero nosotros jugamos con truco: DeepMind programó al bot para que jugase manejando la cámara, como si fuera un humano que tuviera que clickear allí donde se encontrase la acción. El pro le ganó a la máquina y salvó nuestra honrilla, 10-1, pero tampoco fue una victoria holgada.

Todo parece indicar que con unos días más de entrenamiento AlphaStar sería igualmente capaz de ganarnos, aun a pesar de tener que acostumbrarse a usar la cámara. Aprende solo, así que es fácil que pueda mejorarse a sí mismo. Esta es la diferencia principal entre la IA en nivel leyenda del FIFA (o cualquier otro juego a dificultad máxima) y el bot de Google.

DeepMind marcó la fecha del jueves 24 de enero en rojo. Como ya lo hizo antes cuando AlphaGo ganó a Lee Se-Dol, el mejor jugador de Go de la última década. O en diciembre al presentar a AlphaZero, una máquina que usando un solo algoritmo venció a su hermana del Go y a las mejores IAs jugando al ajedrez y al shogi. Lejos queda ya aquel día de mayo de 1997 cuando Deep Blue ganó a Garry Kasparov. Aunque la rebelión de las máquinas está un poco más cerca no se alarmen todavía: no podrían hacer otra cosa que no sea jugar, al menos de momento. Ni siquiera aprobar un examen de segundo de la ESO.

Etiquetas