Así logra Google que su voz artificial sea cada vez menos robótica

La multinacional ha presentado los Pixel Buds, unos auriculares que prometen traducir simultáneamente las conversaciones a 40 idiomas
La IA que está detrás del proceso se llama WaveNet y funciona a partir de redes neuronales y de la escucha de miles de voces humanas

5 de octubre de 2017 20:50h

Google presentó este miércoles sus productos para la nueva temporada. Lo hizo desde Mountain Views, los cuarteles de la compañía en San Francisco (EEUU), en un evento menos pomposo y ostensiblemente más corto que el que hace un mes celebró Apple en el Steve Jobs Pavilion. Política de empresa, se supone.

Entre el vaivén de presentaciones, los teléfonos Pixel 2 y Pixel XL se alzaron entre la multitud de gadgets que alumbraron los directivos de Google comandados por Sundar Pichai. Pero sin duda, una de las cosas que más llamó la atención fue cuando Juston Payne, jefe de producto de la empresa, salió al escenario a presentar los Pixel Buds. Son unos auriculares inalámbricos que traducen simultáneamente 40 lenguajes en tiempo real y que costarán 159 dólares (unos 135 euros).

Lo probaron en directo: los auriculares tradujeron el idioma sueco al inglés de forma perfecta en mitad del silencio del pabellón. Los receptores funcionan gracias a la inteligencia artificial, que convierte el sonido a texto, traduciéndolo, y volviéndolo a convertir en sonido de nuevo. Todo esto en cuestión de segundos. Ni que decir tiene que se sincronizan con el teléfono del usuario y envían la información (el audio) a través de Internet.

Lo más interesante de todo es comprobar los esfuerzos que ha hecho Google para que la voz que llegue no resulte robótica, como de máquina, sino lo más humana posible. Y aquí entran en juego DeepMind, la inteligencia artificial y WaveNet, el software sin el que esto no sería posible. O sí, pero hablaría como KITT, la precaria aunque eficiente IA de El coche fantástico.

Entrenando duro

WaveNet fue presentado en septiembre del año pasado por DeepMind, una de las múltiples compañías que integran Alphabet y de la que también forma parte Google. La startup que el gigante multinacional compró en el 2014 por 300 millones de dólares se dedica a la investigación en inteligencia artificial con redes neuronales.

WaveNet supuso un antes y un después porque era la primera vez que un programa de voz utilizaba la inteligencia artificial para imitar la voz humana. Hasta entonces, los programas se habían basado en las técnicas TTS (Text to speech - texto a voz), donde un software lee una base de datos con palabras o frases y, a partir de ahí, monta una frase o una respuesta en función de lo que le pidamos.

Según el blog oficial de DeepMind, esta técnica presenta un gran problema porque la voz, una vez grabada, no puede ser modificada. Por tanto, no se le puede añadir énfasis, ni tristeza ni alegría salvo que se grabe una nueva base de datos con esos matices.

WaveNet vino a solucionar esto gracias a la utilización de redes neuronales convolucionales. Fue en varios pasos como se muestra en la imagen inferior: los inputs son fragmentos de voz humanos que sirven para entrenar a la IA y que así aprenda múltiples aspectos (las capas o layers), como la entonación, el acento, la emoción, la sorpresa, la decepción o, en líneas generales, los cientos de matices que se pueden dar en la voz humana.

WaveNet fue entrenada escuchando voces humanas. Primero, determinando la naturaleza de esa voz, qué tono seguía a cual y sus matices (ironía, sarcasmo, inocencia, etcétera). Después, el software generaba una voz propia a partir de lo que había aprendido escuchando esa voz, lo que implicaba diferentes entonaciones, acentos, formas de pronunciar y demás características únicas. Ahora, cojan este proceso e imaginen a WaveNet trabajando sobre 16.000 palabras por segundo y generando una nueva voz (o output) cada vez.

Así era WaveNet hace un año:

Una voz casi humana

Uno de los problemas de esta versión primigenia es que requería muchísima potencia y no era práctica para su uso más allá de entornos experimentales. “Por aquel entonces, el modelo era un prototipo de investigación y era computacionalmente demasiado intensivo como para funcionar en productos para el consumidor”, explica DeepMind.

Desde entonces, la IA ha estado aprendiendo 12 meses. Escuchando y procesando sin parar voces humanas, mejorando su precisión y también su rapidez. Seguido al anuncio de los Pixel Buds el pasado miércoles, Google confirmó que WaveNet será implantado en el asistente de voz de todos los teléfonos Android. Un paso natural para funcionar con el nuevo gadget.

Por eso ahora sí está preparado para funcionar de cara al público y es 1.000 veces más rápido que la versión anterior. “Ahora solo requiere 50 milisegundos para crear un segundo de discurso”, dicen. “En realidad, no es que sea solamente más rápido, sino que ahora cuenta con alta-fidelidad, capaz de crear voces desde 24.000 muestras en un segundo”, continúa DeepMind.

Así es WaveNet ahora:

La IA obtiene una puntuación de 4,347 puntos en la escala MOS (Mean Opinion Score), una clasificación utilizada para medir la calidad de un sistema. Para hacernos una idea, la voz de los hombres y mujeres tiene una nota de 4,667 puntos y el primer prototipo de WaveNet sacaba un 4,21 (lo que ya era bastante humano).

Esto es solo el principio según DeepMind, pero ¿acaso alguien duda ya de que el sistema que usaba Joaquin Phoenix en Her y que tenía la voz de Scarlett Johansson cada vez está más cerca?

Etiquetas