Google está aprendiendo a imitarte: el traductor simultáneo que copia la cadencia y el tono de voz
Se llama Translatotron y es el último invento presentado por Google para hacernos la vida más fácil. El traductor es único en el mundo porque hace fácil lo difícil y consigue no ya solo traducir, sino imitar bastante fielmente la cadencia, las entonaciones y los sonidos del emisor original. Para que copie fielmente la voz del que habla aún queda tiempo, pero la multinacional confía en que antes o después lo conseguirán.
Translatotron añade una nueva capa en el mundo de los traductores inteligentes, que hasta ahora se basaba en tres premisas: ir de texto a voz, de voz a texto o de texto a texto. La herramienta de Google puede traducir de voz a voz en cuestión de segundos y para demostrarlo, la compañía ha presentado varios ejemplos que pueden escucharse aquí. De momento es solo una “prueba de concepto” con tintes de convertirse en real de aquí a poco tiempo.
Los resultados, que aún no son perfectos, no suenan del todo mal. Habrá que esperar todavía a ver cómo se desenvuelve en otros idiomas, ya que hasta ahora Google solo lo ha probado traduciendo frases del castellano al inglés. Es significativo escuchar cómo el programa respeta las pausas, las entonaciones y los acentos del emisor, que se han exagerado bastante en las pruebas.
Tu voz aún no es de Google (pero lo será)
Aunque Translatotron no es el primer traductor que traduce de forma simultánea la voz, sí es el primero que imita la entonación del que habla. Existe un amplio mercado de auriculares inteligentes (como los Pilot, los Google Pixel Buds, MyManu CLICK...), altavoces (Fosa Traductor, Travis, Vbestlife...) e incluso traductores de voz a voz (el mismo Google Translate, Microsoft Translator, iTranslate) que ya traducían de forma simultánea de un idioma a otro desde hace años.
Google explica que Translatotron se basa en un sistema de extremo a extremo, alejado de los tradicionales modelos de cascada. Esto quiere decir que el traductor no tiene que pasar previamente lo que escucha a texto, traducirlo, y después convertirlo a audio, como sí ocurre en los sistemas en cascada (de ahí el nombre). Durante este proceso, además, se pierde calidad en el sonido y la mayoría de características de la voz original, problemas que el modelo de extremo a extremo solventa.
La herramienta coge los espectogramas (el espectro acústico de una señal) de origen y crea unos nuevos con el contenido traducido gracias a una red neuronal entrenada para ello. A la vez, el codificador guarda las características del tono y la cadencia del emisor. Las redes neuronales también se encargan de entrenar al sistema para predecir, con el uso, tanto las transcripciones de origen como las de destino.
De esta forma funciona más rápido, aprende por sí mismo y es capaz de omitir lo que no considere importante (como las interjecciones o los pronombres personales implícitos del castellano, el “Nosotros” de la oración “Estudiamos mucho” y que en el inglés, por ejemplo, siempre hay que incluir). Aún no es capaz de copiar la voz de una persona, algo para lo que Google pide tiempo.