Un futuro en el que la gente hable a su reloj

El reconocimiento de voz tiene un hueco privilegiado entre las nuevas interfaces de comunicación con las máquinas que se están impulsando en estos momentos. Hablamos con Vlad Sejnoha, el CTO de Nuance en sus oficinas en Boston
En la compañía que está detrás de Siri ven un futuro en el que se le hable a un reloj o a un televisor con normalidad, pero no coinciden con la versión de 'Her', la película de Spike Jonze
La interfaz de voz podría constituir un medio para paliar el llamado analfabetismo digital

Cada año el margen de error de los sistemas de reconocimiento de voz se reduce un 20%

Madrid — 11 de junio de 2014 20:42 h

Las interfaces para comunicarse con las máquinas se han transformado radicalmente desde los comienzos de la electrónica. Las tarjetas perforadas permitieron enviar información a los primeros computadores, de la misma forma que el teclado y el ratón han constituido la forma principal de comunicarse con los ordenadores personales hasta hoy. Con la llegada de los smartphones y tabletas ha triunfado la interfaz táctil, pero la llegada de nuevos dispositivos –entre los que están los wearable, el coche conectado y la amalgama de internet de las cosas– está impulsando otras formas de comunicarse con las máquinas.

El reconocimiento de voz es una de las interfaces que más posibilidades ofrece para complementar la comunicación con los nuevos dispositivos. El reto en este terreno es que las máquinas comprendan lo que les dice una persona y procesen las órdenes correspondientes. A medida que pasa el tiempo surgen aplicaciones más ambiciosas para esta tecnología.

En una visita al centro de innovación en Boston de Nuance, la compañía que está detrás del asistente personal de iOS, Siri, así como del que usan los Samsung Galaxy, el S Voice, sus responsables afirman que el margen de error del reconocimiento de voz se reduce en un 20% cada año. El aumento de la potencia de computación, una mayor cantidad de información y la programación de nuevos algoritmos son las tres principales razones de esta mejora anual.

Vlad Sejnoha, chief technology officer (CTO) de Nuance, afirma que es conveniente que un sistema de reconocimiento de voz se parezca a un humano porque estamos acostumbrados a este tipo de trato. Pero pensar que el software nos entenderá igual que otra persona supone una frustración asegurada. Citando al filósofo estadounidense Hurbert Dreyfus, que ha profundizado en el tema de la inteligencia artificial, “para tener inteligencia como la humana, los dispositivos necesitarán sentidos como los humanos”.

El mito contemporáneo de una inteligencia artificial comparable a un ser humano ha sido explorado en numerosas ocasiones. Entre los últimos acercamientos quizá el más popular sea el de la película ‘Her’, donde un abatido Joaquin Phoenix se enamora de un software, que cuenta con la sugerente voz de Scarlett Johansson. El jefe de tecnología de Nuance no se corta al expresar su opinión de la película.

“Sólo se fija en el aspecto más antisocial de la tecnología. Y se olvida de las cosas que haríamos con esa tecnología. Samantha [el asistente de voz] puede hacer de todo, incluso traer a un filósofo muerto para conversar”, comenta Sejnoha, antes de añadir “¿Por qué no pedirle que dé la solución para la paz mundial o que cure el cáncer?”. En lo que se refiere al grado de inteligencia artificial de Samantha, el ingeniero asegura que aún se está muy lejos de poder determinar las emociones a través del tono de voz empleado por el usuario, algo que el asistente hace constantemente durante la película.

Sin embargo, el CTO de Nuance no ve tan lejanos otros escenarios que presenta la película. “Veo sistemas que podrán imitar a los humanos en no mucho tiempo. No tendrán que tener inteligencia artificial real, pero serán unos compañeros satisfactorios para conversar y sospecho que habrá gente a la que le guste hablar con estos sistemas. Si es algo bueno o malo, no lo sé. Creo que a mí no me gustaría hablar con algo como eso”, sentencia.

En un futuro más cercano, Sejnoha cree que la gente hablará a su reloj y navegará a través de los distintos menús mediante la voz. Hoy por hoy, los comandos hablados están convirtiéndose en parte de cómo la gente interactúa con la tecnología. El objetivo no es otro que reducir el tiempo que conllevan ciertos procesos, como hacer una búsqueda, enviar un mensaje o incluso consultar las cuentas bancarias. Para esto último es necesario que la plataforma de banca online integre reconocimiento de voz o al menos esté adaptada para su uso, dando la opción de activar los comandos hablados a una aplicación de terceros.

En los próximos horizontes del reconocimiento de voz está la comprensión del lenguaje natural y la detección de varias órdenes concentradas en una misma frase. Lo que se está buscando es que cuando un usuario le diga a su smartphone “mira si María quiere cenar conmigo mañana en un restaurante de la zona”, el sistema entienda que tiene que buscar en la agenda el contacto ‘María’, enviarle un mensaje preguntando si quiere cenar con el usuario mañana en un restaurante de la zona que corresponda, después de haber determinado qué quiere decir el usuario con “la zona” y de paso comprobar el calendario por si hubiera otro compromiso olvidado para esa fecha.

Que los asistentes de voz se comuniquen entre ellos o usar una cámara para leer el movimiento de los labios y así incrementar la seguridad de una contraseña hablada son otros de los retos futuros para esta tecnología.

Nuevos dispositivos, nueva interacción

Hasta ahora el reconocimiento de voz ha obtenido su mayor valía como sustituto del teclado. En Nuance se dieron cuenta de que estos sistemas iban a tener un gran futuro alrededor del 2004, cuando triunfaban móviles que no destacaban precisamente por la funcionalidad de sus teclados.

Mucho ha cambiado desde hace diez años, se han perfeccionado los sistemas y la capacidad de procesamiento ha crecido sensiblemente. La mayor parte de los comandos por voz hoy se procesan en servidores de las compañías que proporcionan la tecnología, como Nuance, y en los de los clientes (es el caso de Apple, que usa el servicio de la anterior empresa pero la información pasa solo por sus propios servidores). También han surgido nuevos dispositivos donde los comandos por voz tienen mucho que aportar.

Las smart TV son uno de los casos más claros. Resulta más sencillo encontrar el contenido disponible diciendo “películas de Steven Spielberg” que rastrear la plataforma online en busca de estos títulos. Pero la compañía de reconocimiento de voz asegura que la gran oportunidad está en internet de las cosas, incluidos los dispositivos wearable. Los objetos que constituyen este amplio campo, desde los smartwatch a un termostato inteligente, tienen pantallas pequeñas, poco funcionales para una interfaz táctil, con lo que los comandos hablados se convierten en una opción más apropiada.

Los juegos y la realidad virtual son otros campos donde las interfaces de voz pueden resultar útiles. La clave es que supongan menor esfuerzo que otras formas de comunicarse con la tecnología. Pese a haber alcanzado respetables cotas de precisión, el reconocimiento de voz no acaba de despegar, en parte por las malas experiencias con los sistemas de hace unos años.

Salvar la brecha digital

En Nuance afirman que su objetivo es reinventar la relación entre las personas y la tecnología, que según aseguran actualmente está rota. La información debería poder ser accesible de manera más sencilla, ser más inclusiva. La interfaz de voz podría constituir un medio para paliar el llamado analfabetismo digital.

Tanto en las zonas más pobres del mundo como entre los grupos de población con menos oportunidades, en el futuro las interfaces de voz pueden constituir un camino más cómodo para acceder a los beneficios de internet y los dispositivos digitales en general.

Imagen superior: Nuance

Etiquetas