Si han clonado hasta la voz de Obama, ¿qué podría hacer un 'hacker' con la tuya?

Servicios de policía de todo el mundo utilizan ya sistemas de reconocimiento de voz para atrapar delincuentes y algunos bancos estadounidenses dan caza a timadores gracias a estos programas. Si en un futuro próximo los patrones vocales sustituyen a las contraseñas para identificarnos en ciertos servicios, ¿podrá un atacante suplantarnos con una grabación o una voz sintetizada?

Los sistemas de reconocimiento por voz ya son una tecnología madura

18 de junio de 2015 13:31 h

Los expertos en seguridad informática auguran la próxima defunción de nuestras tradicionales contraseñas, reemplazadas por sistemas biométricos de reconocimiento de rostros, iris, huellas dactilares e incluso identificación de nuestro inconfundible olor corporal. El reconocimiento por voz es una de las técnicas más maduras y los 'software' de Agnitio, una 'spin-off' de la Universidad Politécnica de Madrid que se ha convertido en una de las líderes en el sector, ya son utilizados por los servicios de policía y agencias gubernamentales de más de 30 países, además de por algunas entidades bancarias (por el momento, principalmente estadounidenses) para cazar a timadores reincidentes.

Los sonidos generados por nuestro aparato fonador podrán utilizarse en unos años para realizar transacciones bancarias o compras 'online' o controlar los dispositivos de nuestro domicilio conectados a la internet de las cosas. En Estados Unidos incluso se plantea la utilización de esta tecnología como prueba en un juicio. Sin embargo, si un ciberatacante llegara a clonar tu voz para crear otra exactamente igual (algunos ya lo intentan con las voces de Robin Williams o Carl Sagan, aunque solo sea con fines lúdicos), ¿podremos fiarnos del reconocimiento de voz en todos estos casos?

GRABAR TU VOZ PARA SUPLANTAR TU IDENTIDAD

Joaquín González, responsable de biometría de voz en el Grupo de Reconocimiento Biométrico de la Universidad Autónoma de Madrid, asegura que los sistemas de autenticación por voz son muy seguros y eficientes a la hora de cazar a los potenciales imitadores de nuestra voz, por mucho que algunos logren engañar a nuestro oído. Es más, la dificultad para estos sistemas no es que se les cuelen las voces, sino que no sean capaces de reconocer al usuario auténtico en algunas circunstancias. “Hay variables del entorno o por temas de salud, como que de repente tengas una afonía crónica o un constipado muy fuerte, que pueden afectar al sistema generando rechazos de usuarios auténticos”, detalla.

Aunque un mortal que simula nuestra voz no sea un riesgo para la seguridad de un sistema biométrico, ¿qué ocurre si un ciberdelincuente graba nuestra voz en el preciso instante en que decimos la contraseña y hace uso de esa grabación para suplantarnos? “Es la clonación perfecta si mi clave de numeración es siempre la misma y alguien me graba”, defiende González. Según este investigador, desarrollar un detector de grabaciones no es sencillo, pero un posible remedio es que el sistema no pida siempre la misma contraseña, sino que la cambie en cada intento de acceso de forma que el ciberatacante no pueda disponer de todas las combinaciones posibles.

Agnitio ha desarrollado y patentado su propio sistema de seguridad, que detecta, según la compañía, un 97% de los ataques de suplantación97% de los ataques de suplantación: sin que el ciberatacante se percate, el sistema reconoce que se trata de una grabación de voz del usuario auténtico o de un montaje de varias grabaciones para crear nuevas frases. “La respuesta de baja frecuencia es mala en la mayoría de altavoces, ves que has perdido calidad a baja frecuencia y es una forma de detectar que se trata de un altavoz”, señala Jesús Villalba, investigador de la Universidad de Zaragoza y experto en reconocimiento de voz.

Eso sí, estos sistemas de reconocimiento tienen que estar mejorándose de forma constante. Un cliente de Agnitio detectó recientemente a un potencial timador: había logrado saltar su barrera de seguridad utilizando un archivo de audio grabado con una combinación de opciones del iPhone 6. Emilio Martínez, CEO de la compañía, comenta que en pocos días ya habían resuelto el problema incluyendo en su sistema la detección de estas grabaciones realizadas de una manera inusual. “Estás protegido, pero tienes que estar al día”, defiende Martínez.

CLONACIÓN DE VOCES... UN PELIGRO TODAVÍA LEJANO

El fallecido crítico de cine Roger Ebert perdió la capacidad de hablar y de comer tras varias operaciones debido al cáncer de tiroides que padecía. En 2011, la empresa escocesa CereProc logró crear una voz sintética parecida a la suya basándose en grabaciones de su voz anterior. Esta compañía ya es capaz de sintetizar la voz del mismísimo Obama con asombrosos resultados (solo tienes que escuchar esto para comprobarlo).

La similitud es increíble y puede que a nosotros nos engañe, pero ¿podría confundir también a un sistema de autenticación por voz? El investigador Jesús Villalba nos cuenta que, aunque la clonación pase desapercibida para nuestros humanos sentidos, el algoritmo de reconocimiento de locutor es capaz de detectar que se trata de una voz sintética. “Hay muchos sistemas de síntesis de voz que modifican la prosodia de la frase, mientras que los sistemas de reconocimiento de locutor se basan en las características espectrales de tu voz”, detalla. Desde Agnitio refrendan esta visión: en la actualidad no les preocupa la síntesis de voz, aunque colaboran con empresas especializadas en ese área para vigilar el posible avance de esa tecnología en el futuro.

El responsable de biometría de voz de la UAM, Joaquín González, puntualiza que en la actualidad sí sería posible generar un sistema automático diseñado específicamente para engañar a un 'software' de reconocimiento si se conociera su funcionamiento interno, aunque seguiría existiendo una enorme dificultad: que ese posible sistema fuera capaz de reaccionar en tiempo real a las diferentes cuestiones de seguridad que se le plantearan. “El esfuerzo tecnológico y económico es tan grande que es inviable en estos momentos”, señala González.

Pese a ello, más vale prevenir que curar, y en los casos en los que la información sea especialmente sensible, los expertos en biometría de voz coinciden en que este sistema se ha de combinar con otros. Pedro Gómez, experto en reconocimiento de voz de la Universidad Politécnica de Madrid, expone que la voz es actualmente una firma, no una huella fija e inamovible. “Todos los sistemas son vulnerables hasta un cierto extremo. Se consiguen tasas de seguridad más altas combinando sistemas de biometría de diferente carácter”. Reconocimiento facial o lectura de la huella dactilar podrían ser algunos de los posibles tándems para repeler a los ciberatacantes en los sistemas que requieran un mayor nivel de seguridad, por ejemplo las transacciones bancarias.

La biometría de voz sí podría utilizarse con éxito en solitario para controlar distintos dispositivos conectados a la internet de las cosas, por simple comodidad del usuario. ¿O acaso no preferimos hablar tranquilamente a nuestro móvil antes que someternos a una iluminación infrarroja que corrobore que nuestro ojo nos pertenece?

“Creemos que tanto los teléfonos como las tabletas y frigoríficos tendrán más conectividad, y se tiende a que la gente controle esos dispositivos por la voz”, defiende el CEO de Agnitio. Por el momento, el asistente virtual de Apple, Siri, reconoce voces independientemente de quién sea su propietario, pero nuestro coche conectado a internet sí será capaz de identificarnos para responder exclusivamente a nuestras órdenes.

RECONOCIMIENTO DE VOZ EN LOS TRIBUNALES

A Jérôme Cahuzac, el exministro de Hacienda francés, le cazaron hace dos años gracias al sistema Batvox de Agnitio: identificaron su voz en una grabación telefónica que le vinculaba a una cuenta secreta en Suiza. En España, este 'software' ya se había utilizado previamente para la detención de uno de los miembros de ETA que habían tomado parte en el atentado de la T4 en el aeropuerto de Barajas. Ahora bien, si este sistema sirve para localizar delincuentes, ¿puede usarse la voz como prueba concluyente en un juicio?

El debate lo han abierto los fiscales estadounidenses que han pedido por primera vez en un tribunal federal utilizar el reconocimiento de locutor para probar que la voz de un acusado es la misma que la de un militante enmascarado que aparecía en unos vídeos de propaganda de la milicia terrorista Al Shabab. Aunque el FBI ya utilice la voz como una herramienta durante las investigaciones, esta agencia ha señalado en varias ocasiones que la tecnología no está suficientemente madura como para ser utilizada en un procedimiento judicial como prueba irrefutable.

Joaquín González asegura que hay que diferenciar las bondades de la autenticación por voz de su consideración como una prueba concluyente en un juicio cuando se comparan dos grabaciones, ya que el coste de una falsa aceptación (un posible inocente encarcelado) resulta intolerable. Además, mientras que nuestra voz es relajada cuando nos autenticamos en un servicio, sufre modificaciones cuando estamos en situaciones de estrés: no hablamos igual cuando decimos una clave que cuando relatamos por teléfono los detalles de nuestras acciones delictivas.

“Al juez y a la sociedad les gustaría escuchar eso, pero científicamente no es posible afirmar que dos voces son de la misma persona más allá de toda duda razonable solo a partir de las grabaciones aportadas en un juicio”, nos explica González. Según este investigador, “es el juez o el jurado, disponiendo del resto de informaciones del caso y la valoración de la prueba pericial de voz en forma de relaciones de verosimilitud (una valoración probabilística del poder de convicción de la prueba), el que puede tomar la decisión de autoría de la voz”.

Desde la Asociación Nacional de Ciberseguridad y Pericia Tecnológica (ANCITE) tampoco consideran que un perito pueda asegurar que una voz corresponde a un individuo con total fiabilidad. “Ponemos en duda que la tecnología actual en el ámbito de este 'software' para reconocimiento de voz sea ni mucho menos 100% segura, ya que la certificación digital de una llamada a través de estas aplicaciones no ha tenido un respaldo jurídico que cree jurisprudencia”, explica José Luis Narbona, presidente de ANCITE.

“No sería descartable que la investigación en este sentido permitiera en el futuro, gracias a los sistemas computacionales cuánticos, desarrollar algoritmos matemáticos avanzados que permitieran extraer de la codificación de un archivo de voz las evidencias irrefutables de que pertenece a una persona determinada”, concluye el presidente de ANCITE.

¿Habrá que esperar la llegada de los ordenadores cuánticos para que el reconocimiento de voz alcance su máximo nivel de seguridad? ordenadores cuánticosTal vez. Por el momento, tendremos que conformarnos con los sistemas actuales de reconocimiento de locutor, que, como defienden los expertos en la materia, ya son bastante más seguros que nuestras tradicionales contraseñas.

-------------------------------------------

Las imágenes de este artículo son propiedad, por orden de aparición, de Howard Lake, Kārlis Dambrāns, Omar Jordan Fawahl, LG y Clyde Robinson

Etiquetas