El ‘deep learning’ está de moda: así hacen Google, Apple y Facebook que los ordenadores 'piensen' como humanos

Si alguna vez te has preguntado cómo funciona Siri, cómo diantres reconoce tu voz el móvil o por qué en Facebook aparecen anuncios relacionados con lo que has escrito en tu muro, aquí tienes la respuesta. La clave es el ‘deep learning’, un conjunto de algoritmos que imitan al cerebro humano para hacer cosas como estas (y otras mucho más complicadas).

El asistente virtual de Apple, Siri, se basa en el algoritmo 'deep learning' (Foto: matsuyuki | Flickr)

17 de junio de 2014 09:04 h

Si le has visto la película ‘Her’ y eres de los que piensan que lo que ahí se muestra no es más que pura ficción, lo sentimos: vas un poco desencaminado. Sin ánimo de caer en el ‘spoiler’, en un futuro más cercano de lo que pensamos, todos podremos mantener una conversación más o menos distendida con nuestro ‘smartphone’.

Será posible gracias a los numerosos avances de la inteligencia artificial, y en concreto, a una de sus técnicas más de moda: el 'deep learning', que permite que las máquinas aprendan ellas solas a reconocer rostros, voces y la forma en que solemos hablar. Siri, el asistente virtual de iPhone, ya se basa en ella, y pronto estará aún más presente en las aplicaciones del resto de gigantes tecnológicos. Eso sí, no sabrás si desearla o temerla. ¿Te animas a descubrir por qué?

¿Qué es el ‘deep learning’?

Google, Apple, Microsoft y Facebook. En pocos años, los escasos expertos que trabajan en el área del ‘deep learning’ han pasado a formar parte de la plantilla de alguna de estas multinacionales.

En septiembre, Facebook creó un grupo de expertos dedicado en exclusiva a esta técnica; y Google cuenta, desde hace tres años, con el suyo propio, en el departamento conocido como ‘Google Brain’. Además, en enero, este mismo gigante se hizo con el control de la ‘startup’ Deepmind Technologies, una pequeña empresa londinense en la que trabajaban algunos de los mayores expertos en ‘deep learning’.

Pero no sólo lo aprovechan las grandes compañías. Empresas españolas como Sherpa – la competencia de Siri para Android -, Indisys – que hace poco fue comprada por Intel - o Inbenta, se sirven de esta técnica para hacerse un hueco en un sector de lo más competitivo.

Pero, ¿a qué viene tanto interés? Para entenderlo, primero tenermos que saber qué es exactamente eso del ‘deep learning’. Conocido también como “redes neuronales profundas” o “aprendizaje profundo”, se refiere a una familia de algoritmos que simulan el proceso que lleva a cabo el cerebro cuando se trata de reconocer rostros, voces o palabras.

Son algoritmos que, como explica José Dorronsoro, investigador del ‘deep learning’ en la Universidad Autónoma de Madrid, funcionan en base a “un proceso por capas”. El aprendizaje profundo simula el funcionamiento básico del cerebro, que se realiza a través de las neuronas. En el ‘deep learning’, esas neuronas serían las capas a las que hace referencia el experto.

Una definición que comparte Alberto Albiol, profesor de ingeniería de telecomunicaciones de la Universidad Politécnica de Valencia. “Las redes neuronales están formadas por capas de neuronas”, señala. “Hasta hace unos años, el número de capas que se empleaba era pequeño. Sin embargo, mediante las técnicas del ‘deep learning’ se consiguen emplear muchas capas de forma muy satisfactoria”.

Como apunta el investigador, el aprendizaje profundo no es un invento reciente. Según parece, la idea surgió en los años ochenta de la mano del investigador japonés Kunihiko Fukushima, que propuso un modelo neuronal de entre cinco y seis capas al que llamó “neocognitrón”.

“Es un asunto bastante antiguo”, indica Aníbal Figueiras, especialista en inteligencia computacional de la Universidad Carlos III de Madrid. “Lo que pasa es que las dificultades para el desarrollo de alternativas a la propuesta de Fukushima han sido muy largas”.

Imitar el cerebro, sin complicaciones

No obstante, como señala el informático Beau Cronin, las capas del ‘deep learning’ no imitan todos los tipos de neuronas que encontramos en nuestro cerebro. “Los sistemas que utiliza Google todavía contienen ‘neuronas’, pero son mucho más simples, lo que refleja la finalidad práctica de los esfuerzos de Google: se quiere que esos modelos solucionen problemas prácticos en la voz, la visión y el procesamiento de texto”.

El interés de los gigantes tecnológicos en el ‘deep learning’ está precisamente en eso. Quieren mejorar sus servicios para atraer más ingresos publicitarios. Y es que, según Figueiras, el ‘deep learning’ posee un amplio abanico de funciones. Unas funciones que, incluso, las hace mejor la máquina que el ser humano.

“Una de las grandes ventajas que tiene el ‘deep learning’ es que es posible aplicarlo a funciones que se han considerado hasta hace poco muy específicas de los humanos, por ejemplo, para la visión o para el reconocimiento de mensajes hablados”.

Algo que confirma el artículo que publicaba la prestigiosa revista Nature el pasado mes de enero: “En los últimos cinco años, compañías como Google, Apple e IBM, han comprado de forma agresiva ‘startups’ e investigadores expertos en ‘deep learning’. Para los consumidores diarios, esto se traduce en un 'software' mejor, capaz de ordenar fotos, entender comandos hablados y traducir texto de lenguas extranjeras”.

Los fines de imitar el sentido del oído y de la vista

Los algoritmos de aprendizaje profundo han sido empleados para que nuestros móviles reconozcan nuestra cara –reconocimiento del rostro-, nuestra voz –reconocimiento de voz- y, lo más reciente, nuestra forma de hablar –procesamiento de lenguaje natural.

En este último caso, no sólo las grandes compañías están investigando en torno a la nueva aplicación del ‘deep learning’. Desde 2005, la empresa española Inbenta lleva ofreciendo a sus clientes un 'software' capaz de responder a las dudas de los usuarios. Unas preguntas que, normalmente, suelen ser informales, y cuyo significado varía dependiendo del contexto.

¿Y cómo hacen eso? “Nos basamos en la teoría del sentido-texto, y básicamente lo que hace es que no se basa en la sintaxis, sino en la semántica. Una frase puede estar sintácticamente correcta, pero semánticamente no decir nada”, nos explica David Fernández, director de desarrollo de Inbenta.

Para crear dicho 'software', la empresa tiene en plantilla a una serie de filólogas encargadas de mostrarle a la máquina los significados de las palabras. El 'software' lo asimila y crean así lo que Fernández denomina un “cerebro semántico”.

“Hay otras empresas que se basan por ejemplo en la estadística a la hora de enlazar estos documentos o de entender lo que estás preguntando”, indica el director. Es precisamente lo que hace Google Translate. “No hay ninguna que conozcamos que haya utilizado esta teoría”.

‘Deep learning’, ¿una moda más?

El ‘deep learning’ no es la única técnica que se emplea para que las máquinas sea capaces de aprender. El área a la que pertenecen las redes neuronales profundas, dentro del campo de la inteligencia artificial, se corresponde con el aprendizaje automático. Un aprendizaje que, como bien ha señalado Fernández, puede conseguirse de múltiples maneras.

“Hay muchísimas técnicas que permiten que las máquinas aprendan y las redes de neuronas sólo son un tipo”, indica Daniel Borrajo, catedrático de informática e inteligencia artificial de la Universidad Carlos III de Madrid. Algunos ejemplos son “los árboles de decisión, reglas de asociación, razonamiento basado en casos, aprendizaje basado en la explicación, entre otras”.

Sin embargo, las mayores funciones que ofrece el ‘deep learning’ han hecho que se convierta en la técnica favorita de los gigantes tecnológicos. Pero, ¿y si resulta, al final, que el aprendizaje profundo es sólo una moda? Para que una máquina aprenda, ¿necesita realmente imitar el funcionamiento del cerebro humano?

Para algunos, la respuesta es un no. En 2012, Google contrató al célebre investigador Ray Kurzweil para perseguir varias formas en las que los ordenadores aprendieran desde la experiencia, empleando el ‘deep learning’, además de otras técnicas. Y según Beau Cronin, el programa Watson de IBM, basado en la técnica de pregunta-respuesta, “está ahora compitiendo agresivamente para hacer aplicaciones comerciales, como diagnósticos médicos, [y aquí] no hay neuronas”.

Sea como fuere, parece que el ‘deep learning’ ha venido para quedarse. Es posible que dentro de nada nos acostumbremos a pedirle al móvil que nos programe una cita o nos haga una foto, a que nuestra cuenta de Facebook reconozca las caras de nuestros amigos o a que en Whatsapp aparezcan mensajes publicitarios relacionados con las palabras que solemos escribir. O incluso, por qué no, a tener una conversación con nuestro sistema operativo (al más puro estilo 'Her'). Y todo ello gracias al progreso de la inteligencia artificial. Al final va a resultar que los robots no son tan malos como los pintan en el cine.

Etiquetas