Desarrollan una herramienta para mejorar la búsqueda de patrones ocultos en el Big Data
La inmensa cantidad de datos que se pueden acumular hoy en día en casi cualquier campo, desde la medicina, hasta la astrofísica o desde el marketing a la sociología, hace que la forma de gestionar y analizar estos datos sea un problema que atrae la atención de muchos científicos. Se han desarrollado diversos programas informáticos para tratar de analizar y agrupar en categorías los distintos datos de forma automatizada. Sin embargo, estas herramientas no resultan fáciles de utilizar ni de configurar y son tan numerosas que no es sencillo elegir la más adecuada para cada problema. Ahora, un equipo de investigadores de la Universidad del Sur de Dinamarca (USD) ha presentado una nueva herramienta que facilita la gestión de estos datos.
Cuando se manejan unos pocos cientos de datos, con un número pequeño de variables, las relaciones entre ellas se pueden buscar a mano o con herramientas computacionales tan sencillas como una tabla de excel. Por ejemplo, si tenemos una cadena de panaderías con 1.000 trabajadores y disponemos de sus edades, del número de horas trabajadas y del número panes horneados por cada trabajador, podremos buscar relaciones entre la edad y el número de horas trabajadas, el número de horas trabajadas y el número de panes horneados, etc.
Sin embargo, esto lo podemos hacer porque tenemos pocos datos, éstos ya están clasificados y sabemos de antemano lo que vamos a buscar. Pero qué sucede cuando tenemos una enorme cantidad de datos sin clasificar y ni siquiera sabemos lo que vamos a buscar. Para estos casos, los científicos computacionales han desarrollado herramientas que permiten agrupar y clasificar los datos en categorías y buscar relaciones entre ellos de forma automática. Este tipo de procedimientos, llamados algoritmos de agrupamiento, se utilizan en campos tan dispares como la biomedicina, la lingüística o la astrofísica y sirven para encontrar patrones entre los datos que de otra forma no podríamos percibir.
Programas ambiguos y con diferentes formatos
Pero debido a la variedad de áreas de aplicación, estas herramientas de agrupamiento se han definido de forma ambigua y con diferentes formatos de entrada y salida de los datos, lo que impide a los usuarios utilizar indistintamente los distintos algoritmos creados. “Con las herramientas de agrupamiento tenemos un problema inherente”, explica a eldiario.es Richard Röttger, profesor de la USD, “y es que no hay una definición general de lo que es una clasificación correcta”.
Para explicar esta afirmación Rötgger utiliza el siguiente ejemplo: situamos un dispositivo en una calle que cuente todos los vehículos que pasan y a continuación diseñamos un algoritmo para clasificarlos en grupos de vehículos similares. Es evidente que, teniendo en cuenta solo esta información, no queda muy claro cómo agruparlos. Podemos hacerlo por la marca, por el color, por el tamaño, por el tipo de vehículo, etc. “Todos son grupos perfectamente válidos y bien definidos, pero dependiendo de cuál sea nuestro objetivo algunos de los grupos serán útiles y otros no”, explica Röttger. Por tanto, si lo que se pretende es, por ejemplo, determinar los impuestos que debe pagar cada vehículo, no importará el color, sino el peso y la categoría.
Según este investigador, esta es la razón por la que debemos tener en cuenta que cuando una herramienta realiza mal una clasificación, “no significa necesariamente que sea mala, sino que puede que no sea la elección correcta para los conjuntos de datos que hemos probado”.
Una herramienta fácil de utilizar
Precisamente para ayudar a escoger el algoritmo de agrupamiento más adecuado a cada estudio ha nacido ClustEval. Esta herramienta, desarrollada por Röttger junto a sus colegas del departamento de Matemáticas y Ciencia computacional de la USD y descrita en un reciente artículo publicado en la revista Nature Methods, sirve para automatizar cada paso del análisis de grandes conjuntos de datos sin preocuparse por los algoritmos a utilizar, ni por su configuración. ClustEval hace un análisis de todos los algoritmos de agrupamiento existentes y es capaz de ofrecer una evaluación de calidad de cada uno de ellos. La herramienta se encarga de convertir los datos al formato adecuado para cada algoritmo de agrupamiento, luego ejecuta cada uno de ellos, configurando los parámetros de forma adecuada y finalmente compara los resultados, ofreciendo una valoración de la calidad de cada uno.
Con esta herramienta los investigadores pretenden simplificar el análisis de grandes cantidades de datos, ofreciendo una herramienta que no requiere profundos conocimientos a nivel computacional. Además, ClustEval está disponible en código abierto y también puede utilizarse a través de un sitio web. “Antes de ClustEval, era casi imposible obtener una visión general de las herramientas de agrupamiento disponibles, nuestro análisis es masivo y transparente y ofrecemos una comparación justa e imparcial de cada una de ellas”, afirma Röttger.
Los investigadores han desarrollado esta herramienta en el campo de la biomedicinas. “Nosotros somos bioinformáticos, así que tenemos experiencia en el uso de bases de datos biomédicas y podemos juzgar su calidad, por eso hemos elegido este área”, explica Röttger. Sin embargo, este investigador insiste en que es adaptable a otras áreas simplemente añadiendo nuevos algoritmos. “Estamos añadiendo constantemente nuevas herramientas y conjuntos de datos, por lo que la herramienta está en constante crecimiento”.