Cada segundo billones de bits de datos se acumulan y almacenan. Todos estos bits de datos no tienen sentido si no sabe cómo clasificarlos. Ahora, los investigadores de la Universidad del Sur de Dinamarca SDU presentan una herramienta que ayuda a los investigadores a clasificar y recuperar datosconocimiento significativo de la jungla de datos, presentando su trabajo en la revista Métodos de la naturaleza .
Suponga por un segundo que trabaja con la investigación de la obesidad y que tiene un billón de bits de datos relacionados con la obesidad almacenados en un servidor: ¿Qué comen las personas con sobrepeso? ¿Cómo duermen? ¿A qué hora del día comen?
Sospecha que el estilo de vida de los pacientes puede influir en su peso, y puede pedirle a su computadora que compare el cambio de peso y la cantidad de sándwiches de queso consumidos para ver si hay un vínculo. Luego puede solicitar otra comparación. Y otra másY así puede continuar durante mucho tiempo y recopilar una amplia gama de comparaciones para su investigación.
O puede acercarse a sus datos de una manera que no solo es mucho más rápida, sino que también descubrirá enlaces que tal vez ni siquiera haya considerado. Entonces no solo podrá poner a prueba sus propias sospechas sobre el peso y el estilo de vida- tal vez descubrirá vínculos completamente inesperados, por ejemplo, que los pacientes que están perdiendo peso, con mayor frecuencia comen gouda que los emparedados de queso cheddar.
Buscando los patrones ocultos
De esto se trata la agrupación: buscar patrones ocultos que no podemos ver nosotros mismos; pedirle a una computadora que agrupe objetos que comparten rasgos comunes en grupos.
En principio, podría ser cualquier tipo de datos: pacientes, proteínas o tal vez planetas en galaxias distantes.
En el SDU, Profesor Asistente y jefe del grupo de investigación Practical Computer Science & Bioinformatics, Richard Röttger, y sus colegas del Departamento de Matemáticas e Informática utilizan el agrupamiento, por ejemplo, para encontrar redes reguladoras en organismos patógenos que permitan una comprensión fundamental de estosorganismos sin la peligrosa y costosa necesidad de realizar estudios de laboratorio húmedo.
Pero el agrupamiento es una forma complicada de trabajar, incluso para un científico de la computación, independientemente del hecho de que el agrupamiento es un problema de larga data en la informática y uno de los procedimientos de análisis de datos más fundamentales :
La agrupación debería ser fácil para todos los científicos, no solo para los informáticos
"Hoy en día existen cientos de herramientas de clúster comparables pero diferentes; pero cada una de ellas requiere configuraciones muy específicas y, a menudo, una comprensión profunda del algoritmo subyacente. No hay una visión general de lo que existe, qué se debe usar cuando yno hay una comparación objetiva de las posibilidades disponibles ", explica Richard Röttger.
Por lo tanto, él y sus colegas, el estudiante de doctorado Christian Wiwie y el profesor asociado Jan Baumbach, ahora han creado una herramienta que puede proporcionar una descripción objetiva de todas las herramientas de clúster disponibles, para que los investigadores obtengan una visión objetiva imparcial y sugerenciasa qué herramienta usar con qué parámetros en qué configuración ". Todo el proceso se acelera enormemente y se hace más objetivo ahora", dice Röttger.
La herramienta se llama ClustEval y se describe en el diario Métodos de la naturaleza .
Fuente de la historia :
Materiales proporcionado por Universidad del sur de Dinamarca . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :