¿Sabía que las herramientas utilizadas para analizar las relaciones entre usuarios de redes sociales o clasificar páginas web también pueden ser extremadamente valiosas para dar sentido a los grandes datos científicos? En una red social como Facebook, cada usuario persona u organización se representa comoun nodo y las conexiones relaciones e interacciones entre ellos se llaman bordes. Al analizar estas conexiones, los investigadores pueden aprender mucho sobre cada usuario: intereses, pasatiempos, hábitos de compra, amigos, etc.
En biología, se pueden usar algoritmos similares de agrupación de gráficos para comprender las proteínas que realizan la mayoría de las funciones de la vida. Se estima que solo el cuerpo humano contiene alrededor de 100,000 tipos diferentes de proteínas y casi todas las tareas biológicas, desde la digestión hasta la inmunidad- ocurren cuando estos microorganismos interactúan entre sí. Una mejor comprensión de estas redes podría ayudar a los investigadores a determinar la efectividad de un medicamento o identificar posibles tratamientos para una variedad de enfermedades.
Hoy, las tecnologías avanzadas de alto rendimiento permiten a los investigadores capturar cientos de millones de proteínas, genes y otros componentes celulares a la vez y en una variedad de condiciones ambientales. Los algoritmos de agrupamiento se aplican a estos conjuntos de datos para identificar patrones y relaciones que pueden señalara similitudes estructurales y funcionales. Aunque estas técnicas se han utilizado ampliamente durante más de una década, no pueden mantenerse al día con el torrente de datos biológicos generados por secuenciadores y microarrays de próxima generación. De hecho, muy pocos algoritmos existentes pueden agrupar un biológicored que contiene millones de nodos proteínas y bordes conexiones.
Es por eso que un equipo de investigadores del Laboratorio Nacional Lawrence Berkeley del Departamento de Energía DOE Berkeley Lab y el Joint Genome Institute JGI adoptaron uno de los enfoques de agrupamiento más populares en biología moderna: el agrupamiento de Markov MCLalgoritmo, y lo modificó para que se ejecute de manera rápida, eficiente y a escala en supercomputadoras de memoria distribuida. En un caso de prueba, su algoritmo de alto rendimiento, llamado HipMCL, logró una hazaña anteriormente imposible: agrupar una gran red biológica que contiene aproximadamente 70millones de nodos y 68 mil millones de bordes en un par de horas, utilizando aproximadamente 140,000 núcleos de procesador en la supercomputadora Cori del Centro Nacional de Investigación Científica de Energía NERSC. Recientemente se publicó un artículo que describe este trabajo en la revista Investigación de ácidos nucleicos .
"El beneficio real de HipMCL es su capacidad de agrupar redes biológicas masivas que eran imposibles de agrupar con el software MCL existente, lo que nos permite identificar y caracterizar el nuevo espacio funcional presente en las comunidades microbianas", dice Nikos Kyrpides, quiendirige los esfuerzos de JGI en Microbiome Data Science y el Prokaryote Super Program y es coautor del artículo. "Además, podemos hacerlo sin sacrificar nada de la sensibilidad o la precisión del método original, que siempre es el mayor desafío en este tipo de escaladoesfuerzos "
"A medida que nuestros datos crecen, se hace cada vez más imperativo que traslademos nuestras herramientas a entornos informáticos de alto rendimiento", agrega. "Si me preguntaran qué tan grande es el espacio de proteínas? La verdad es que no"Realmente lo sé porque hasta ahora no teníamos las herramientas computacionales para agrupar de manera efectiva todos nuestros datos genómicos y sondear la materia oscura funcional ".
Además de los avances en la tecnología de recopilación de datos, los investigadores están optando cada vez más por compartir sus datos en bases de datos comunitarias como el sistema integrado de genomas y microbiomas microbianos IMG / M, que se desarrolló a través de una colaboración de décadas de antigüedad entre científicos de JGI yDivisión de Investigación Computacional CRD de Berkeley Lab. Pero al permitir a los usuarios hacer análisis comparativos y explorar las capacidades funcionales de las comunidades microbianas basadas en su secuencia metagenómica, las herramientas comunitarias como IMG / M también están contribuyendo a la explosión de datos en la tecnología.
Cómo los paseos aleatorios conducen a cuellos de botella informáticos
Para controlar este torrente de datos, los investigadores confían en el análisis de conglomerados o agrupamiento. Esta es esencialmente la tarea de agrupar objetos para que los elementos en el mismo grupo conglomerado sean más similares que los de otros conglomerados.más de una década, los biólogos computacionales han favorecido el MCL por agrupar proteínas por similitudes e interacciones.
"Una de las razones por las cuales MCL ha sido popular entre los biólogos computacionales es que es relativamente libre de parámetros; los usuarios no tienen que establecer una tonelada de parámetros para obtener resultados precisos y es notablemente estable a pequeñas alteraciones en los datos.Esto es importante porque puede que tenga que redefinir una similitud entre los puntos de datos o puede que tenga que corregir un ligero error de medición en sus datos. En estos casos, no desea que sus modificaciones cambien el análisis de 10 grupos a 1,000 grupos", dice Aydin Buluç, un científico de CRD y uno de los coautores del artículo.
Pero, agrega, la comunidad de biología computacional se encuentra con un cuello de botella de computación porque la herramienta se ejecuta principalmente en un solo nodo de computadora, es costosamente costosa de ejecutar y tiene una gran huella de memoria, todo lo cual limita la cantidad de datos de este algoritmopuede agruparse
Uno de los pasos más intensivos en computación y memoria en este análisis es un proceso llamado caminata aleatoria. Esta técnica cuantifica la fuerza de una conexión entre nodos, lo cual es útil para clasificar y predecir enlaces en una red. En el caso de Internetbuscar, esto puede ayudarlo a encontrar una habitación de hotel barata en San Francisco para las vacaciones de primavera e incluso decirle el mejor momento para reservarla. En biología, dicha herramienta podría ayudarlo a identificar proteínas que están ayudando a su cuerpo a combatir un virus de la gripe.
Dado un gráfico o red arbitrario, es difícil saber la forma más eficiente de visitar todos los nodos y enlaces. Una caminata aleatoria tiene una idea de la huella al explorar todo el gráfico al azar; comienza en un nodo y se muevearbitrariamente a lo largo de un borde a un nodo vecino. Este proceso continúa hasta que se hayan alcanzado todos los nodos en la red gráfica. Debido a que hay muchas formas diferentes de viajar entre nodos en una red, este paso se repite varias veces. Algoritmos como MCLcontinúe ejecutando este proceso de caminata aleatoria hasta que ya no haya una diferencia significativa entre las iteraciones.
En cualquier red, es posible que tenga un nodo que esté conectado a cientos de nodos y otro nodo con solo una conexión. Los recorridos aleatorios capturarán los nodos altamente conectados porque se detectará una ruta diferente cada vez que se ejecute el proceso.Con esta información, el algoritmo puede predecir con un nivel de certeza cómo se conecta un nodo en la red a otro. Entre cada recorrido aleatorio, el algoritmo marca su predicción para cada nodo en el gráfico en una columna de una matriz de Markov -- algo así como un libro de contabilidad - y los grupos finales se revelan al final. Suena bastante simple, pero para redes de proteínas con millones de nodos y miles de millones de bordes, esto puede convertirse en un problema extremadamente computacional y de memoria intensiva. Con HipMCL, BerkeleyLos científicos informáticos de laboratorio utilizaron herramientas matemáticas de vanguardia para superar estas limitaciones.
"Hemos mantenido el esqueleto de MCL intacto, haciendo que HipMCL sea una implementación masivamente paralela del algoritmo original de MCL", dice Ariful Azad, un científico informático en CRD y autor principal del artículo.
Aunque ha habido intentos previos de paralelizar el algoritmo MCL para que se ejecute en una sola GPU, la herramienta aún podría agrupar redes relativamente pequeñas debido a las limitaciones de memoria en una GPU, señala Azad.
"Con HipMCL esencialmente reelaboramos los algoritmos MCL para que funcionen de manera eficiente, en paralelo en miles de procesadores, y lo configuramos para aprovechar la memoria agregada disponible en todos los nodos de cómputo", agrega. "La escalabilidad sin precedentes de HipMCL vienede su uso de algoritmos de vanguardia para la manipulación de matriz dispersa "
Según Buluç, realizar una caminata aleatoria simultáneamente desde muchos nodos del gráfico se calcula mejor utilizando la multiplicación de matriz de matriz dispersa, que es una de las operaciones más básicas en el estándar GraphBLAS recientemente lanzado. Buluç y Azad desarrollaron algunos de los másalgoritmos paralelos escalables para la multiplicación de matriz de matriz dispersa de GraphBLAS y modificó uno de sus algoritmos de última generación para HipMCL.
"El punto crucial aquí fue encontrar el equilibrio correcto entre el paralelismo y el consumo de memoria. HipMCL extrae dinámicamente tanto paralelismo como sea posible dada la memoria disponible asignada a él", dice Buluç.
HipMCL: Agrupación a escala
Además de las innovaciones matemáticas, otra ventaja de HipMCL es su capacidad de ejecutarse sin problemas en cualquier sistema, incluidas computadoras portátiles, estaciones de trabajo y grandes supercomputadoras. Los investigadores lograron esto desarrollando sus herramientas en C ++ y utilizando bibliotecas estándar de MPI y OpenMP.
"Probamos extensivamente HipMCL en procesadores Intel Haswell, Ivy Bridge y Knights Landing en NERSC, usando hasta 2,000 nodos y medio millón de subprocesos en todos los procesadores, y en todas estas ejecuciones HipMCL agrupó con éxito redes que comprendían miles a miles de millones de", dice Buluç." Vemos que no hay barrera en la cantidad de procesadores que puede usar para ejecutar y descubrimos que puede agrupar redes 1,000 veces más rápido que el algoritmo MCL original ".
"HipMCL va a ser realmente transformador para la biología computacional de big data, así como los sistemas IMG e IMG / M lo han sido para la genómica de microbiomas", dice Kyrpides. "Este logro es un testimonio de los beneficios de la colaboración interdisciplinaria en BerkeleyLab. Como biólogos, entendemos la ciencia, pero ha sido muy valioso poder colaborar con científicos informáticos que nos pueden ayudar a abordar nuestras limitaciones y impulsarnos hacia adelante ".
Su próximo paso es continuar reelaborando HipMCL y otras herramientas de biología computacional para futuros sistemas exascale, que podrán calcular quintillones de cálculos por segundo. Esto será esencial a medida que los datos genómicos continúen creciendo a un ritmo alucinante, duplicandocada cinco a seis meses. Esto se realizará como parte del centro de codiseño Exagraph del DOE Exascale Computing Project.
Fuente de la historia :
Materiales proporcionado por DOE / Laboratorio Nacional Lawrence Berkeley . Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :