Noticias de ciencia

de organizaciones de investigación

Un cambio de juego: agrupación metagenómica impulsada por supercomputadoras

El algoritmo permite a los biólogos aprovechar las capacidades de las supercomputadoras masivamente paralelas para dar sentido a un "diluvio de datos" genómico

Fecha :: 12 de marzo de 2018
Fuente :: DOE / Laboratorio Nacional Lawrence Berkeley
Resumen :: Los investigadores adoptaron uno de los enfoques de agrupación más populares en la biología moderna, el algoritmo de agrupación de Markov, y lo modificaron para que funcione de manera eficiente y a escala en supercomputadoras. Su algoritmo logró una hazaña anteriormente imposible: agrupar un nodo de 70 millones y un borde de 68 mil millonesred biológica en horas.
Compartir :

HISTORIA COMPLETA

¿Sabía que las herramientas utilizadas para analizar las relaciones entre usuarios de redes sociales o clasificar páginas web también pueden ser extremadamente valiosas para dar sentido a los grandes datos científicos? En una red social como Facebook, cada usuario persona u organización se representa comoun nodo y las conexiones relaciones e interacciones entre ellos se llaman bordes. Al analizar estas conexiones, los investigadores pueden aprender mucho sobre cada usuario: intereses, pasatiempos, hábitos de compra, amigos, etc.

anuncio

En biología, se pueden usar algoritmos similares de agrupación de gráficos para comprender las proteínas que realizan la mayoría de las funciones de la vida. Se estima que solo el cuerpo humano contiene alrededor de 100,000 tipos diferentes de proteínas y casi todas las tareas biológicas, desde la digestión hasta la inmunidad- ocurren cuando estos microorganismos interactúan entre sí. Una mejor comprensión de estas redes podría ayudar a los investigadores a determinar la efectividad de un medicamento o identificar posibles tratamientos para una variedad de enfermedades.

Hoy, las tecnologías avanzadas de alto rendimiento permiten a los investigadores capturar cientos de millones de proteínas, genes y otros componentes celulares a la vez y en una variedad de condiciones ambientales. Los algoritmos de agrupamiento se aplican a estos conjuntos de datos para identificar patrones y relaciones que pueden señalara similitudes estructurales y funcionales. Aunque estas técnicas se han utilizado ampliamente durante más de una década, no pueden mantenerse al día con el torrente de datos biológicos generados por secuenciadores y microarrays de próxima generación. De hecho, muy pocos algoritmos existentes pueden agrupar un biológicored que contiene millones de nodos proteínas y bordes conexiones.

Es por eso que un equipo de investigadores del Laboratorio Nacional Lawrence Berkeley del Departamento de Energía DOE Berkeley Lab y el Joint Genome Institute JGI adoptaron uno de los enfoques de agrupamiento más populares en biología moderna: el agrupamiento de Markov MCLalgoritmo, y lo modificó para que se ejecute de manera rápida, eficiente y a escala en supercomputadoras de memoria distribuida. En un caso de prueba, su algoritmo de alto rendimiento, llamado HipMCL, logró una hazaña anteriormente imposible: agrupar una gran red biológica que contiene aproximadamente 70millones de nodos y 68 mil millones de bordes en un par de horas, utilizando aproximadamente 140,000 núcleos de procesador en la supercomputadora Cori del Centro Nacional de Investigación Científica de Energía NERSC. Recientemente se publicó un artículo que describe este trabajo en la revista Investigación de ácidos nucleicos .

"El beneficio real de HipMCL es su capacidad de agrupar redes biológicas masivas que eran imposibles de agrupar con el software MCL existente, lo que nos permite identificar y caracterizar el nuevo espacio funcional presente en las comunidades microbianas", dice Nikos Kyrpides, quiendirige los esfuerzos de JGI en Microbiome Data Science y el Prokaryote Super Program y es coautor del artículo. "Además, podemos hacerlo sin sacrificar nada de la sensibilidad o la precisión del método original, que siempre es el mayor desafío en este tipo de escaladoesfuerzos "

"A medida que nuestros datos crecen, se hace cada vez más imperativo que traslademos nuestras herramientas a entornos informáticos de alto rendimiento", agrega. "Si me preguntaran qué tan grande es el espacio de proteínas? La verdad es que no"Realmente lo sé porque hasta ahora no teníamos las herramientas computacionales para agrupar de manera efectiva todos nuestros datos genómicos y sondear la materia oscura funcional ".

Además de los avances en la tecnología de recopilación de datos, los investigadores están optando cada vez más por compartir sus datos en bases de datos comunitarias como el sistema integrado de genomas y microbiomas microbianos IMG / M, que se desarrolló a través de una colaboración de décadas de antigüedad entre científicos de JGI yDivisión de Investigación Computacional CRD de Berkeley Lab. Pero al permitir a los usuarios hacer análisis comparativos y explorar las capacidades funcionales de las comunidades microbianas basadas en su secuencia metagenómica, las herramientas comunitarias como IMG / M también están contribuyendo a la explosión de datos en la tecnología.

anuncio

Cómo los paseos aleatorios conducen a cuellos de botella informáticos

Para controlar este torrente de datos, los investigadores confían en el análisis de conglomerados o agrupamiento. Esta es esencialmente la tarea de agrupar objetos para que los elementos en el mismo grupo conglomerado sean más similares que los de otros conglomerados.más de una década, los biólogos computacionales han favorecido el MCL por agrupar proteínas por similitudes e interacciones.

"Una de las razones por las cuales MCL ha sido popular entre los biólogos computacionales es que es relativamente libre de parámetros; los usuarios no tienen que establecer una tonelada de parámetros para obtener resultados precisos y es notablemente estable a pequeñas alteraciones en los datos.Esto es importante porque puede que tenga que redefinir una similitud entre los puntos de datos o puede que tenga que corregir un ligero error de medición en sus datos. En estos casos, no desea que sus modificaciones cambien el análisis de 10 grupos a 1,000 grupos", dice Aydin Buluç, un científico de CRD y uno de los coautores del artículo.

Pero, agrega, la comunidad de biología computacional se encuentra con un cuello de botella de computación porque la herramienta se ejecuta principalmente en un solo nodo de computadora, es costosamente costosa de ejecutar y tiene una gran huella de memoria, todo lo cual limita la cantidad de datos de este algoritmopuede agruparse

Uno de los pasos más intensivos en computación y memoria en este análisis es un proceso llamado caminata aleatoria. Esta técnica cuantifica la fuerza de una conexión entre nodos, lo cual es útil para clasificar y predecir enlaces en una red. En el caso de Internetbuscar, esto puede ayudarlo a encontrar una habitación de hotel barata en San Francisco para las vacaciones de primavera e incluso decirle el mejor momento para reservarla. En biología, dicha herramienta podría ayudarlo a identificar proteínas que están ayudando a su cuerpo a combatir un virus de la gripe.

anuncio

Dado un gráfico o red arbitrario, es difícil saber la forma más eficiente de visitar todos los nodos y enlaces. Una caminata aleatoria tiene una idea de la huella al explorar todo el gráfico al azar; comienza en un nodo y se muevearbitrariamente a lo largo de un borde a un nodo vecino. Este proceso continúa hasta que se hayan alcanzado todos los nodos en la red gráfica. Debido a que hay muchas formas diferentes de viajar entre nodos en una red, este paso se repite varias veces. Algoritmos como MCLcontinúe ejecutando este proceso de caminata aleatoria hasta que ya no haya una diferencia significativa entre las iteraciones.

En cualquier red, es posible que tenga un nodo que esté conectado a cientos de nodos y otro nodo con solo una conexión. Los recorridos aleatorios capturarán los nodos altamente conectados porque se detectará una ruta diferente cada vez que se ejecute el proceso.Con esta información, el algoritmo puede predecir con un nivel de certeza cómo se conecta un nodo en la red a otro. Entre cada recorrido aleatorio, el algoritmo marca su predicción para cada nodo en el gráfico en una columna de una matriz de Markov -- algo así como un libro de contabilidad - y los grupos finales se revelan al final. Suena bastante simple, pero para redes de proteínas con millones de nodos y miles de millones de bordes, esto puede convertirse en un problema extremadamente computacional y de memoria intensiva. Con HipMCL, BerkeleyLos científicos informáticos de laboratorio utilizaron herramientas matemáticas de vanguardia para superar estas limitaciones.

"Hemos mantenido el esqueleto de MCL intacto, haciendo que HipMCL sea una implementación masivamente paralela del algoritmo original de MCL", dice Ariful Azad, un científico informático en CRD y autor principal del artículo.

Aunque ha habido intentos previos de paralelizar el algoritmo MCL para que se ejecute en una sola GPU, la herramienta aún podría agrupar redes relativamente pequeñas debido a las limitaciones de memoria en una GPU, señala Azad.

"Con HipMCL esencialmente reelaboramos los algoritmos MCL para que funcionen de manera eficiente, en paralelo en miles de procesadores, y lo configuramos para aprovechar la memoria agregada disponible en todos los nodos de cómputo", agrega. "La escalabilidad sin precedentes de HipMCL vienede su uso de algoritmos de vanguardia para la manipulación de matriz dispersa "

Según Buluç, realizar una caminata aleatoria simultáneamente desde muchos nodos del gráfico se calcula mejor utilizando la multiplicación de matriz de matriz dispersa, que es una de las operaciones más básicas en el estándar GraphBLAS recientemente lanzado. Buluç y Azad desarrollaron algunos de los másalgoritmos paralelos escalables para la multiplicación de matriz de matriz dispersa de GraphBLAS y modificó uno de sus algoritmos de última generación para HipMCL.

"El punto crucial aquí fue encontrar el equilibrio correcto entre el paralelismo y el consumo de memoria. HipMCL extrae dinámicamente tanto paralelismo como sea posible dada la memoria disponible asignada a él", dice Buluç.

HipMCL: Agrupación a escala

Además de las innovaciones matemáticas, otra ventaja de HipMCL es su capacidad de ejecutarse sin problemas en cualquier sistema, incluidas computadoras portátiles, estaciones de trabajo y grandes supercomputadoras. Los investigadores lograron esto desarrollando sus herramientas en C ++ y utilizando bibliotecas estándar de MPI y OpenMP.

"Probamos extensivamente HipMCL en procesadores Intel Haswell, Ivy Bridge y Knights Landing en NERSC, usando hasta 2,000 nodos y medio millón de subprocesos en todos los procesadores, y en todas estas ejecuciones HipMCL agrupó con éxito redes que comprendían miles a miles de millones de", dice Buluç." Vemos que no hay barrera en la cantidad de procesadores que puede usar para ejecutar y descubrimos que puede agrupar redes 1,000 veces más rápido que el algoritmo MCL original ".

"HipMCL va a ser realmente transformador para la biología computacional de big data, así como los sistemas IMG e IMG / M lo han sido para la genómica de microbiomas", dice Kyrpides. "Este logro es un testimonio de los beneficios de la colaboración interdisciplinaria en BerkeleyLab. Como biólogos, entendemos la ciencia, pero ha sido muy valioso poder colaborar con científicos informáticos que nos pueden ayudar a abordar nuestras limitaciones y impulsarnos hacia adelante ".

Su próximo paso es continuar reelaborando HipMCL y otras herramientas de biología computacional para futuros sistemas exascale, que podrán calcular quintillones de cálculos por segundo. Esto será esencial a medida que los datos genómicos continúen creciendo a un ritmo alucinante, duplicandocada cinco a seis meses. Esto se realizará como parte del centro de codiseño Exagraph del DOE Exascale Computing Project.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por DOE / Laboratorio Nacional Lawrence Berkeley . Nota: El contenido puede ser editado por estilo y longitud.

Cite esta página :

DOE / Lawrence Berkeley National Laboratory. "Un cambio de juego: agrupación metagenómica impulsada por supercomputadoras: el algoritmo permite a los biólogos aprovechar las capacidades de las supercomputadoras masivamente paralelas para dar sentido a un" diluvio de datos "genómico". ScienceDaily. ScienceDaily, 12 de marzo de 2018. .

DOE / Lawrence Berkeley National Laboratory. 12 de marzo de 2018. Un cambio de juego: agrupación metagenómica impulsada por supercomputadoras: el algoritmo permite a los biólogos aprovechar las capacidades de las supercomputadoras masivamente paralelas para dar sentido a un "diluvio de datos" genómico. ScienceDaily . Recuperado el 20 de julio de 2020 de www.science-things.com/releases/2018/03/180312131350.htm

TEMAS RELACIONADOS
- Computadoras y matemáticas

anuncio

TÉRMINOS RELACIONADOS

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Un cambio de juego: agrupación metagenómica impulsada por supercomputadoras

El algoritmo permite a los biólogos aprovechar las capacidades de las supercomputadoras masivamente paralelas para dar sentido a un "diluvio de datos" genómico

1

2

3

4

5

1

2

3

4

5

Los científicos proponen un plan para determinar si el Planeta Nueve es un agujero negro primordial

Nueva investigación de la luz más antigua confirma la edad del universo

Las primeras imágenes del Orbitador Solar revelan 'fogatas' en el sol

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

Prueba de sangre innovadora detecta el resultado positivo de COVID-19 en 20 minutos

Los mejores y peores materiales para máscaras

Creado 'neurotransistor artificial'

El primer lenguaje de programación intuitivo para computadoras cuánticas

Robot Jaws muestra que el chicle medicado podría ser el futuro

¿Podrían las mini-Neptunas ser planetas oceánicos irradiados?

Separando ráfagas de rayos gamma: los estudiantes hacen un avance crítico

Cómo mueren las galaxias: nuevas ideas sobre el enfriamiento de la formación estelar

El dispositivo atomtrónico podría sondear el límite entre los mundos cuánticos y cotidianos

Evidencia de décadas de teoría antigua para explicar los comportamientos extraños del agua

Los cristales 'parpadeantes' pueden convertir CO2 en combustibles

Una GoPro para escarabajos: los investigadores crean una mochila con cámara robótica para insectos

Dando a los robots una percepción humana de sus entornos físicos

Los investigadores dan a los robots habilidades de detección inteligente para llevar a cabo tareas complejas