Noticias científicas

de organizaciones de investigación

1

2

Las pruebas genéticas tienen un problema de datos; el nuevo software puede ayudar

Fecha :: 30 de abril de 2019
Fuente :: Universidad de Purdue
Resumen :: A medida que las pruebas genéticas en el hogar se vuelven más populares, las empresas están lidiando con cómo almacenar todos los datos acumulados y cómo procesar los resultados rápidamente. Una nueva herramienta llamada TeraPCA puede ayudar.
Compartir :

HISTORIA COMPLETA

En los últimos años, el mercado de pruebas genéticas directas al consumidor se ha disparado. La cantidad de personas que usaron pruebas de ADN en el hogar se duplicó en 2017, la mayoría en los EE. UU. Aproximadamente 1 de cada 25 adultos estadounidenses ahorade donde vinieron sus antepasados, gracias a empresas como AncestryDNA y 23andMe.

A medida que las pruebas se vuelven más populares, estas empresas están lidiando con cómo almacenar todos los datos acumulados y cómo procesar los resultados rápidamente. Una nueva herramienta llamada TeraPCA, creada por investigadores de la Universidad de Purdue, ahora está disponible para ayudar. Los resultados fueronpublicado en la revista Bioinformática .

A pesar de las muchas diferencias físicas de las personas determinadas por factores como la etnia, el sexo o el linaje, dos humanos son aproximadamente el 99 por ciento genéticamente iguales. El tipo más común de variación genética, que contribuye al 1% que nos hace diferentes, sonllamados polimorfismos de un solo nucleótido, o SNP pronunciado "snips".

Los SNP ocurren casi una vez de cada 1000 nucleótidos, lo que significa que hay entre 4 y 5 millones de SNP en el genoma de cada persona. Es una gran cantidad de datos para realizar un seguimiento, incluso para una persona, pero hace lo mismo para miles o millones de personas.es un verdadero desafío.

La mayoría de los estudios de la estructura de poblaciones en genética humana utilizan una herramienta llamada Análisis de componentes principales PCA, que analiza un gran conjunto de variables y lo reduce a un conjunto más pequeño que aún contiene la mayor parte de la misma información. El conjunto reducido de variables,conocidos como factores principales, son mucho más fáciles de analizar e interpretar.

Por lo general, los datos que se analizarán se almacenan en la memoria del sistema, pero a medida que los conjuntos de datos aumentan, la ejecución de PCA se vuelve inviable debido a la sobrecarga de cálculo y los investigadores necesitan usar aplicaciones externas. Para las empresas de pruebas genéticas más grandes, el almacenamiento de datos no essolo costoso y tecnológicamente desafiante, pero viene con preocupaciones de privacidad. Las compañías tienen la responsabilidad de proteger los datos de salud extremadamente detallados y personales de miles de personas, y almacenarlos en sus discos duros podría convertirlos en un objetivo atractivo para los piratas informáticos

Al igual que otros algoritmos fuera del núcleo, TeraPCA fue diseñado para procesar datos demasiado grandes para caber en la memoria principal de una computadora a la vez. Da sentido a grandes conjuntos de datos al leer pequeños fragmentos a la vez.

"En 2017, conocí a algunas personas de las grandes empresas de pruebas genéticas y les pregunté qué estaban haciendo para ejecutar PCA. Estaban usando FlashPCA2, que es el estándar de la industria, pero no estaban contentos con el tiempo", dijo Aritra Bose, un candidato a doctorado en ciencias de la computación en Purdue." Ejecutar PCA en los datos genéticos de un millón de individuos y tantos SNP con FlashPCA2 tomaría un par de días. Se puede hacer con TeraPCAen cinco o seis horas. "

El nuevo programa reduce el tiempo al hacer aproximaciones de los componentes principales principales. El redondeo a tres o cuatro lugares decimales produce resultados tan precisos como los números originales, dijo Bose.

"Las personas que trabajan en genética no necesitan 16 dígitos de precisión, eso no ayudará a los practicantes", dijo. "Solo necesitan de tres a cuatro. Si puede reducirlo a eso, entonces probablemente puedaobtenga sus resultados bastante rápido ".

La sincronización para TeraPCA también se mejoró mediante el uso de varios subprocesos de cálculo, conocidos como "subprocesos múltiples". Un subproceso es como un trabajador en una línea de montaje; si el proceso es el gerente, los subprocesos son empleados que trabajan duro.los empleados dependen del mismo conjunto de datos, pero ejecutan sus propias pilas.

Hoy en día, la mayoría de las universidades y las grandes empresas tienen arquitecturas de subprocesos múltiples, pero FlashPCA2 no las aprovecha. Para tareas como analizar datos genéticos, Bose cree que es una oportunidad perdida.

"Pensamos que deberíamos construir algo que aproveche la arquitectura de subprocesos múltiples que existe en este momento, y nuestro método escala realmente bien", dijo. "TeraPCA escala linealmente con la cantidad de subprocesos que tienes. FlashPCA2 no hace esto, lo cualsignifica que llevaría mucho tiempo alcanzar la precisión deseada ".

En comparación con FlashPCA2, TeraPCA funciona de manera similar o mejor en un solo subproceso y significativamente mejor con subprocesos múltiples, según el documento. El código ya está disponible en GitHub.

Esta investigación fue apoyada por la National Science Foundation. Vassilis Kalantzis, becario postdoctoral Herman H. Goldstine Memorial en IBM Research, es co-primer autor del artículo.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Universidad de Purdue . Nota: el contenido se puede editar por estilo y longitud.

Referencia de la revista :

Aritra Bose, Vassilis Kalantzis, Eugenia-Maria Kontopoulou, Mai Elkady, Peristera Paschou, Petros Drineas. TeraPCA: un paquete de software rápido y escalable para estudiar la variación genética en genotipos de teraescala . Bioinformática , 2019; DOI: 10.1093 / bioinformática / btz157

cite esta página :

Purdue University. "Las pruebas genéticas tienen un problema de datos; el nuevo software puede ayudar". ScienceDaily. ScienceDaily, 30 de abril de 2019. .

Purdue University. 2019, 30 de abril. Las pruebas genéticas tienen un problema de datos; el nuevo software puede ayudar. ScienceDaily . Consultado el 21 de noviembre de 2020 en www.science-things.com/releases/2019/04/190430164247.htm

Purdue University. "Las pruebas genéticas tienen un problema de datos; el nuevo software puede ayudar". ScienceDaily. Www.science-things.com/releases/2019/04/190430164247.htm consultado el 21 de noviembre de 2020.

1

2

3

4

5

HISTORIAS RELACIONADAS

DESDE LA WEB

ScienceDaily comparte enlaces con sitios en red TrendMD y obtiene ingresos de anunciantes externos, cuando se indique.

1

2

Las pruebas genéticas tienen un problema de datos; el nuevo software puede ayudar

1

2

3

4

5

1

2

3

4

5

Los anillos de los árboles pueden contener pistas sobre los impactos de supernovas distantes en la Tierra

Nebulosa del anillo azul: Misterio cósmico de 16 años resuelto, revelando el eslabón perdido estelar

Los astronautas SpaceX Crew-1 de la NASA se dirigen a la Estación Espacial Internacional

Un camino hacia adelante de nanomateriales para el desarrollo de la vacuna COVID-19

Conexión entre productos químicos domésticos y microbioma intestinal

El sistema lleva el aprendizaje profundo a los dispositivos de 'Internet de las cosas'

Los videojuegos pueden cambiar tu cerebro

COVID-19 mayor ansiedad, depresión para estudiantes universitarios que ya están estresados

Los informáticos lanzan una contraofensiva contra los tramposos de los videojuegos

La geología de campo en el ecuador de Marte apunta a la antigua megainundación

Jets recién nacidos en galaxias distantes

Nebulosa del anillo azul: Misterio cósmico de 16 años resuelto, revelando el eslabón perdido estelar

Protoceldas biofriendly bombean los vasos sanguíneos

Mostrando a los robots cómo conducir un automóvil ... en solo unas pocas lecciones fáciles

Los investigadores identifican características que podrían convertir a alguien en un súper esparcidor de virus

Una red neuronal aprende cuándo no se debe confiar en ella

El nuevo aerosol magnético transforma objetos en milirobots para aplicaciones biomédicas

El origami curvo proporciona una nueva gama de rigidez a flexibilidad en robots