En los últimos años, el mercado de pruebas genéticas directas al consumidor se ha disparado. La cantidad de personas que usaron pruebas de ADN en el hogar se duplicó en 2017, la mayoría en los EE. UU. Aproximadamente 1 de cada 25 adultos estadounidenses ahorade donde vinieron sus antepasados, gracias a empresas como AncestryDNA y 23andMe.
A medida que las pruebas se vuelven más populares, estas empresas están lidiando con cómo almacenar todos los datos acumulados y cómo procesar los resultados rápidamente. Una nueva herramienta llamada TeraPCA, creada por investigadores de la Universidad de Purdue, ahora está disponible para ayudar. Los resultados fueronpublicado en la revista Bioinformática .
A pesar de las muchas diferencias físicas de las personas determinadas por factores como la etnia, el sexo o el linaje, dos humanos son aproximadamente el 99 por ciento genéticamente iguales. El tipo más común de variación genética, que contribuye al 1% que nos hace diferentes, sonllamados polimorfismos de un solo nucleótido, o SNP pronunciado "snips".
Los SNP ocurren casi una vez de cada 1000 nucleótidos, lo que significa que hay entre 4 y 5 millones de SNP en el genoma de cada persona. Es una gran cantidad de datos para realizar un seguimiento, incluso para una persona, pero hace lo mismo para miles o millones de personas.es un verdadero desafío.
La mayoría de los estudios de la estructura de poblaciones en genética humana utilizan una herramienta llamada Análisis de componentes principales PCA, que analiza un gran conjunto de variables y lo reduce a un conjunto más pequeño que aún contiene la mayor parte de la misma información. El conjunto reducido de variables,conocidos como factores principales, son mucho más fáciles de analizar e interpretar.
Por lo general, los datos que se analizarán se almacenan en la memoria del sistema, pero a medida que los conjuntos de datos aumentan, la ejecución de PCA se vuelve inviable debido a la sobrecarga de cálculo y los investigadores necesitan usar aplicaciones externas. Para las empresas de pruebas genéticas más grandes, el almacenamiento de datos no essolo costoso y tecnológicamente desafiante, pero viene con preocupaciones de privacidad. Las compañías tienen la responsabilidad de proteger los datos de salud extremadamente detallados y personales de miles de personas, y almacenarlos en sus discos duros podría convertirlos en un objetivo atractivo para los piratas informáticos
Al igual que otros algoritmos fuera del núcleo, TeraPCA fue diseñado para procesar datos demasiado grandes para caber en la memoria principal de una computadora a la vez. Da sentido a grandes conjuntos de datos al leer pequeños fragmentos a la vez.
"En 2017, conocí a algunas personas de las grandes empresas de pruebas genéticas y les pregunté qué estaban haciendo para ejecutar PCA. Estaban usando FlashPCA2, que es el estándar de la industria, pero no estaban contentos con el tiempo", dijo Aritra Bose, un candidato a doctorado en ciencias de la computación en Purdue." Ejecutar PCA en los datos genéticos de un millón de individuos y tantos SNP con FlashPCA2 tomaría un par de días. Se puede hacer con TeraPCAen cinco o seis horas. "
El nuevo programa reduce el tiempo al hacer aproximaciones de los componentes principales principales. El redondeo a tres o cuatro lugares decimales produce resultados tan precisos como los números originales, dijo Bose.
"Las personas que trabajan en genética no necesitan 16 dígitos de precisión, eso no ayudará a los practicantes", dijo. "Solo necesitan de tres a cuatro. Si puede reducirlo a eso, entonces probablemente puedaobtenga sus resultados bastante rápido ".
La sincronización para TeraPCA también se mejoró mediante el uso de varios subprocesos de cálculo, conocidos como "subprocesos múltiples". Un subproceso es como un trabajador en una línea de montaje; si el proceso es el gerente, los subprocesos son empleados que trabajan duro.los empleados dependen del mismo conjunto de datos, pero ejecutan sus propias pilas.
Hoy en día, la mayoría de las universidades y las grandes empresas tienen arquitecturas de subprocesos múltiples, pero FlashPCA2 no las aprovecha. Para tareas como analizar datos genéticos, Bose cree que es una oportunidad perdida.
"Pensamos que deberíamos construir algo que aproveche la arquitectura de subprocesos múltiples que existe en este momento, y nuestro método escala realmente bien", dijo. "TeraPCA escala linealmente con la cantidad de subprocesos que tienes. FlashPCA2 no hace esto, lo cualsignifica que llevaría mucho tiempo alcanzar la precisión deseada ".
En comparación con FlashPCA2, TeraPCA funciona de manera similar o mejor en un solo subproceso y significativamente mejor con subprocesos múltiples, según el documento. El código ya está disponible en GitHub.
Esta investigación fue apoyada por la National Science Foundation. Vassilis Kalantzis, becario postdoctoral Herman H. Goldstine Memorial en IBM Research, es co-primer autor del artículo.
Fuente de la historia :
Materiales proporcionado por Universidad de Purdue . Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :