Los estudios de asociación de todo el genoma, que buscan vínculos entre variantes genéticas particulares y la incidencia de enfermedades, son la base de gran parte de la investigación biomédica moderna.
Pero las bases de datos de información genómica plantean riesgos para la privacidad. A partir de los datos genómicos en bruto de las personas, es posible inferir sus apellidos y quizás incluso la forma de sus rostros. Muchas personas se muestran reacias a contribuir con sus datos genómicos a proyectos de investigación biomédica, yLa organización que alberga un gran depósito de datos genómicos podría realizar una revisión de meses antes de decidir si concede la solicitud de acceso de un investigador.
en un documento que aparece hoy en Biotecnología de la naturaleza , investigadores del MIT y la Universidad de Stanford presentan un nuevo sistema para proteger la privacidad de las personas que contribuyen con sus datos genómicos a estudios biomédicos a gran escala. Donde los métodos criptográficos anteriores eran tan intensivos en computación que se volvieron prohibitivos para más de unos pocosmiles de genomas, el nuevo sistema promete una protección de la privacidad eficiente para los estudios realizados en hasta un millón de genomas.
"Como investigadores biomédicos, estamos frustrados por la falta de datos y por los repositorios de acceso controlado", dice Bonnie Berger, profesora de matemáticas Simons en el MIT y autora correspondiente del artículo. "Anticipamos un futuro con unpaisaje de datos genómicos distribuidos masivamente, donde individuos privados toman posesión de sus propios genomas personales, e institutos y hospitales construyen sus propias bases de datos genómicas privadas. Nuestro trabajo proporciona una hoja de ruta para agrupar esta gran cantidad de datos genómicos para permitir el progreso científico."
El primer autor del artículo es Hyunghoon Cho, un estudiante de posgrado en ingeniería eléctrica e informática en el MIT; a él y a Berger se une David Wu, un estudiante de posgrado en ciencias de la computación en Stanford.
En el núcleo del sistema hay una técnica llamada intercambio secreto, que divide los datos confidenciales entre varios servidores. Para almacenar el número x, por ejemplo, un sistema de intercambio secreto puede enviar el número aleatorio r a un servidor y xr alotro.
Ninguno de los servidores es capaz de inferir x de forma independiente. Sin embargo, en conjunto, aún pueden realizar operaciones útiles. Si un servidor almacena un grupo de r y las suma, y el otro suma todas las xr correspondientes, entoncescompartir los resultados y sumarlos produciría la suma de todas las x. Sin embargo, ninguno de los servidores observaría el valor de una x.
Si ambos servidores son pirateados, por supuesto, el atacante podría reconstruir todas las x. Pero siempre que un servidor sea confiable, el sistema es seguro. Además, ese principio se generaliza a varios servidores. Si los datos se dividen entre, digamos,cuatro servidores, un atacante tendría que infiltrarse en los cuatro; piratear tres de ellos no es suficiente para extraer los datos.
En este contexto, sin embargo, la multiplicación es más complicada que la suma. Multiplicar dos x requiere la generación de tres números aleatorios más, conocidos como triple de Beaver, por el criptógrafo Donald Beaver, además de las r. Esos tres números, a su vez, debe dividirse entre los servidores que utilizan el uso compartido secreto. Agregar los componentes secretos compartidos de esos números a las x y las r antes de la multiplicación da lugar a una expresión algebraica en la que se puede filtrar toda la aleatoriedad agregada, dejando solo el productode las dos x.
Los estudios de asociación de todo el genoma involucran una tabla masiva, o matriz, que mapea los genomas en la base de datos con las ubicaciones de las variaciones genéticas conocidas como SNP, para polimorfismos de un solo nucleótido. Los SNP normalmente suman alrededor de un millón, por lo quesi la base de datos contiene un millón de genomas, el resultado será una matriz de millón por millón.
Encontrar correlaciones de enfermedades útiles requiere filtrar correlaciones engañosas, un proceso conocido como corrección de estratificación de la población. Los asiáticos orientales, por ejemplo, suelen ser intolerantes a la lactosa, pero también tienden a ser más bajos que los europeos del norte. Una investigación ingenua de los correlatos genéticos deLa intolerancia a la lactosa podría terminar identificando a los de la altura.
La corrección de la estratificación de la población generalmente se basa en un algoritmo llamado análisis de componentes principales, que requiere multiplicaciones repetidas que involucran a toda la matriz SNP versus genoma. Si cada entrada en la matriz necesita su propio conjunto de triples de Beaver para cada una de esas multiplicaciones, analizar unmillones de genomas consumirían un tiempo prohibitivo.
Pero Cho, Berger y Wu encontraron una manera de estructurar esa secuencia de multiplicaciones para que muchos de los triples de Beaver puedan calcularse solo una vez y reutilizarse, reduciendo drásticamente la complejidad del cálculo.
También usan un par de técnicas más para acelerar su sistema. Debido a que los triples de Beaver deben compartirse en secreto, cada número en el triple de Beaver tiene un número aleatorio asociado: en el escenario de dos servidores, un servidor obtendría el número aleatorioy el otro obtendría el número de Beaver menos el número aleatorio.
En el sistema de Cho, Berger y Wu, hay un servidor dedicado a generar triples de Beaver y compartirlos en secreto. Pero si bien necesita transmitir los números de Beaver menos los números aleatorios asociados a los servidores apropiados, no necesita transmitirlos números aleatorios en sí mismos. En su lugar, simplemente comparte el número que utiliza para "sembrar" un algoritmo conocido como generador de números pseudoaleatorios. Los servidores receptores pueden generar los números aleatorios por sí mismos, lo que ahorra una gran cantidad de ancho de banda de comunicación.
Finalmente, al realizar todas sus multiplicaciones, el sistema en realidad no usa la matriz completa de millón por millón. En su lugar, usa una técnica de aproximación llamada proyección aleatoria para reducir la matriz y preservar la precisión de los resultados del cálculo final..
Sobre la base de estas técnicas, el sistema de Cho, Berger y Wu reprodujo con precisión tres estudios de asociación de todo el genoma publicados que incluían 23000 genomas individuales. Los resultados de esos análisis sugieren que el sistema debería escalar de manera eficiente a un millón de genomas.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :