Durante más de una década, los secuenciadores de genes han estado mejorando más rápidamente que las computadoras requeridas para dar sentido a sus resultados. La búsqueda de secuencias de ADN en las bases de datos genómicas existentes ya puede llevar horas, y es probable que el problema empeore.
Recientemente, el grupo de Bonnie Berger en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT ha estado investigando técnicas para hacer que los datos biológicos y químicos sean más fáciles de analizar, en cierto sentido, comprimiéndolos.
en el último número de la revista Sistemas celulares Berger y sus colegas presentan un análisis teórico que demuestra por qué sus esquemas de compresión anteriores han tenido tanto éxito. Identifican propiedades de conjuntos de datos que los hacen susceptibles de compresión y presentan un algoritmo para determinar si un conjunto de datos dado tiene esas propiedades.también muestran que varias bases de datos existentes de compuestos químicos y moléculas biológicas los exhiben.
Dadas las mediciones de esas propiedades, los investigadores también pueden calcular las mejoras en la eficiencia de búsqueda que ofrecen sus técnicas de compresión. Para los conjuntos de datos que analizan, esas eficiencias se escalan de forma sublineal, lo que significa que cuanto mayor sea el conjunto de datos, más eficiente será la búsquedaser.
"Este documento proporciona un marco sobre cómo podemos aplicar algoritmos de compresión a datos biológicos a gran escala", dice Berger, profesor de matemáticas aplicadas en el MIT. "También tenemos pruebas de cuánta eficiencia podemos obtener".
La clave del esquema de compresión de los investigadores es que la evolución es tacaña con buenos diseños. Tiende a haber mucha redundancia en los genomas de organismos estrechamente relacionados, o incluso distantes.
Eso significa que de todas las posibles secuencias de las cuatro letras de ADN - A, T, C y G - solo un subconjunto muy pequeño está representado por los genomas de organismos reales. Además, dentro del espacio de los posibles genomas,los de organismos reales no se distribuyen al azar, sino que trazan patrones continuos, que representan la tasa relativamente lenta a la que divergen las especies.
pájaros de una pluma
Para que la búsqueda sea más eficiente, los algoritmos de compresión del grupo Berger agrupan secuencias genómicas similares, aquellas que divergen solo por unas pocas letras de ADN, luego eligen una secuencia como representante del grupo. Una búsqueda puede concentrarse solo en los grupos más probables; la mayoría de los datos nunca tienen que ser examinados.
Si se imagina que los datos genómicos trazan un camino continuo a través de un espacio de posibilidades mucho mayor, entonces los grupos pueden verse como esferas superpuestas en los datos. Los puntos de datos que caen dentro de una sola esfera están estrechamente relacionados.
Berger y sus colegas, los primeros autores Noah Daniels, un postdoctorado en su grupo, y William Yu, un estudiante graduado en matemáticas aplicadas, y David Danko, un estudiante de pregrado en biología computacional, muestran que los conjuntos de datos son adecuados para sutécnicas de búsqueda compresiva si cumplen dos criterios. Al primero se refieren como entropía métrica. Esto significa que los datos habitan solo una pequeña parte del mayor espacio de posibilidades.
El segundo es una dimensión fractal baja. Eso significa que la densidad de los puntos de datos no varía mucho a medida que avanza por los datos. Si su búsqueda requiere que explore tres esferas en lugar de una, solo toma tres veces más tiempo- no 10 veces o 100 veces
En su artículo, los investigadores del MIT analizan tres conjuntos de datos. Dos describen proteínas, una según sus secuencias de aminoácidos, la otra según su forma, y la tercera describe moléculas orgánicas. En otro documento, ahora bajoEn el envío, los investigadores aplican los mismos tipos de análisis a segmentos de ADN de entre 32 y 63 letras de longitud.
flecha del tiempo
La eficiencia de su algoritmo de búsqueda se escala de forma sublineal, no con el número de puntos de datos, sino con la entropía métrica del conjunto de datos, que es una medida formal de la continuidad de los datos y su escasez, en relación con el espacio de posibilidadesDebido a que la evolución es conservadora, la entropía métrica de los datos genómicos debería aumentar a medida que se secuencian nuevos genomas. Es decir, la adición de nuevos genomas, con toda probabilidad, no agregará nuevas ramas al patrón trazado en el espacio de posibilidades; más bien, rellenará huecos en el patrón existente, aumentando la entropía métrica.
Sin embargo, muchos otros grandes conjuntos de datos podrían ser conservadores de la misma manera. La gama de comportamientos exhibidos por los usuarios de la Web, por ejemplo, puede, en relación con todo el espacio de posibilidades, verse limitada por la biología, por la historia cultural, o ambas. Las técnicas de compresión de los investigadores del MIT podrían ser aplicables a una amplia gama de datos fuera de la biología.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :