Noticias de ciencia

de organizaciones de investigación

Búsqueda de grandes datos más rápido

El análisis teórico podría ampliar las aplicaciones de búsqueda acelerada en biología, otros campos

Fecha :: 26 de agosto de 2015
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: Durante más de una década, los secuenciadores de genes han estado mejorando más rápidamente que las computadoras requeridas para dar sentido a sus resultados. La búsqueda de secuencias de ADN en las bases de datos genómicas existentes ya puede llevar horas, y es probable que el problema empeore. Recientemente,Los científicos han estado investigando técnicas para hacer que los datos biológicos y químicos sean más fáciles de analizar comprimiéndolos, en cierto sentido.
Compartir :

HISTORIA COMPLETA

Durante más de una década, los secuenciadores de genes han estado mejorando más rápidamente que las computadoras requeridas para dar sentido a sus resultados. La búsqueda de secuencias de ADN en las bases de datos genómicas existentes ya puede llevar horas, y es probable que el problema empeore.

anuncio

Recientemente, el grupo de Bonnie Berger en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT ha estado investigando técnicas para hacer que los datos biológicos y químicos sean más fáciles de analizar, en cierto sentido, comprimiéndolos.

en el último número de la revista Sistemas celulares Berger y sus colegas presentan un análisis teórico que demuestra por qué sus esquemas de compresión anteriores han tenido tanto éxito. Identifican propiedades de conjuntos de datos que los hacen susceptibles de compresión y presentan un algoritmo para determinar si un conjunto de datos dado tiene esas propiedades.también muestran que varias bases de datos existentes de compuestos químicos y moléculas biológicas los exhiben.

Dadas las mediciones de esas propiedades, los investigadores también pueden calcular las mejoras en la eficiencia de búsqueda que ofrecen sus técnicas de compresión. Para los conjuntos de datos que analizan, esas eficiencias se escalan de forma sublineal, lo que significa que cuanto mayor sea el conjunto de datos, más eficiente será la búsquedaser.

"Este documento proporciona un marco sobre cómo podemos aplicar algoritmos de compresión a datos biológicos a gran escala", dice Berger, profesor de matemáticas aplicadas en el MIT. "También tenemos pruebas de cuánta eficiencia podemos obtener".

La clave del esquema de compresión de los investigadores es que la evolución es tacaña con buenos diseños. Tiende a haber mucha redundancia en los genomas de organismos estrechamente relacionados, o incluso distantes.

anuncio

Eso significa que de todas las posibles secuencias de las cuatro letras de ADN - A, T, C y G - solo un subconjunto muy pequeño está representado por los genomas de organismos reales. Además, dentro del espacio de los posibles genomas,los de organismos reales no se distribuyen al azar, sino que trazan patrones continuos, que representan la tasa relativamente lenta a la que divergen las especies.

pájaros de una pluma

Para que la búsqueda sea más eficiente, los algoritmos de compresión del grupo Berger agrupan secuencias genómicas similares, aquellas que divergen solo por unas pocas letras de ADN, luego eligen una secuencia como representante del grupo. Una búsqueda puede concentrarse solo en los grupos más probables; la mayoría de los datos nunca tienen que ser examinados.

Si se imagina que los datos genómicos trazan un camino continuo a través de un espacio de posibilidades mucho mayor, entonces los grupos pueden verse como esferas superpuestas en los datos. Los puntos de datos que caen dentro de una sola esfera están estrechamente relacionados.

Berger y sus colegas, los primeros autores Noah Daniels, un postdoctorado en su grupo, y William Yu, un estudiante graduado en matemáticas aplicadas, y David Danko, un estudiante de pregrado en biología computacional, muestran que los conjuntos de datos son adecuados para sutécnicas de búsqueda compresiva si cumplen dos criterios. Al primero se refieren como entropía métrica. Esto significa que los datos habitan solo una pequeña parte del mayor espacio de posibilidades.

anuncio

El segundo es una dimensión fractal baja. Eso significa que la densidad de los puntos de datos no varía mucho a medida que avanza por los datos. Si su búsqueda requiere que explore tres esferas en lugar de una, solo toma tres veces más tiempo- no 10 veces o 100 veces

En su artículo, los investigadores del MIT analizan tres conjuntos de datos. Dos describen proteínas, una según sus secuencias de aminoácidos, la otra según su forma, y la tercera describe moléculas orgánicas. En otro documento, ahora bajoEn el envío, los investigadores aplican los mismos tipos de análisis a segmentos de ADN de entre 32 y 63 letras de longitud.

flecha del tiempo

La eficiencia de su algoritmo de búsqueda se escala de forma sublineal, no con el número de puntos de datos, sino con la entropía métrica del conjunto de datos, que es una medida formal de la continuidad de los datos y su escasez, en relación con el espacio de posibilidadesDebido a que la evolución es conservadora, la entropía métrica de los datos genómicos debería aumentar a medida que se secuencian nuevos genomas. Es decir, la adición de nuevos genomas, con toda probabilidad, no agregará nuevas ramas al patrón trazado en el espacio de posibilidades; más bien, rellenará huecos en el patrón existente, aumentando la entropía métrica.

Sin embargo, muchos otros grandes conjuntos de datos podrían ser conservadores de la misma manera. La gama de comportamientos exhibidos por los usuarios de la Web, por ejemplo, puede, en relación con todo el espacio de posibilidades, verse limitada por la biología, por la historia cultural, o ambas. Las técnicas de compresión de los investigadores del MIT podrían ser aplicables a una amplia gama de datos fuera de la biología.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.

Cite esta página :

Instituto de Tecnología de Massachusetts. "Búsqueda de grandes datos más rápido: el análisis teórico podría ampliar las aplicaciones de búsqueda acelerada en biología, otros campos". ScienceDaily. ScienceDaily, 26 de agosto de 2015. .

Instituto de Tecnología de Massachusetts. 26 de agosto de 2015. Búsqueda de grandes datos más rápido: el análisis teórico podría ampliar las aplicaciones de búsqueda acelerada en biología, otros campos. ScienceDaily . Recuperado el 19 de junio de 2020 de www.science-things.com/releases/2015/08/150826132013.htm

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Búsqueda de grandes datos más rápido

El análisis teórico podría ampliar las aplicaciones de búsqueda acelerada en biología, otros campos

1

2

3

4

5

1

2

3

4

5

Según seis nuevas estimaciones, hasta seis mil millones de planetas similares a la Tierra en nuestra galaxia

Nueva luz arrojada sobre la vida inteligente existente en toda la galaxia

Los astrónomos detectan el ritmo regular de las ondas de radio, con orígenes desconocidos

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

Los ingenieros ponen decenas de miles de sinapsis cerebrales artificiales en un solo chip

Los LED ultravioleta demuestran ser efectivos para eliminar el coronavirus de las superficies y, potencialmente, el aire y el agua

El primer lenguaje de programación intuitivo para computadoras cuánticas

¿Cómo corre el riesgo de contraer un virus en un avión?

El primer ojo artificial esférico del mundo tiene retina 3D

Nuevas investigaciones sugieren la presencia de galaxias no convencionales que contienen 2 agujeros negros

¿Es posible la teletransportación? Sí, en el mundo cuántico

¿Los planetas con océanos son comunes en la galaxia? Es probable, según los científicos

Diseño de material único para computaciones similares al cerebro

Nueva investigación conduce a aviones no tripulados que cambian de forma en pleno vuelo

Textiles inteligentes de grafeno desarrollados para ropa adaptable al calor

Un enfoque inspirado en las hormigas para el muestreo matemático

Un E-Skin de aprendizaje profundo decodifica el movimiento humano complejo

Discovery permite la impresión 3D de sensores directamente en órganos en expansión