Las búsquedas en la base de datos de secuencias de ADN que pueden llevar días de biólogos e investigadores médicos ahora se pueden completar en cuestión de minutos, gracias a un nuevo método de búsqueda desarrollado por científicos informáticos de la Universidad Carnegie Mellon.
El método desarrollado por Carl Kingsford, profesor asociado de biología computacional, y Brad Solomon, estudiante de doctorado en el Departamento de Biología Computacional, está diseñado para buscar las llamadas "lecturas cortas" - secuencias de ADN y ARN generadas portécnicas de secuenciación de alto rendimiento. Se basa en una nueva estructura de datos de indexación, llamada Sequence Bloom Trees, o SBT, que los investigadores describen en un informe publicado en línea por la revista Biotecnología de la naturaleza .
Los Institutos Nacionales de Salud mantienen una enorme base de datos, llamada Sequence Read Archive, que contiene alrededor de tres petabases, o secuencias que suman un total de tres billones de pares de bases. La información es útil para una amplia franja de investigadores, de aquellos que hacen preguntas sobre la información básicaprocesos biológicos para quienes estudian posibles curas del cáncer
"La base de datos contiene un número incalculable de ideas aún no descubiertas y se usa mucho", dijo Kingsford. "Su principal problema es que es muy difícil de buscar".
Se necesitarían miles de discos duros para almacenar estas secuencias. Buscando a través de las lecturas cortas, que generalmente son de 50 a 200 pares de bases cada una, para ver cuáles podrían ensamblarse para formar un gen objetivo de quizás 10,000 pares de bases,Es engorroso y puede tomar días en algunos casos, señaló.
Así como un índice puede acelerar las búsquedas a través de un libro o catálogo, el índice basado en SBT desarrollado por Kingsford y Solomon puede acelerar enormemente las búsquedas de esta base de datos bioinformática. En realidad, representan cada lectura corta como un conjunto de subsecuencias de longitud fija, empleandoestructuras de datos llamadas filtros Bloom que pueden almacenar información de manera eficiente en un espacio pequeño y pueden probar si un elemento es parte de un conjunto.
En el primer nivel de consulta, los SBT pueden determinar si la secuencia de ADN objetivo está contenida en la base de datos. Si es así, la búsqueda pasa al siguiente nivel, donde los SBT indican si la secuencia está en la mitad oel otro de la base de datos. En cada nivel, la consulta se ramifica de una forma u otra hasta que se identifiquen los experimentos deseados.
Kingsford y Solomon probaron su técnica utilizando una base de datos de 2.652 experimentos de sangre, mama y cerebro humanos, cada uno de los cuales a menudo contiene más de mil millones de pares de bases de secuencias de ARN. Descubrieron que la mayoría de las búsquedas de esa base de datos podrían completarse en un promediode 20 minutos. Estimaron que el tiempo de búsqueda comparable utilizando las técnicas existentes, conocidas como SRA-BLAST y STAR, tomaría 2.2 días y 921 días, respectivamente.
Es posible que se realicen más aceleraciones porque se pueden realizar lotes de más de 200,000 consultas simultáneamente, anotaron.
Fuente de la historia :
Materiales proporcionado por Universidad Carnegie Mellon . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :