Los científicos del Helmholtz Zentrum München han desarrollado un programa que puede ayudar a administrar enormes conjuntos de datos. El software, llamado Scanpy, es un candidato para analizar el Atlas de células humanas, y se ha publicado recientemente en Biología del genoma.
"Se trata de analizar los datos de expresión génica de una gran cantidad de células individuales", explica el autor principal Alex Wolf del Instituto de Biología Computacional ICB en Helmholtz Zentrum München. Desarrolló Scanpy junto con su colega Philipp Angerer en la máquinaGrupo de Aprendizaje del Prof. Dr. Dr. Fabian Theis. Además de su puesto en Helmholtz Zentrum, Theis también es profesor de modelado matemático de sistemas biológicos en la Universidad Técnica de Munich. "Los nuevos avances técnicos generan varios órdenes de magnitud más datoscon un contenido de información correspondientemente mayor ", dice Theis." Sin embargo, la infraestructura de software históricamente desarrollada para el análisis de expresión génica simplemente no fue diseñada para enfrentar los nuevos desafíos. Por lo tanto, se necesitan nuevos métodos analíticos ".
La carrera por el Atlas de células humanas
Según Theis, un importante proyecto de investigación internacional también podría beneficiarse del software. Un equipo de científicos internacionales está compilando una base de datos de referencia, llamada Human Cell Atlas, que contiene datos sobre la actividad genética de todos los tipos de células humanas ".este proyecto, y en un número creciente de otros proyectos en los que se combinan bases de datos, es importante contar con un software escalable ", dice Theis. Por lo tanto, no es sorprendente que Scanpy sea actualmente un candidato para ayudar a analizar el Atlas de células humanas".
"La publicación de Scanpy marca el primer software que permite el análisis exhaustivo de grandes conjuntos de datos de expresión génica con una amplia gama de métodos de aprendizaje automático y estadísticos", explica Wolf, describiendo el logro. "El software ya está siendo utilizado por unnúmero de grupos en todo el mundo, especialmente en el Broad Institute of Harvard University y el Massachusetts Institute of Technology, MIT ".
Tecnológicamente, la aplicación es un desarrollo pionero: mientras que los programas de bioestadística se escriben tradicionalmente en el lenguaje de programación R, Scanpy se basa en el lenguaje Python, el idioma dominante en la comunidad de aprendizaje automático. Otra característica nueva es que los algoritmos basados en gráficos se encuentranEn el corazón de Scanpy. A diferencia del enfoque habitual de considerar las células como puntos en un sistema de coordenadas dentro del espacio de expresión génica, los algoritmos usan un sistema de coordenadas tipo gráfico. En lugar de caracterizar una sola célula por el valor de expresión de miles de genes,el sistema simplemente caracteriza las células identificando a sus vecinos más cercanos, de forma muy similar a las conexiones en las redes sociales. De hecho, para identificar los tipos de células, Scanpy usa los mismos algoritmos que Facebook para identificar comunidades.
Fuente de la historia :
Materiales proporcionado por Helmholtz Zentrum Muenchen - Centro Alemán de Investigación para la Salud Ambiental . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :