La primera secuencia verdaderamente completa de un genoma humano, que cubre cada cromosoma de extremo a extremo sin espacios y con una precisión sin precedentes, ahora se puede acceder a través del navegador del genoma de la UCSC y se describe en seis artículos publicados el 31 de marzo en Ciencia.
Desde que se elaboró el primer borrador de trabajo de una secuencia del genoma humano en la UC Santa Cruz en 2000, la investigación genómica ha llevado a enormes avances en nuestra comprensión de la biología y las enfermedades humanas. Sin embargo, las regiones cruciales representan alrededor del 8% del genoma humanohan permanecido ocultos para los científicos durante más de 20 años debido a las limitaciones de las tecnologías de secuenciación del ADN.
Karen Miga, profesora asistente de ingeniería biomolecular en UC Santa Cruz, y Adam Phillippy en el Instituto Nacional de Investigación del Genoma Humano NHGRI organizaron un equipo internacional de científicos, el Consorcio Telomere-to-Telomere T2T, para llenaren las piezas faltantes. Sus esfuerzos ahora han valido la pena.
El nuevo genoma de referencia, llamado T2T-CHM13, agrega casi 200 millones de pares de bases de nuevas secuencias de ADN, incluidos 99 genes que probablemente codifiquen proteínas y casi 2000 genes candidatos que necesitan más estudio. También corrige miles de errores estructurales en elsecuencia de referencia actual.
Los vacíos que ahora llena la nueva secuencia incluyen los brazos cortos completos de cinco cromosomas humanos y cubren algunas de las regiones más complejas del genoma. Estas incluyen secuencias de ADN altamente repetitivas que se encuentran dentro y alrededor de estructuras cromosómicas importantes, como los telómeros en elextremos de los cromosomas y los centrómeros que coordinan la separación de los cromosomas replicados durante la división celular. La nueva secuencia también revela duplicaciones segmentarias no detectadas previamente, tramos largos de ADN que se duplican en el genoma y se sabe que juegan un papel importante en la evolución y la enfermedad.
"Estas partes del genoma humano que no hemos podido estudiar durante más de 20 años son importantes para nuestra comprensión de cómo funciona el genoma, las enfermedades genéticas y la diversidad y evolución humana", dijo Miga.
Muchas de las regiones recientemente reveladas tienen funciones importantes en el genoma, incluso si no incluyen genes activos.
"Hay una gran ventaja en ver el genoma completo como un sistema completo. Nos coloca en una posición para desentrañar cómo funciona ese sistema", dijo David Haussler, director del Instituto de Genómica de UC Santa Cruz. "Hemos logradouna enorme comprensión de la biología humana y las enfermedades al tener aproximadamente el 90 por ciento del genoma humano, pero había muchos aspectos importantes que permanecían ocultos, fuera de la vista de la ciencia, porque no teníamos la tecnología para leer esas partes del genoma.podemos pararnos en la cima de la montaña y ver todo el paisaje debajo y obtener una imagen completa de nuestra herencia genética humana".
La secuencia del genoma T2T, que representa el genoma CHM13 terminado más el cromosoma Y T2T recientemente terminado CHM13 incluye un cromosoma X pero no un cromosoma Y, ahora es un nuevo genoma de referencia en el navegador del genoma de UCSC. La secuencia T2T está completamente anotada enel navegador, proporcionando una forma eficiente para que los científicos accedan y visualicen una gran cantidad de información asociada con los genes y otros elementos del genoma.
"Queríamos publicar la información de una manera que sea accesible y familiar para los investigadores para que puedan comenzar a desarrollarla y usar todas las herramientas y recursos que proporciona el navegador", explicó Miga.
El nuevo genoma de referencia T2T complementará el genoma de referencia humano estándar, conocido como Genome Reference Consortium build 38 GRCh38, que tuvo su origen en el Proyecto Genoma Humano financiado con fondos públicos y se ha actualizado continuamente desde el primer borrador en 2000.
"Estamos agregando un segundo genoma completo, y luego habrá más", explicó Haussler. "La próxima fase es pensar en la referencia para el genoma de la humanidad como si no fuera una sola secuencia genómica. Esta es una transición profunda,el presagio de una nueva era en la que eventualmente capturaremos la diversidad humana de una manera imparcial".
El Consorcio T2T ahora se ha unido al Consorcio de Referencia del Pangenoma Humano, cuyo objetivo es crear una nueva "referencia del pangenoma humano" basada en las secuencias del genoma completo de 350 individuos.
"Pangenomics se trata de capturar la diversidad de la población humana, y también se trata de garantizar que hemos capturado todo el genoma correctamente", dijo Benedict Paten, profesor asociado de ingeniería biomolecular en UCSC, coautor de los artículos de T2T, y unlíder del esfuerzo pangenomics."Sin tener un mapa de estas regiones difíciles de secuenciar del genoma a través de múltiples individuos, nos estamos perdiendo una gran cantidad de la variación presente en nuestra población. T2T nos prepara para mirar a través de cientosde genomas de telómero a telómero. ¡Va a ser genial!"
El genoma de referencia estándar GRCh38 no representa a ningún individuo, sino que se ensambló a partir de múltiples donantes. Al fusionarlos en una secuencia lineal, se crearon estructuras artificiales en la secuencia. El Proyecto Pangenoma Humano permitirá comparar genomas recién secuenciados con múltiplesgenomas completos que representan una variedad de ancestros humanos.
Un resultado importante de la nueva secuencia T2T es permitir evaluaciones más precisas de variantes genéticas. Cuando los genomas humanos se secuencian para estudios clínicos para comprender el papel de las variantes genéticas en enfermedades o para estudiar la diversidad genética dentro y entre poblaciones humanas, son casisiempre se analiza alineando los resultados de la secuenciación con el genoma de referencia para la comparación. El equipo de variantes T2T documentó mejoras importantes en la identificación e interpretación de variantes genéticas utilizando la nueva secuencia T2T en comparación con el genoma de referencia humano estándar.
"El nuevo genoma humano es increíblemente preciso en el nivel básico, lo que nos permite marcar cientos de miles de variantes que se habían malinterpretado al asignarlas a la referencia estándar. Muchas de estas nuevas variantes se encuentran en genes que se sabe que contribuyen a la enfermedad.Ahora podemos detectarlos porque tenemos un genoma de referencia más completo y preciso", dijo Miga.
La investigación de Miga se ha centrado en el ADN satélite, los largos tramos de secuencias repetitivas de ADN que se encuentran principalmente en y alrededor de los telómeros y centrómeros. Los centrómeros separan cada cromosoma en un brazo corto y un brazo largo y mantienen juntos los cromosomas duplicados antes de la división celular.
"Los centrómeros juegan un papel crítico en cómo los cromosomas se segregan adecuadamente durante la división celular, y sabemos desde hace algún tiempo que están mal regulados en todo tipo de enfermedades humanas. Pero nunca hemos podido estudiarlos en elnivel de secuencia ", dijo Miga. "Con mucho, la mayor parte de las nuevas secuencias agregadas a la referencia son ADN satélite centrómero. Por primera vez, podemos estudiar 'base por base' las secuencias que definen el centrómero y podemos comenzar aentender cómo funciona".
Las tecnologías de secuenciación de ADN de "lectura larga", como la secuenciación de nanoporos iniciada en UC Santa Cruz, fueron herramientas esenciales para el Consorcio T2T. Dos conjuntos de datos de secuenciación de lectura larga: lecturas de alta fidelidad datos HiFi de sistemas PacBio y extremadamentelecturas largas que habitualmente alcanzan longitudes superiores a 100 000 pares de bases datos ultralargos de dispositivos Oxford Nanopore, permitieron a los investigadores de T2T abarcar regiones repetitivas y desarrollar estrategias para garantizar que el ensamblaje fuera muy preciso.Miten Jain y otros investigadores del Instituto de Genómica de la UCSCayudó a establecer el protocolo de lectura ultralarga.
UC Santa Cruz tiene una larga historia de liderazgo en genómica, comenzando con una reunión fundamental en 1985 para discutir la secuenciación del genoma humano organizada en UCSC por el entonces rector Robert Sinsheimer. Haussler fue invitado a unirse al Proyecto Genoma Humano público enen 1999, y su equipo desempeñó un papel crucial en su finalización. En ese momento, James Kent, ahora científico investigador en el Instituto de Genómica y director del proyecto Navegador del Genoma de la UCSC, era un estudiante graduado de la UCSC. Él escribió el código que ensambló elprimer borrador de trabajo del genoma humano a partir de datos obtenidos por el Consorcio Internacional de Secuenciación del Genoma Humano, y UCSC publicó el borrador en línea para que todo el mundo pudiera acceder a él. Luego, Kent creó el UCSC Genome Browser, que sigue siendo la plataforma más utilizada para acceder al genoma humano..
El Instituto de Genómica de UC Santa Cruz ha seguido estando a la vanguardia de la investigación genómica y desempeña un papel de liderazgo en los esfuerzos de T2T y pangenómica.
"El trabajo de T2T refleja los esfuerzos sostenidos y dedicados de muchas personas en UC Santa Cruz y en otros lugares. Karen Miga ha estado trabajando arduamente para obtener secuencias de centrómeros reales en los ensamblajes del genoma humano durante una década, ¡y esto finalmente ha llegado a buen término!" dijo Kent. "Estoy muy emocionado de ver este trabajo combinado con los esfuerzos para obtener secuencias de telómero a telómero de otros ancestros humanos. Estamos avanzando rápidamente hacia una representación verdaderamente completa del genoma humano".
Miga es co-autor correspondiente de la principal Ciencia artículo, "La secuencia completa de un genoma humano", junto con Adam Phillippy en NHGRI y Evan Eichler en la Universidad de Washington. También es coautora correspondiente de los artículos sobre "Mapas genómicos y epigenéticos completos de centrómeros humanos" y "Patrones epigenéticos en un genoma humano completo", y coautor de los artículos sobre "Duplicaciones segmentarias y su variación en un genoma humano completo", "Un genoma de referencia completo mejora el análisis de la variación genética humana" y "Del telómero altelómero: el estado transcripcional y epigenético de los elementos repetidos humanos".
Otros investigadores del Instituto de Genómica de UC Santa Cruz que son coautores de los artículos incluyen a Benedict Paten, Mark Diekhans, Erik Garrison ahora en el Centro de Ciencias de la Salud de la Universidad de Tennessee, Marina Haukness, Miten Jain y Kishwar Shafin. Este trabajo fueapoyado por los Institutos Nacionales de Salud.
Fuente de la historia:
Materiales proporcionado por Universidad de California - Santa Cruz. Original escrito por Tim Stephens. Nota: el contenido se puede editar por estilo y longitud.
referencia de diario:
Citar esta página:
Visita Nuevo científico for more global science stories >>>