El Avance del Pangenoma: Una Imagen Cristalina y Clara de la Diversidad Genómica Humana
El Consorcio de Referencia del Pan-genoma Humano ha logrado progresos significativos en la creación de un genoma de referencia humano más inclusivo mediante el ensamblaje de secuencias genómicas de 47 individuos de todo el mundo. El genoma de referencia humano original se basó en los datos de un solo individuo de origen africano-europeo, limitando su representación de la diversidad genética. Este nuevo pan-genoma, que representa más del 99% de cada secuencia con alta precisión, revela casi 120 millones de pares de bases de ADN no vistos anteriormente. Al proporcionar una representación más precisa de la diversidad genética humana, los investigadores pueden refinar su comprensión del vínculo entre los genes y las enfermedades, acelerar la investigación clínica y, en última instancia, ayudar a abordar las disparidades en salud.
En un avance importante, los científicos han ensamblado secuencias genómicas de 47 personas de diversos orígenes para crear un pan-genoma, que ofrece una representación más precisa de la diversidad genética humana que el genoma de referencia existente. Este nuevo pan-genoma ayudará a los investigadores a refinar su comprensión del vínculo entre los genes y las enfermedades, y podría ayudar a abordar las disparidades en salud.
Durante más de 20 años, los científicos han confiado en el genoma de referencia humano, una secuencia genética consensuada, como estándar para comparar otros datos genéticos. Utilizado en innumerables estudios, el genoma de referencia ha permitido identificar genes implicados en enfermedades específicas y rastrear la evolución de los rasgos humanos, entre otras cosas.
Pero siempre ha sido una herramienta imperfecta. Uno de sus mayores problemas es que alrededor del 70 por ciento de sus datos provienen de un solo hombre de origen predominantemente africano-europeo cuyo ADN fue secuenciado durante el Proyecto del Genoma Humano, el primer esfuerzo para capturar todo el ADN de una persona. Como resultado, nos dice muy poco sobre el 0,2 al uno por ciento de la secuencia genética que hace que cada uno de los siete mil millones de personas en este planeta sea diferente entre sí, creando un sesgo inherente en los datos biomédicos que se cree responsable de algunas de las disparidades en salud que afectan a los pacientes hoy en día. Por ejemplo, muchas variantes genéticas encontradas en poblaciones no europeas no están representadas en absoluto en el genoma de referencia.
El nuevo borrador de referencia del pan-genoma contiene 47 genomas en lugar de solo uno, y proporcionará un punto de comparación mucho mejor que la referencia tradicional para encontrar y comprender las diferencias en nuestro ADN. Crédito: Instituto Nacional de Investigación del Genoma Humano
Durante años, los investigadores han pedido un recurso más inclusivo de la diversidad humana con el que diagnosticar enfermedades y guiar tratamientos médicos. Ahora, los científicos del Consorcio de Referencia del Pan-genoma Humano han logrado un progreso innovador en la caracterización de la fracción de ADN humano que varía entre individuos. Como publicaron recientemente en Nature, han ensamblado secuencias genómicas de 47 personas de todo el mundo en un llamado pan-genoma en el que más del 99 por ciento de cada secuencia se representa con alta precisión.
Apilados unos sobre otros, estas secuencias revelaron casi 120 millones de pares de bases de ADN que no se habían visto antes.
Aunque todavía está en desarrollo, el pan-genoma es público y puede ser utilizado por científicos de todo el mundo como un nuevo estándar de referencia del genoma humano, dice Erich D. Jarvis, de la Universidad Rockefeller y uno de los investigadores principales.
"Esta compleja colección genómica representa una diversidad genética humana significativamente más precisa que nunca se haya capturado antes", dice. "Con una mayor amplitud y profundidad de datos genéticos a su disposición, y una mayor calidad de los ensamblajes genómicos, los investigadores pueden refinar su comprensión del vínculo entre los genes y los rasgos de enfermedades, y acelerar la investigación clínica".
Completado en 2003, el primer borrador del genoma humano fue relativamente impreciso, pero se hizo más preciso con los años gracias a los vacíos llenos, errores corregidos y al avance de la tecnología de secuenciación. Otro hito se alcanzó el año pasado, cuando finalmente se secuenció el último ocho por ciento del genoma, principalmente ADN muy enrollado que no codifica proteínas y regiones de ADN repetitivo.
A pesar de este progreso, el genoma de referencia sigue siendo imperfecto, especialmente con respecto al crítico 0,2 al uno por ciento de ADN que representa la diversidad. El Consorcio de Referencia del Pan-genoma Humano (HPRC), una colaboración financiada por el gobierno entre más de una docena de instituciones de investigación en Estados Unidos y Europa, fue lanzada en 2019 para abordar este problema.
En ese momento, Jarvis, uno de los líderes del consorcio, estaba perfeccionando métodos avanzados de secuenciación y computación a través del Proyecto de Genomas Vertebrados, que tiene como objetivo secuenciar todas las 70 000 especies de vertebrados. Él y otros laboratorios colaboradores decidieron aplicar estos avances para ensamblajes de genomas diploides de alta calidad para revelar la variación dentro de un solo vertebrado: Homo sapiens.
Para recolectar una diversidad de muestras, los investigadores recurrieron al Proyecto 1000 Genomas, una base de datos pública de genomas humanos secuenciados que incluye más de 2500 individuos representando 26 poblaciones geográfica y étnicamente variadas. La mayoría de las muestras provienen de África, hogar de la mayor diversidad humana del planeta.
"En muchos otros proyectos grandes de diversidad genómica humana, los científicos seleccionaron principalmente muestras europeas," dice Jarvis. "Hicimos un esfuerzo intencional para hacer lo contrario. Estábamos tratando de contrarrestar los sesgos del pasado."
Es probable que las variantes genéticas que podrían informar nuestro conocimiento tanto de enfermedades comunes como raras se puedan encontrar entre estas poblaciones.
Pero para ampliar el pool genético, los investigadores tuvieron que crear secuencias más nítidas y claras de cada individuo, y los enfoques desarrollados por miembros del Proyecto de Genoma de Vertebrados y consorcios asociados se utilizaron para resolver un problema técnico de larga data en el campo.
Cada persona hereda un genoma de cada padre, lo que da como resultado dos copias de cada cromosoma, dándonos lo que se conoce como un genoma diploide. Y cuando se secuencia el genoma de una persona, separar el ADN de los padres puede ser un desafío. Las técnicas y algoritmos antiguos han cometido errores rutinarios al fusionar datos genéticos parentales para un individuo, lo que resulta en una visión nublada. "Las diferencias entre los cromosomas de mamá y papá son más grandes de lo que la mayoría de la gente se da cuenta," dice Jarvis. "Mamá puede tener 20 copias de un gen y papá solo dos".
Con tantos genomas representados en un pan-genoma, esa nebulosidad amenazó con convertirse en una tormenta de confusión. Entonces, el HPRC se centró en un método desarrollado por Adam Phillippy y Sergey Koren en los Institutos Nacionales de Salud en tríos padre-hijo, que incluyen madre, padre e hijo cuyos genomas han sido secuenciados. Usando los datos de mamá y papá, pudieron aclarar las líneas de herencia y llegar a una secuencia de mayor calidad para el niño, que luego se usó para el análisis del pan-genoma.
El análisis de 47 personas por parte de los investigadores generó 94 secuencias genómicas distintas, dos para cada conjunto de cromosomas, además del cromosoma Y en hombres.
Luego utilizaron técnicas informáticas avanzadas para alinear y superponer las 94 secuencias. De los 120 millones de pares de bases de ADN que no se habían visto previamente o que estaban en una ubicación diferente a la que se habían observado en la referencia anterior, alrededor de 90 millones derivan de variantes estructurales, que son diferencias en el ADN de las personas que surgen cuando se reorganizan fragmentos de cromosomas, se mueven, eliminan, invierten o con copias adicionales de duplicaciones.
Es un descubrimiento importante, señala Jarvis, porque los estudios de los últimos años han establecido que las variantes estructurales juegan un papel importante en la salud humana, así como en la diversidad específica de la población. "Pueden tener efectos dramáticos en las diferencias de rasgos, enfermedades y función genética», dice. "Con tantos nuevos identificados, habrá muchas nuevas descubiertas que no eran posibles antes".
El ensamblaje de pan-genomas también rellena lagunas que se debían a secuencias repetitivas o genes duplicados. Un ejemplo es el complejo mayor de histocompatibilidad (MHC), un grupo de genes que codifican proteínas en la superficie de células, que ayudan al sistema inmunológico a reconocer antígenos, como los del virus SARS-CoV-2.
"Son realmente importantes, pero era imposible estudiar la diversidad del MHC utilizando los antiguos métodos de secuenciación", dice Jarvis. "Estamos viendo mucha mayor diversidad de la que esperábamos. Esta nueva información nos ayudará a entender cómo varían las respuestas inmunológicas contra patógenos específicos entre las personas." También podría conducir a mejores métodos para que los donantes y los pacientes de trasplantes de órganos se correspondan, o identifiquen a las personas en riesgo de desarrollar enfermedades autoinmunitarias.
El equipo también ha descubierto nuevas características sorprendentes de los centrómeros, que se encuentran en los cruces de los cromosomas y conducen a la división celular, separándose a medida que las células se duplican. Las mutaciones en los centrómeros pueden llevar a cánceres y otras enfermedades.
A pesar de tener secuencias de ADN altamente repetitivas, "los centrómeros son tan diversos de un haplotipo a otro, que pueden representar más del 50% de las diferencias genéticas entre las personas o los haplotipos maternos y paternos incluso dentro de un solo individuo", dice Jarvis. "Los centrómeros parecen ser una de las partes más rápidamente evolutivas del cromosoma."
El actual pan-genoma de 47 personas es solo un punto de partida, sin embargo. El objetivo final del HPRC es producir genomas de alta calidad y casi sin errores de al menos 350 individuos de diversas poblaciones para mediados de 2024, un hito que haría posible capturar alelos raros que confieren importantes rasgos adaptativos. Los tibetanos, por ejemplo, tienen alelos relacionados con el uso de oxígeno y la exposición a la luz UV que les permiten vivir en altitudes elevadas.
A major challenge in collecting this data will be to gain trust from communities that have seen past abuses of biological data; for example, there are no samples in the current study from Native American nor Aboriginal peoples, who have long been disregarded or exploited by scientific studies. But you don’t have to go far back in time to find examples of unethical use of genetic data: Just a few years ago, DNA samples from thousands of Africans in multiple countries were commercialized without the donors’ knowledge, consent, or benefit.
These offenses have sown mistrust against scientists among many populations. But by not being included, some of these groups could remain genetically obscure, leading to a perpetuation of the biases in the data—and to continued disparities in health outcomes.
“It’s a complex situation that’s going to require a lot of relationship building,” Jarvis says. “There’s greater sensitivity now.”
And even today, many groups are willing to participate. “There are individuals, institutions, and governmental bodies from different countries who are saying, ‘We want to be part of this. We want our population to be represented,’” Jarvis says. “We’re already making progress.”