Le Pangenome Breakthrough: Une image cristalline claire de la diversité génomique humaine.
Le Human Pangenome Reference Consortium a fait des progrès significatifs dans la création d'un génome de référence humain plus inclusif en assemblant des séquences génomiques de 47 individus du monde entier. Le génome de référence humain original était basé sur les données d'un seul individu d'origine africaine-européenne, limitant sa représentation de la diversité génétique. Ce nouveau pangenome, qui rend plus de 99 % de chaque séquence avec une grande précision, révèle près de 120 millions de paires de bases d'ADN jamais vues auparavant. En fournissant une représentation plus précise de la diversité génétique humaine, les chercheurs peuvent affiner leur compréhension du lien entre les gènes et les maladies, accélérer la recherche clinique et finalement aider à résoudre les disparités de santé.
Dans une avancée majeure, des scientifiques ont assemblé des séquences génomiques de 47 personnes de milieux divers pour créer un pangenome, offrant une représentation plus précise de la diversité génétique humaine que le génome de référence existant. Ce nouveau pangenome aidera les chercheurs à affiner leur compréhension du lien entre les gènes et les maladies, et pourrait finalement aider à résoudre les disparités de santé.
Depuis plus de 20 ans, les scientifiques ont utilisé le génome de référence humain, une séquence génétique consensuelle, comme norme de comparaison pour d'autres données génétiques. Utilisé dans d'innombrables études, le génome de référence a permis d'identifier les gènes impliqués dans des maladies spécifiques et de retracer l'évolution des traits humains, entre autres choses.
Mais il a toujours été un outil imparfait. L'un de ses plus grands problèmes est que environ 70 % de ses données provenaient d'un seul homme d'origine africaine-européenne dont l'ADN a été séquencé lors du projet du génome humain, la première tentative de capturer tout l'ADN d'une personne. En conséquence, il peut nous en dire peu sur les 0,2 à 1 % de la séquence génétique qui rendent chaque individu parmi les sept milliards de personnes sur cette planète différent des autres, créant un biais inhérent dans les données biomédicales estimées être à l'origine de certaines disparités de santé chez les patients aujourd'hui. De nombreux variants génétiques trouvés dans les populations non-européennes, par exemple, ne sont pas du tout représentés dans le génome de référence.
Le nouveau projet de pangenome contient 47 génomes au lieu d'un seul, et fournira un point de comparaison bien meilleur que la référence traditionnelle pour trouver et comprendre les différences dans notre ADN. Crédit : National Human Genome Research Institute
Depuis des années, les chercheurs ont demandé une ressource plus inclusive de la diversité humaine pour diagnostiquer les maladies et guider les traitements médicaux. Maintenant, des scientifiques du Human Pangenome Reference Consortium ont fait des progrès révolutionnaires dans la caractérisation de la fraction d'ADN humain qui varie d'un individu à l'autre. Comme ils l'ont récemment publié dans Nature, ils ont assemblé des séquences génomiques de 47 personnes du monde entier dans un soi-disant pangenome où plus de 99 % de chaque séquence est rendue avec une grande précision.
Empilées les unes sur les autres, ces séquences ont révélé près de 120 millions de paires de bases d'ADN qui n'avaient jamais été vues auparavant.
Alors que c'est encore un travail en cours, le pangenome est public et peut être utilisé par des scientifiques du monde entier comme nouvelle référence de génome humain standard, explique Erich D. Jarvis, de l'Université Rockefeller, l'un des investigateurs principaux.
« Cette collection génomique complexe représente une diversité génétique humaine beaucoup plus précise que jamais auparavant capturée », dit-il. « Avec une plus grande ampleur et profondeur des données génétiques à leur disposition, et une meilleure qualité des assemblages de génome, les chercheurs peuvent affiner leur compréhension du lien entre les gènes et les traits de maladies, et accélérer la recherche clinique ».
En 2003, le premier projet de génome humain était relativement imprécis, mais il est devenu plus précis au fil des années grâce aux lacunes comblées, aux erreurs corrigées et à l'avancement de la technologie de séquençage. Une autre étape a été franchie l'année dernière, lorsque les huit pour cent finaux du génome - principalement l'ADN fortement enroulé qui ne code pas pour les protéines et les régions répétitives d'ADN - ont enfin été séquencés.
Malgré ce progrès, le génome de référence demeurait imparfait, surtout en ce qui concerne les 0,2 à 1 % critiques de l'ADN représentant la diversité. Le Human Pangenome Reference Consortium (HPRC), une collaboration financée par le gouvernement entre plus d'une douzaine d'institutions de recherche aux États-Unis et en Europe, a été lancé en 2019 pour résoudre ce problème.
À l'époque, Jarvis, l'un des leaders du consortium, affinait des méthodes de séquençage et de calcul avancées grâce au Vertebrate Genomes Project, qui vise à séquencer les 70 000 espèces de vertébrés. Lui et d'autres laboratoires collaborateurs ont décidé d'appliquer ces avancées aux assemblages de génomes diploïdes de haute qualité pour révéler la variation au sein d'un seul vertébré : Homo sapiens.
Pour collecter une diversité d'échantillons, les chercheurs se sont tournés vers le projet 1000 génomes, une base de données publique de génomes humains séquencés qui comprend plus de 2500 individus représentant 26 populations géographiquement et ethniquement variées. La plupart des échantillons proviennent d'Afrique, où se trouve la plus grande diversité humaine de la planète.
« Dans de nombreux autres grands projets de diversité des génomes humains, les scientifiques ont sélectionné principalement des échantillons européens », explique Jarvis. « Nous avons fait des efforts délibérés pour faire l'inverse. Nous cherchions à contrecarrer les biais du passé. »
Il est probable que des variantes géniques qui pourraient informer notre connaissance de maladies communes et rares puissent être trouvées parmi ces populations.
Mais pour élargir le pool génique, les chercheurs ont dû créer des séquences plus nettes et plus claires de chaque individu - et les approches développées par les membres du Projet de génome des vertébrés et des consortiums associés ont été utilisées pour résoudre un problème technique de longue date dans le domaine.
Chaque personne hérite d'un génome de chaque parent, c'est ainsi que nous finissons par avoir deux copies de chaque chromosome, nous donnant ce qu'on appelle un génome diploïde. Et lorsque le génome d'une personne est séquencé, démêler l'ADN parental peut être un défi. Les anciennes techniques et algorithmes ont régulièrement commis des erreurs en fusionnant les données génétiques parentales pour un individu, ce qui a donné une vue trouble. « Les différences entre les chromosomes de la mère et du père sont plus importantes que la plupart des gens ne le réalisent », explique Jarvis. « La mère peut avoir 20 copies d'un gène et le père seulement deux. »
Avec autant de génomes représentés dans un pangénome, cette opacité menaçait de se développer en une tempête de confusion. Le HPRC a donc mis au point une méthode développée par Adam Phillippy et Sergey Koren des National Institutes of Health sur des « trios » parent-enfant - une mère, un père et un enfant dont les génomes avaient tous été séquencés. En utilisant les données de la mère et du père, ils ont pu clarifier les lignes d'héritage et arriver à une séquence de qualité supérieure pour l'enfant, qu'ils ont ensuite utilisée pour l'analyse du pangénome.
L'analyse des chercheurs sur 47 personnes a fourni 94 séquences de génome distinctes, deux pour chaque ensemble de chromosomes, plus le chromosome Y sexuel chez les mâles.
Ils ont ensuite utilisé des techniques informatiques avancées pour aligner et superposer les 94 séquences. Des 120 millions de paires de bases d'ADN auparavant invisibles ou dans une position différente de celle notée dans la précédente référence, environ 90 millions découlent de variations structurales, qui sont des différences dans l'ADN des personnes qui surviennent lorsque des fragments de chromosomes sont réarrangés - déplacés, supprimés, inversés ou avec des copies supplémentaires de duplications.
Il s'agit d'une découverte importante, note Jarvis, car des études ces dernières années ont établi que les variants structurels jouent un rôle majeur dans la santé humaine, ainsi que dans la diversité spécifique à la population. « Ils peuvent avoir des effets dramatiques sur les différences de traits, les maladies et la fonction génique », dit-il. « Avec autant de nouvelles découvertes identifiées, il y aura beaucoup de nouvelles découvertes qui n'étaient pas possibles avant. »
L'assemblage du pangénome comble également les lacunes qui étaient dues à des séquences répétitives ou à des gènes dupliqués. Un exemple est le complexe majeur d'histocompatibilité (CMH), un groupe de gènes qui codent des protéines à la surface des cellules qui aident le système immunitaire à reconnaître les antigènes, tels que ceux du virus SARS-CoV-2.
« Ils sont vraiment importants, mais il était impossible d'étudier la diversité du CMH en utilisant les anciennes méthodes de séquençage », explique Jarvis. « Nous constatons une diversité beaucoup plus grande que prévu. Ces nouvelles informations nous aideront à comprendre comment les réponses immunitaires contre des agents pathogènes spécifiques varient chez les personnes. » Cela pourrait également conduire à de meilleures méthodes pour faire correspondre les donneurs d'organes et les patients ou identifier les personnes à risque de développer des maladies auto-immunes.
L'équipe a également découvert de nouvelles caractéristiques surprenantes des centromères, qui se trouvent à la croix des chromosomes et conduisent la division cellulaire, se séparant à mesure que les cellules se dupliquent. Les mutations dans les centromères peuvent conduire à des cancers et d'autres maladies.
Malgré des séquences d'ADN hautement répétitives, « les centromères sont si divers d'un haplotype à l'autre, qu'ils peuvent représenter plus de 50% des différences génétiques entre les personnes ou les haplotypes maternels et paternels même chez un seul individu », explique Jarvis. « Les centromères semblent être l'une des parties du chromosome qui évoluent le plus rapidement. »
Cependant, le pangénome actuel de 47 personnes n'est qu'un point de départ. L'objectif ultime du HPRC est de produire des génomes de haute qualité, presque exempts d'erreurs, d'au moins 350 personnes issues de populations diverses d'ici à la mi-2024, une étape décisive qui rendrait possible la capture d'allèles rares qui confèrent des traits adaptatifs importants. Les Tibétains, par exemple, ont des allèles liés à l'utilisation de l'oxygène et à l'exposition à la lumière UV qui leur permettent de vivre à haute altitude.
A major challenge in collecting this data will be to gain trust from communities that have seen past abuses of biological data; for example, there are no samples in the current study from Native American nor Aboriginal peoples, who have long been disregarded or exploited by scientific studies. But you don’t have to go far back in time to find examples of unethical use of genetic data: Just a few years ago, DNA samples from thousands of Africans in multiple countries were commercialized without the donors’ knowledge, consent, or benefit.
These offenses have sown mistrust against scientists among many populations. But by not being included, some of these groups could remain genetically obscure, leading to a perpetuation of the biases in the data—and to continued disparities in health outcomes.
“It’s a complex situation that’s going to require a lot of relationship building,” Jarvis says. “There’s greater sensitivity now.”
And even today, many groups are willing to participate. “There are individuals, institutions, and governmental bodies from different countries who are saying, ‘We want to be part of this. We want our population to be represented,’” Jarvis says. “We’re already making progress.”