Der Durchbruch des Pangenoms: Ein kristallklares Bild der genomischen Vielfalt des Menschen

Das Human Pangenome Reference Consortium hat bedeutende Fortschritte bei der Erstellung eines inklusiveren menschlichen Referenzgenoms erzielt, indem es genomische Sequenzen von 47 Menschen aus der ganzen Welt zusammengestellt hat. Das ursprüngliche menschliche Referenzgenom basierte auf Daten eines einzigen Menschen mit afrikanisch-europäischer Abstammung, wodurch seine Darstellung der genetischen Vielfalt begrenzt war. Dieses neue Pangenom, das über 99% jeder Sequenz mit hoher Genauigkeit rendert, enthüllt fast 120 Millionen DNA-Basenpaare, die zuvor nicht gesehen wurden. Durch eine genauere Darstellung der menschlichen genetischen Vielfalt können Forscher ihr Verständnis für den Zusammenhang zwischen Genen und Krankheiten verfeinern, die klinische Forschung beschleunigen und letztendlich dazu beitragen, Gesundheitsunterschiede zu beseitigen.
In einem großen Fortschritt haben Wissenschaftler genomische Sequenzen von 47 Personen aus verschiedenen Hintergründen zusammengestellt, um ein Pangenom zu erstellen, das eine genauere Darstellung der menschlichen genetischen Vielfalt als das bestehende Referenzgenom bietet. Dieses neue Pangenom wird Forschern helfen, ihr Verständnis für den Zusammenhang zwischen Genen und Krankheiten zu verfeinern und letztendlich dazu beitragen, Gesundheitsunterschiede zu beseitigen.
Seit mehr als 20 Jahren verlassen sich Wissenschaftler auf das menschliche Referenzgenom, eine konsensuelle genetische Sequenz, als Standard, anhand dessen sie andere genetische Daten vergleichen. Das Referenzgenom wurde in unzähligen Studien verwendet und hat es ermöglicht, Gene zu identifizieren, die bei bestimmten Krankheiten eine Rolle spielen, sowie die Evolution menschlicher Merkmale zu verfolgen, um nur einige Beispiele zu nennen.
Aber es war schon immer ein fehlerhaftes Werkzeug. Eines seiner größten Probleme ist, dass etwa 70 Prozent seiner Daten von einem einzigen Mann mit überwiegend afrikanisch-europäischer Abstammung stammen, dessen DNA während des Human Genome Project sequenziert wurde, dem ersten Versuch, die gesamte DNA einer Person zu erfassen. Deshalb sagt es uns wenig über den 0,2 bis einen Prozent der genetischen Sequenz, die jeden der sieben Milliarden Menschen auf diesem Planeten voneinander unterscheidet und eine inhärente Voreingenommenheit in biomedizinischen Daten erzeugt, die für einige der Gesundheitsunterschiede verantwortlich gemacht wird, von denen Patienten heute betroffen sind. Viele der in Nicht-Europäischen Populationen gefundenen genetischen Varianten sind im Referenzgenom überhaupt nicht repräsentiert.
Das neue Entwurf-Pangenom-Referenzgenom enthält 47 Genome anstelle von nur einem und bietet einen viel besseren Vergleichspunkt als das traditionelle Referenzgenom, um die Unterschiede in unserem DNA zu finden und zu verstehen. Credit: National Human Genome Research Institute
Seit Jahren fordern Forscher eine Ressource, die inklusiver menschlicher Vielfalt ist, um Krankheiten zu diagnostizieren und medizinische Behandlungen zu leiten. Jetzt haben Wissenschaftler des Human Pangenome Reference Consortium bahnbrechende Fortschritte bei der Charakterisierung des Bruchteils menschlicher DNA gemacht, der zwischen Individuen variiert. Wie sie kürzlich in Nature veröffentlichten, haben sie genomische Sequenzen von 47 Menschen aus der ganzen Welt zu einem sogenannten Pangenom zusammengestellt, bei dem mehr als 99 Prozent jeder Sequenz mit hoher Genauigkeit dargestellt werden.
Übereinander geschichtet zeigen diese Sequenzen fast 120 Millionen DNA-Basenpaare, die zuvor nicht gesehen wurden.
Obwohl es immer noch in Arbeit ist, ist das Pangenom öffentlich und kann von Wissenschaftlern auf der ganzen Welt als neues Standard-Referenzgenom für den Menschen verwendet werden, sagt Erich D. Jarvis von der Rockefeller University, einer der Hauptforscher.
„Diese komplexe genomische Sammlung stellt eine deutlich genauere menschliche genetische Vielfalt dar als je zuvor erfasst“, sagt er. „Mit einer größeren Breite und Tiefe genetischer Daten zur Verfügung und einer höheren Qualität von Genomassemblies können Forscher ihr Verständnis für den Zusammenhang zwischen Genen und Krankheitsmerkmalen verfeinern und die klinische Forschung beschleunigen.“
Das erste Draft des menschlichen Genoms wurde 2003 erstellt und war relativ ungenau, wurde aber im Laufe der Jahre dank gefüllter Lücken, korrigierter Fehler und fortschreitender Sequenzierungstechnologie schärfer. Ein weiterer Meilenstein wurde im letzten Jahr erreicht, als endlich die letzten acht Prozent des Genoms - hauptsächlich stark gewundene DNA, die keinen Code für Protein und sich wiederholende DNA-Regionen enthält - sequenziert wurden.
Trotz dieses Fortschritts blieb das Referenzgenom unvollkommen, insbesondere in Bezug auf die kritischen 0,2 bis einen Prozent DNA, die Vielfalt repräsentieren. Das Human Pangenome Reference Consortium (HPRC), eine staatlich finanzierte Zusammenarbeit zwischen mehr als einem Dutzend Forschungseinrichtungen in den USA und Europa, wurde 2019 ins Leben gerufen, um dieses Problem anzugehen.
Zu diesem Zeitpunkt perfektionierte Jarvis, einer der Leiter des Konsortiums, fortgeschrittene Sequenzierungsmethoden und Computertechniken durch das Vertebrate Genomes Project, das darauf abzielt, alle 70.000 Arten von Wirbeltieren zu sequenzieren. Er und andere zusammenarbeitende Labors beschlossen, diese Fortschritte für hochwertige diploide Genomassemblies zur Offenlegung der Variation innerhalb eines einzigen Wirbeltiers, nämlich Homo sapiens, zu nutzen.
Um eine Vielzahl von Proben zu sammeln, wendeten sich die Forscher an das 1000-Genome-Projekt, eine öffentliche Datenbank von sequenzierten menschlichen Genomen, die mehr als 2500 Individuen aus 26 geografisch und ethnischem vielfältigen Populationen enthält. Die meisten Proben stammen aus Afrika, dem Ort der größten menschlichen Diversität des Planeten.
"In vielen anderen großen Projekten zur menschlichen Genomvielfalt haben die Wissenschaftler größtenteils europäische Proben ausgewählt", sagt Jarvis. "Wir haben uns bewusst bemüht, das Gegenteil zu tun. Wir versuchten, die Vorurteile der Vergangenheit auszugleichen."
Es ist wahrscheinlich, dass Genvarianten, die unser Wissen über gemeinsame und seltene Krankheiten informieren könnten, unter diesen Populationen gefunden werden können.
Um den Genpool zu erweitern, mussten die Forscher jedoch klarere Sequenzen jedes Einzelnen erstellen - und die von Mitgliedern des Vertebrate Genome Project und damit verbundenen Konsortien entwickelten Ansätze wurden genutzt, um ein langjähriges technisches Problem in diesem Bereich zu lösen.
Jede Person erbt ein Genom von jedem Elternteil, was dazu führt, dass wir zwei Kopien jedes Chromosoms haben, die uns ein sogenanntes diploides Genom geben. Und wenn das Genom einer Person sequenziert wird, kann es eine Herausforderung sein, das elterliche DNA auseinanderzuziehen. Ältere Techniken und Algorithmen haben routinemäßig Fehler gemacht, wenn elterliche genetische Daten für eine Person zusammengeführt wurden, was zu einem unklaren Bild führte. "Die Unterschiede zwischen den Chromosomen von Mutter und Vater sind größer, als die meisten Menschen realisieren", sagt Jarvis. "Mutter kann 20 Kopien eines Gens haben und Vater nur zwei."
Mit so vielen Genomen, die in einem Pangenom repräsentiert sind, drohte diese Trübung zu einem Gewitter der Verwirrung zu werden. Das HPRC konzentrierte sich daher auf eine von Adam Phillippy und Sergey Koren am National Institute of Health entwickelte Methode für Eltern-Kind-"Trios" - eine Mutter, ein Vater und ein Kind, deren Genome alle sequenziert worden waren. Unter Verwendung der Daten von Mutter und Vater konnten sie die Erbfolgen klären und zu einer höherwertigen Sequenz für das Kind gelangen, die sie dann für die Pangenomanalyse verwendeten.
Die Analyse der Forscher von 47 Personen ergab 94 unterschiedliche Genomsequenzen, jeweils zwei für jedes Chromosomenset sowie das Y-Chromosom bei Männern.
Dann wurden fortschrittliche Berechnungstechniken verwendet, um die 94 Sequenzen zu verbinden und zu ordnen. Von den 120 Millionen DNA-Basenpaaren, die vorher nicht gesehen wurden oder sich an einem anderen Ort als in der vorherigen Referenz befanden, stammen etwa 90 Millionen aus strukturellen Variationen, die Unterschiede im DNA von Menschen sind, die durch die Umlagerung von Chromosomenstücken entstehen - bewegt, gelöscht, invertiert oder mit zusätzlichen Kopien aus Duplikaten.
Es ist eine wichtige Entdeckung, sagt Jarvis, denn Studien der letzten Jahre haben gezeigt, dass strukturelle Varianten eine wichtige Rolle in der menschlichen Gesundheit sowie in populationsbezogener Vielfalt spielen. "Sie können dramatische Auswirkungen auf Unterschiede von Merkmalen, Krankheiten und Genfunktionen haben", sagt er. "Mit so vielen neuen identifizierten gibt es viele neue Entdeckungen, die zuvor nicht möglich waren."
Die Pangenom-Montage füllt auch Lücken auf, die auf repetitive Sequenzen oder duplizierte Gene zurückzuführen sind. Ein Beispiel ist das Major Histocompatibility Complex (MHC), eine Gruppe von Genen, die Proteine auf der Oberfläche von Zellen codieren, was dem Immunsystem hilft, Antigene wie die des SARS-CoV-2-Virus zu erkennen.
"Sie sind wirklich wichtig, aber es war unmöglich, die MHC-Vielfalt mit den älteren Sequenzierungsmethoden zu untersuchen", sagt Jarvis. "Wir sehen eine sehr viel größere Vielfalt als erwartet. Diese neuen Informationen werden uns helfen zu verstehen, wie sich Immunantworten gegenüber bestimmten Pathogenen bei Menschen unterscheiden." Es könnte auch zu besseren Methoden zur Übereinstimmung von Organspendern und Patienten oder zur Identifizierung von Menschen führen, die ein Risiko für die Entwicklung von Autoimmunerkrankungen haben.
Das Team hat auch überraschende neue Eigenschaften von Zentromeren entdeckt, die an den Kreuzungen der Chromosomen liegen und die Zellteilung durchführen und sich dabei auseinanderziehen, wenn sich Zellen duplizieren. Mutationen in Zentromeren können zu Krebs und anderen Krankheiten führen.
Auch wenn das derzeitige Pangenom mit 47 Menschen nur ein Ausgangspunkt ist. Das HPRC hat zum Ziel, bis Mitte 2024 hochwertige, nahezu fehlerfreie Genome von mindestens 350 Personen aus verschiedenen Populationen zu produzieren und damit einen Meilenstein zu erreichen, der es möglich macht, seltene Allele zu erfassen, die wichtige adaptive Merkmale verleihen könnten. Tibetische Menschen haben zum Beispiel Allele, die mit Sauerstoffverbrauch und UV-Lichteinwirkung in Verbindung stehen und es ihnen ermöglichen, in großen Höhen zu leben.
A major challenge in collecting this data will be to gain trust from communities that have seen past abuses of biological data; for example, there are no samples in the current study from Native American nor Aboriginal peoples, who have long been disregarded or exploited by scientific studies. But you don’t have to go far back in time to find examples of unethical use of genetic data: Just a few years ago, DNA samples from thousands of Africans in multiple countries were commercialized without the donors’ knowledge, consent, or benefit.
These offenses have sown mistrust against scientists among many populations. But by not being included, some of these groups could remain genetically obscure, leading to a perpetuation of the biases in the data—and to continued disparities in health outcomes.
“It’s a complex situation that’s going to require a lot of relationship building,” Jarvis says. “There’s greater sensitivity now.”
And even today, many groups are willing to participate. “There are individuals, institutions, and governmental bodies from different countries who are saying, ‘We want to be part of this. We want our population to be represented,’” Jarvis says. “We’re already making progress.”