Il Pangenoma Breakthrough: Un'immagine cristallina della diversità genomica umana.
Il consorzio di riferimento del Pangenoma Umano ha compiuto progressi significativi nella creazione di un genoma di riferimento umano più inclusivo, assemblando sequenze genomiche di 47 individui provenienti da tutto il mondo. Il genoma di riferimento umano originale si basava sui dati di un singolo individuo di origine africana-europea, limitando la rappresentazione della diversità genetica. Questo nuovo pangenoma, che rende oltre il 99% di ogni sequenza con alta precisione, rivela quasi 120 milioni di coppie di basi di DNA non precedentemente viste. Fornendo una rappresentazione più precisa della diversità genetica umana, i ricercatori possono perfezionare la comprensione del legame tra geni e malattie, accelerare la ricerca clinica e in definitiva aiutare a affrontare le disuguaglianze in campo sanitario.
In un avanzamento importante, i ricercatori hanno assemblato sequenze genomiche di 47 persone di diversi contesti per creare un pangenoma, che offre una rappresentazione più precisa della diversità genetica umana rispetto al genoma di riferimento esistente. Questo nuovo pangenoma aiuterà i ricercatori a perfezionare la comprensione del legame tra geni e malattie e potrebbe in definitiva aiutare a ridurre le disuguaglianze in campo sanitario.
Per più di 20 anni, i ricercatori hanno fatto affidamento sul genoma di riferimento umano, una sequenza genetica di consenso, come standard con cui confrontare altri dati genetici. Usato in innumerevoli studi, il genoma di riferimento ha reso possibile identificare i geni implicati in specifiche malattie e tracciare l'evoluzione dei tratti umani, fra le altre cose.
Ma è sempre stato uno strumento imperfetto. Uno dei suoi problemi più grandi è che circa il 70% dei suoi dati proveniva da un solo uomo di origini predominantemente africane ed europee il cui DNA è stato sequenziato durante il Progetto Genoma Umano, il primo sforzo di acquisizione di tutto il DNA di una persona. Di conseguenza, può dirci poco dello 0,2-1% della sequenza genetica che rende ognuno dei sette miliardi di persone su questo pianeta diverso l'una dall'altra, creando un pregiudizio intrinseco nei dati biomedici ritenuti responsabili di alcune delle disuguaglianze in campo sanitario che colpiscono i pazienti oggi. Molte varianti genetiche riscontrate nelle popolazioni non europee, ad esempio, non sono rappresentate affatto nel genoma di riferimento.
Il nuovo bozza di riferimento del pangenoma contiene 47 genomi invece di uno solo e fornirà un punto di confronto molto migliore rispetto al riferimento tradizionale per trovare e capire le differenze nel nostro DNA. Crediti: National Human Genome Research Institute
Per anni, i ricercatori hanno chiesto una risorsa più inclusiva della diversità umana da poter usare per diagnosticare le malattie e guidare i trattamenti medici. Ora, i ricercatori del Consorzio di Riferimento del Pangenoma Umano hanno compiuto progressi innovativi nel caratterizzare la frazione di DNA umano che varia tra gli individui. Come recentemente pubblicato su Nature, hanno assemblato sequenze genomiche di 47 persone provenienti da tutto il mondo in un cosiddetto pangenoma in cui più del 99% di ogni sequenza è rappresentato con alta precisione.
Sovrapposte l'una all'altra, queste sequenze hanno rivelato quasi 120 milioni di coppie di basi di DNA che non erano mai state osservate prima.
Anche se ancora in fase di sviluppo, il pangenoma è pubblico e può essere utilizzato dai ricercatori di tutto il mondo come nuovo riferimento del genoma umano standard, dice Erich D. Jarvis dell'Università Rockefeller, uno dei principali investigatori.
“Questa complessa collezione genomica rappresenta una diversità genetica umana significativamente più accurata di quanto mai catturato prima,” dice. “Con una maggiore ampiezza e profondità dei dati genetici a loro disposizione, e una maggiore qualità delle assemblee genomiche, i ricercatori possono perfezionare la comprensione del legame tra i geni e gli attributi delle malattie e accelerare la ricerca clinica.”
Completato nel 2003, il primo abbozzo del genoma umano era relativamente impreciso, ma è diventato più preciso nel corso degli anni grazie alla riduzione delle lacune, alla correzione degli errori e all'avanzamento della tecnologia di sequenziamento. Un altro traguardo è stato raggiunto l'anno scorso, quando è stata finalmente sequenziata l'ottava parte del genoma-principalmente DNA strettamente avvolto che non codifica per la proteina e regioni di DNA ripetitive.
Nonostante questo progresso, il genoma di riferimento è rimasto imperfetto, specialmente in merito al critico 0,2-1% di DNA che rappresenta la diversità. Il Consorzio di Riferimento del Pangenoma Umano (HPRC), una collaborazione finanziata dal governo tra oltre una dozzina di istituti di ricerca negli Stati Uniti e in Europa, è stato lanciato nel 2019 per affrontare questo problema.
In quel momento, Jarvis, uno dei leader del consorzio, stava perfezionando metodi di sequenziamento e di calcolo avanzati attraverso il Progetto dei Genomi Vertebrati, che mira a sequenziare tutte le 70.000 specie di vertebrati. Lui e altri laboratori collaboranti hanno deciso di applicare questi avanzamenti per le assemblee di genomi diploidi di alta qualità per rivelare la variazione all'interno di un singolo vertebrato: Homo sapiens.
Per raccogliere una varietà di campioni, i ricercatori si sono rivolti al Progetto dei 1000 Genomi, un database pubblico di genomi umani sequenziati che include più di 2500 individui rappresentanti 26 popolazioni geograficamente ed etnicamente varie. La maggior parte dei campioni proviene dall'Africa, patria della più grande diversità umana del pianeta.
"In molti altri grandi progetti di diversità genomica umana, gli scienziati hanno selezionato principalmente campioni europei", dice Jarvis. "Abbiamo fatto uno sforzo deliberato per fare l'opposto. Stavamo cercando di contrastare i pregiudizi del passato".
È probabile che le varianti genetiche che potrebbero informare la nostra conoscenza delle malattie comuni e rare si possano trovare tra queste popolazioni.
Ma per ampliare la variabilità genetica, i ricercatori hanno dovuto creare sequenze più precise e chiare di ogni individuo e gli approcci sviluppati dai membri del Progetto del Genoma dei Vertebrati e dei consorzi associati sono stati utilizzati per risolvere un problema tecnico di lunga data nel campo.
Ogni persona eredita un genoma da ciascun genitore, ed è così che finiamo con due copie di ogni cromosoma, che ci danno ciò che è noto come genoma diploide. E quando il genoma di una persona viene sequenziato, separare il DNA genitoriale può essere difficile. Tecniche e algoritmi più vecchi hanno regolarmente commesso errori quando univano i dati genetici genitoriali per un individuo, dando una visione poco chiara. "Le differenze tra i cromosomi della mamma e del papà sono maggiori di quanto la maggior parte delle persone pensi", dice Jarvis. "La mamma potrebbe avere 20 copie di un gene e il papà solo due".
Con così tanti genomi rappresentati in un pangenoma, quella visione poco chiara minacciava di svilupparsi in una tempesta di confusione. Quindi l'HPRC si è concentrato su un metodo sviluppato da Adam Phillippy e Sergey Koren presso i National Institutes of Health sui "trios" madre-padre-figlio, i cui genomi erano stati tutti sequenziati. Utilizzando i dati della madre e del padre, sono stati in grado di chiarire le linee di eredità e arrivare a una sequenza di qualità superiore per il bambino, che hanno poi utilizzato per l'analisi del pangenoma.
L'analisi dei 47 individui condotta dai ricercatori ha prodotto 94 sequenze genomiche distinte, due per ogni set di cromosomi, oltre al cromosoma Y del sesso nei maschi.
Hanno quindi utilizzato tecniche computazionali avanzate per allineare e sovrapporre le 94 sequenze. Dei 120 milioni di coppie di basi di DNA precedentemente invisibili o in una posizione diversa rispetto a quella segnalata nel riferimento precedente, circa 90 milioni derivano da variazioni strutturali, che sono differenze nel DNA delle persone che sorgono quando i pezzi di cromosomi vengono riorganizzati, spostati, eliminati, invertiti o con copie extra da duplicazioni.
Si tratta di una scoperta importante, nota Jarvis, perché gli studi degli ultimi anni hanno stabilito che le varianti strutturali giocano un ruolo importante nella salute umana, così come nella diversità specifica delle popolazioni. "Possono avere effetti drammatici sulle differenze di tratti, malattie e funzione genica", dice. "Con così tante nuove varianti identificate, ci saranno molte nuove scoperte che non erano possibili prima".
L'assemblaggio del pangenoma riempie anche lacune che erano dovute a sequenze ripetute o a geni duplicati. Un esempio è il complesso maggiore di istocompatibilità (MHC), un gruppo di geni che codificano proteine sulla superficie delle cellule che aiutano il sistema immunitario a riconoscere gli antigeni, come quelli del virus SARS-CoV-2.
"Sono molto importanti, ma era impossibile studiare la diversità del MHC utilizzando i vecchi metodi di sequenziamento", dice Jarvis. "Stiamo vedendo molta più diversità di quanto ci aspettassimo. Queste nuove informazioni ci aiuteranno a capire come le risposte immunitarie contro specifici patogeni variano tra le persone". Potrebbe anche portare a migliori metodi per abbinare i donatori di organi ai pazienti, o identificare le persone a rischio di sviluppare malattie autoimmuni.
Il team ha anche scoperto nuove caratteristiche sorprendenti dei centromeri, che giacciono alle croci dei cromosomi e conducono la divisione cellulare, separandosi mentre le cellule si duplicano. Le mutazioni nei centromeri possono portare a tumori e altre malattie.
Nonostante abbiano sequenze di DNA altamente ripetitive, "i centromeri sono così diversi da un'aplotipo all'altro, che possono rappresentare oltre il 50% delle differenze genetiche tra le persone o gli aplotipi materni e paterni anche all'interno di un singolo individuo", dice Jarvis. "I centromeri sembrano essere una delle parti del cromosoma che evolvono più rapidamente".
L'attuale pangenoma di 47 persone è solo un punto di partenza, tuttavia. L'obiettivo finale dell'HPRC è quello di produrre genomi di alta qualità, quasi privi di errori, di almeno 350 individui provenienti da popolazioni diverse entro la metà del 2024, un traguardo che renderebbe possibile catturare alleli rari che conferiscono importanti tratti adattivi. I Tibetani, ad esempio, hanno alleli correlati all'utilizzo dell'ossigeno e all'esposizione alla luce UV che consentono loro di vivere ad altitudini elevate.
A major challenge in collecting this data will be to gain trust from communities that have seen past abuses of biological data; for example, there are no samples in the current study from Native American nor Aboriginal peoples, who have long been disregarded or exploited by scientific studies. But you don’t have to go far back in time to find examples of unethical use of genetic data: Just a few years ago, DNA samples from thousands of Africans in multiple countries were commercialized without the donors’ knowledge, consent, or benefit.
These offenses have sown mistrust against scientists among many populations. But by not being included, some of these groups could remain genetically obscure, leading to a perpetuation of the biases in the data—and to continued disparities in health outcomes.
“It’s a complex situation that’s going to require a lot of relationship building,” Jarvis says. “There’s greater sensitivity now.”
And even today, many groups are willing to participate. “There are individuals, institutions, and governmental bodies from different countries who are saying, ‘We want to be part of this. We want our population to be represented,’” Jarvis says. “We’re already making progress.”