diumenge, 6 de juny de 2021

T2T-CHM13: La seqüència completa d’un genoma humà de cada telòmer a cada telòmer

Genètica humana: Enguany en fa vint que Celera Genomics i el Consorci Internacional de Seqüenciació del Genoma Humà publicaven l’esborrany inicial del genoma humà. Amb això, i amb les aportacions realitzades en els anys següents, hom podia dir que s’havia seqüenciat ja tot el genoma humà, és a dir que hom disposava de la sèrie de nucleòtids (d’adenina A, de citosina C, de guanina G i de timina T) que integraven els àcids desoxiribonucleics d’un genoma humà individual de referència (GRCh38). El procediment de seqüenciació que havia impulsat Craig Venter (*1946) havia fet accessible pràcticament tota l’eucromatina humana. Ara bé, l’eucromatina suposa el 92% del genoma. La resta, conformada per l’heterocromatina i altres regions complexes dels cromosomes, o bé no era seqüenciada o bé ho era erròniament. Encara que això només sigui el 8% del genoma, cal pensar que dins queden incloses regions d’importància estructural per als cromosomes, com els centròmers (que permeten la interacció dels cromosomes amb el sistema de microtúbuls durant la mitosi) o els telòmers (que salvaguarden els extrems dels cromosomes). Per tal d’aconseguir una seqüència realment completa d’un genoma humà es va crear el Consorci de Telòmer a Telòmer (T2T), que recentment ha publicat els 3.055 mil milions de parells de nucleòtids que conformen un genoma humà. Aquest T2T-CHM13 abasta sense interrupcions els 23 cromosomes d’una dotació haploide (22 autosomes i el cromosoma X). Respecte de GRCh38, a més de corregir-hi nombrosos errors, afegeix uns 200 milions de parells nucleòtids, entre els quals trobem 2.226 còpies paràlogues de gens, de les quals 115 codificarien proteïnes. Entre les noves regions seqüenciades hi ha totes les matrius de satèl·lits centromèrics, així com els braços curts dels cinc cromosomes acrocèntrics (13p, 14p, 15p, 21p i 22p).

Microfotografia de Steffen Dietzel que ens mostra els cromosomes d’un limfòcit humà en metafase

El genoma humà després del Projecte Genoma Humà

Encara que el Projecte Genoma Humà (HGP), iniciat en el 1990, i els treballs en paral·lel de Celera Genomics, iniciats en el 1998, foren considerats essencialment acomplerts entre el 2001 i el 2003, el Genome Reference Consortium (GRC) hi ha continuat treballant. La versió actualitzada del genoma humà de referència (GRCh38.p13) és del 28 de febrer del 2019.

La cursa per aconseguir la seqüenciació del genoma humà sol ésser assignada a Celera Genomics. Entre el 1998 i el 2001, Celera Genomics explotà la tècnica de “shotgun” ideada per Craig Venter, i que, en formes més o menys modificades, és aplicada per la majoria de projectes genòmics posteriors.

El GRC, contràriament, ha fet servir la tècnica basada en la clonació de fragments genòmics en cromosomes artificials de bacteris (BAC), als quals s’aplica el mètode de seqüenciació de Sanger. Les seqüències resultants són ordenades i orientades en el genoma a través de tècniques d’hibridació i anàlisi de lligament genètic. Tot plegat és més laboriós, però permet aconseguir un genoma de referència més acurat i continu.

Existeixen, però, limitacions a l’aproximació del GRC. Les regions heterocromàtiques, que constitueixen un 8% del genoma, no es poden clonar, mapar i aplegar de manera fiable. Les repeticions llargues en tàndem s’hi troben subrepresentades pel procés de restricció i de clonació. Per aquestes i altres raons, el GRCh38.p13 conté 151 milions de parells de nucleòtids de seqüència desconeguda (“N”), que afecten regions pericentromètriques i subtelomèriques, duplicacions segmentals recents, matrius de gens amplicònics, matrius de gens ribosomals (rDNA), etc. Entre els buits més grans hi ha els braços curts dels cromosomes acrocèntriques (Chr13, Chr14, Chr15, Chr21 i Chr22) i les grans matrius de satèl·lits (com les dels cromosomes 1, 9 i 16).

De tota manera, cal dir que GRCh38.p13 és el genoma de vertebrat més complet que s’hagi produït. Els defectes de GRCh38 no es poden resoldre amb les tècniques de seqüenciació de baix cost, però si amb mètodes de seqüenciació llarga. Els projectes de telòmer a telòmer (T2T) cercaren primer l’aplicació d’aquestes tècniques de seqüenciació i ensamblatge en cromosomes humanes individuals i en els genomes gairebé completament homozigots de línies cel·lulars de moles hidatidiformes (CHM).

El Consorci T2T ha combinat la seqüenciació ultrallarga de PacBio HiFi i d’Oxford Nanopore, per aplicar-la a la línia cel·lular essencialment haploide CHM13hTERT. D’això n’ha resultat T2T-CHM13 com a seqüència de referència.

CHM13 T2T v.1.1

El 7 de maig del 2021 es publicava CHM13 T2T v.1.1. El material biològic de partida és una mola hidatidiforme completa (CHM13). La mola hidatidiforme completa és el resultat de la implantació en l’úter d’un embrió derivat d’un òvul fecundat que ha perdut el material genètic matern, suplert per la duplicació del material genètic patern. En el cas de CHM13 el cariotip és 46,XX, amb un baix nivell d’heterozigositat (consistent, entre d’altres, en una deleció heterozigòtica d’un milió de parells de nucleòtids en la matriu de rDNA del cromosoma 15).

L’esforç de T2T s’ha centrat en lidiar amb les regions del genoma que presenten repeticions de major extensió. Això inclou els braços curts dels cinc cromosomes acrocèntrics o la regió HSat3 del cromosoma 9. El repte es troba el camí correcte de la seqüència lineal de cada cromosoma entre aquestes repeticions, i també en fer-la arribar fins als telòmers.

Les regions de rDNA

En el genoma humà, les regions rDNA són repeticions gairebé idèntiques de 45.000 parells de nucleòtids que contenen còpies del gen 45S rDNA en tàndem, situades en els braços curts (p) de cromosomes acrocèntrics. La longitud d’aquestes regions no tan sols varia entre individus, sinó també entre línies cel·lulars somàtiques d’un mateix individu. El genoma de CHM13 conté aproximadament 200 còpies de rDNA per haplotip, i és en la regió rDNA del cromosoma 15 hom mostra heterozigositat per a una gran deleció.

Una seqüència de 3.054.815.472 parells de nucleòtids d’ADN nuclear i 16.569 parells de nucleòtids d’ADN mitocondrial

Com que CHM13 és una línia cel·lular femenina, no conté el cromosoma Y en el seu genoma. En qualsevol cas, T2T-CHM13v1.1 ofereix una seqüència completa de telòmer a telòmer per a cadascun dels 22 autosomes i per al cromosoma X, a més de la seqüència del genoma circular dels mitocondris.

Respecte del GRCh38, T2T-CHM13 afegeix o corregeixen 238 milions de parells de nucleòtids, dels quals 180 milions es corresponen a satèl·lits centromèrics, 68 milions a duplicacions segmentals i 10 milions a rDNAs. Així doncs, T2T-CHM13 s’estructura en 24 seqüències contígues (1 per a cada crosomoma).

El caràcter tan complet de T2T-CHM13 (tan sols hi hauria 8,18 milions de parells de nucleòtids amb dubtes) fa robustes algunes de les seves xifres: el genoma humà contindria 63.494 gens, dels quals 19.969 codifiquen proteïnes. Aquests gens generen 233.615 transcrits diferents, dels quals 86.245 codifiquen proteïnes. El 6,61% del genoma humà consisteix en duplicacions segmentals. El 53,94% del genoma són repeticions amb 631,64 milions de nucleòtids corresponents a LINE; 390,27 milions a SINE; 269,91 a LTR; 150,42 a satèl·lits; 77,69 a repeticions simples; 4,65 a retroposons i 1,71 milions a rRNA.

De particular rellevància és comptar amb la seqüència dels braços curts de cromosomes acrocèntrics, que constitueixen un total 66,1 milions de parells de nucleòtids. Aquests braços curts contenen còpies de gens de rDNA (que contenen la informació de les molècules estructurals d’ARN dels ribosomes, els orgànuls responsables de la síntesi proteica) i participen en la formació del nuclèol.

Perspectives de futur

Actualment, el Consorci T2T treballa en la seqüenciació del cromosoma Y de la línia cel·lular HG002 (cariotip 46,XY). El fet que una bona part del cromosoma Y sigui heterocromàtic atorga importància a aquest esforç.

Les tecnologies de seqüència de llarga lectura també presenten un gran potencial per als projectes genòmics basats en la diversitat de les poblacions humanes, com el Human Pangenome Reference Consortium. El Consorci T2T, en aquest sentit, vol estudiar la variació polimòrfica de les regions heterocromàtiques del genoma humà.

Lligams:

The complete sequence of a human genome. Sergey Nurk, Sergey Koren, Arang Rhie, Mikko Rautiainen, Andrey V. Bzikadze, Alla Mikheenko, Mitchell R. Vollger, Nicolas Altemose, Lev Uralsky, Ariel Gershman, Sergey Aganezov, Savannah J. Hoyt, Mark Diekhans, Glennis A. Logsdon, Michael Alonge, Stylianos E. Antonarakis, Matthew Borchers, Gerard G. Bouffard, Shelise Y. Brooks, Gina V. Caldas, Haoyu Cheng, Chen-Shan Chin, William Chow, Leonardo G. de Lima, Philip C. Dishuck, Richard Durbin, Tatiana Dvorkina, Ian T. Fiddes, Giulio Formenti, Robert S. Fulton, Arkarachai Fungtammasan, Erik Garrison, Patrick G.S. Grady, Tina A. Graves-Lindsay, Ira M. Hall, Nancy F. Hansen, Gabrielle A. Hartley, Marina Haukness, Kerstin Howe, Michael W. Hunkapiller, Chirag Jain, Miten Jain, Erich D. Jarvis, Peter Kerpedjiev, Melanie Kirsche, Mikhail Kolmogorov, Jonas Korlach, Milinn Kremitzki, Heng Li, Valerie V. Maduro, Tobias Marschall, Ann M. McCartney, Jennifer McDaniel, Danny E. Miller, James C. Mullikin, Eugene W. Myers, Nathan D. Olson, Benedict Paten, Paul Peluso, Pavel A. Pevzner, David Porubsky, Tamara Potapova, Evgeny I. Rogaev, Jeffrey A. Rosenfeld, Steven L. Salzberg, Valerie A. Schneider, Fritz J. Sedlazeck, Kishwar Shafin, Colin J. Shew, Alaina Shumate, Yumi Sims, Arian F. A. Smit, Daniela C. Soto, Ivan Sović, Jessica M. Storer, Aaron Streets, Beth A. Sullivan, Françoise Thibaud-Nissen, James Torrance, Justin Wagner, Brian P. Walenz, Aaron Wenger, Jonathan M. D. Wood, Chunlin Xiao, Stephanie M. Yan, Alice C. Young, Samantha Zarate, Urvashi Surti, Rajiv C. McCoy, Megan Y. Dennis, Ivan A. Alexandrov, Jennifer L. Gerton, Rachel J. O’Neill, Winston Timp, Justin M. Zook, Michael C. Schatz, Evan E. Eichler, Karen H. Miga, Adam M. Phillippy. doi: https://doi.org/10.1101/2021.05.26.445798 (2021).

- Pàgina web del T2T Consortium.