第一个真正完整的人类基因组序列终于诞生了。它“从头到尾”不存在任何缺口,包含每一条染色体的信息,并达到了前所未有的精确度。
它是科学家自2001年人类基因组工作草图发布后,在20多年间不懈努力的成果。科学家相信,这是基因组研究的又一项里程碑式的突破。团队已于近日在《科学》杂志上发表6篇论文,对这个新基因组进行了详细描述。
站在巨人的肩膀上
人类基因组计划(HGP)于1990年启动,它的目标就是确定我们人类染色体中DNA碱基的顺序,揭开人类基因的蓝图。在基因组计划启动11年后,2001年,HGP与塞雷拉基因组公司共同发表了人类基因组工作草图。至此,我们正式迈入了基因组研究的时代。
但当时,科学家的任务还没有结束。人类基因组序列的原始草图实际上没有涵盖完整的基因组,它仅仅包含了我们通常所说的常染色质,或者可以简单理解成“更活跃”的区域。常染色质大约占据人类基因组的92%,大多数基因都在其中,它们是制造RNA和蛋白质等基因产物的关键。
这背后的原因主要来自技术的限制。因为人类基因组非常长,科学家其实无法一次性完全读取所有信息。他们必须将这些基因“切”成更小的片段,分别对每一小段中的信息进行分析,最后再整合组装到一幅完整的图谱中。但在有限的技术条件下,这些片段只能被分割得非常零碎,因此难免会遗漏大量信息,差错也在所难免。
到了2013年,经过十多年的努力,基因组参考联盟(GRC)发布了更新的人类参考基因组GRCh38。所谓的参考基因组是研究中一种常用的手段,它并不是来自某一个个体,通常是由科学家组装的数字的核酸序列数据库,作为物种的一个理想个体的基因代表。
GRCh38的序列来自多位匿名志愿者。它已经是最精确和完整的脊椎动物基因组之一,但仍然不是一个“一字不差”的完整基因组。
从端粒到端粒
2019年,生物学家Karen Miga和 Adam Phillippy组织了一个国际科学家团队,名为端粒到端粒(T2T)联盟。团队的目标就是攻克人类基因组中那些缺口,从端粒到端粒,也就是从头到尾揭开染色体的序列。
在此之前,Miga曾参与研究证明了一种被称为纳米孔测序技术在创造完整人类基因组序列方面的潜力。它可以获得包含数十万碱基对的超长读取,这类超长读取的新技术也成了日后突破的关键。
2020年6月,Miga带领团队完成了一项重大突破,他们结合纳米孔测序和其他测序技术,并利用光学图谱整合等手段,第一次“从头到尾”确认了人类X染色体的完整序列。这一成果也标志着,创造出精确到碱基的完整人类染色体已经成为现实。(详见《首次获得人类X染色体的完整序列》。)
一年后,2021年6月,团队实际上已经完成了CHM13基因组的测序,并在预印本上传了论文。当时,CHM13已经以极高的精度包含几乎所有序列的完整信息,其中增加了近2亿碱基对的新序列,包括99个可能编码蛋白质的基因,和近2000个有待进一步研究的候选基因。它还纠正了当前参考序列中的数千个结构错误。(详见《完整的人类基因组已经近在眼前》。)
CHM13有一处明显的遗漏,便是Y染色体。因为研究巧妙地选择了包含两条相同X染色体的完整葡萄胎细胞,这让序列更容易被组装,也因此失去了测序Y染色体的机会。但科学家已经很有信心,他们的方法同样有能力准确完成对Y染色体的测序。
自1990年HGP启动,发布的人类基因组序列比例。| 图片来源:NHGRI
现在,团队公布了整个T2T基因组序列,它代表了已经完成的CHM13基因组,加上近期完成的T2T Y染色体。研究人员认为,新的T2T参考基因组将成为人类参考基因组GRCh38的有力补充。
人类泛基因组参考
人类基因组测序的工作从某种程度上来说已经完成了,但这更像一个阶段性胜利,未来还有更多令人兴奋的研究等待开展。
T2T联盟现在已经开始了与人类泛基因组参考联盟的合作。他们计划根据350个个体的完整基因组序列,创建一个新的人类泛基因组参考。
泛基因组学捕捉的是人类群体的多样性,它也能帮我们更准确地认识整个基因组,比如发现不同人口中存在的大量遗传变异,了解它们在疾病中的角色,发掘人群内部和人群之间的遗传多样性。
下一阶段,科学家将开始思考人类基因组参考,不是单一的基因组序列。这是一种深刻的转变,甚至可以说是一个新时代来临的预兆。我们最终将以一种无偏的方式捕捉人类的多样性。
#创作团队:
撰文:Takeko
排版:雯雯
#参考来源:
https://news.ucsc.edu/2022/03/t2t-genome.html
https://www.rockefeller.edu/news/32087-the-human-genome-is-at-long-last-complete/
首次获得人类X染色体的完整序列
完整的人类基因组已经近在眼前
#图片来源:
封面图:MIKI Yoshihito from Sapporo City,Hokkaido., JAPAN