首页  >  热点  >  新闻特写  >  文章正文
shRNA表达克隆

完整人类基因图谱即将完成

Mar 02, 2021 No Comments

 

完整人类基因图谱即将完成
 “纳米孔”测序器,如图中的这些GridION单元,可以不间断地解码数以万计的DNA碱基。

 


测序技术的进步意味着科学家们即将完成完整的人类基因组图谱。

由于基因和调控序列的复杂和多样性,人类基因组经常被比作一个景观。但在这处景观的许多地方,风景非常单调,像是广阔而重复的沙漠公路。

以染色体的着丝粒为例,它连接着两条携带基因的臂。着丝粒由数千个几乎相同、长度约为171个碱基对的α-卫星序列组成,作用是确保染色体的稳定性和细胞分裂。然而,在人类基因组草案发表的20年后,这些和其他具有挑战性的DNA区域仍然是亟待开发的处女地。哪怕是几年前,一些研究人员还对破译这些区域的序列感到束手无策。

北卡罗来纳州达勒姆的杜克大学(Duke University)的着丝粒研究员Beth Sullivan回忆起2014年与加州大学圣克鲁兹分校(University of California, Santa Cruz)基因组学研究员凯Karen Miga的一次对话。Sullivan指出,Miga感叹,如果测序技术不能发生翻天覆地的变化,我们就得花上很长的时间才能获得完整的人类基因组图谱。

幸运的是,测序技术确实取得了革命性的进步:现在的测序技术可以不间断地读取长段DNA。现在,Miga和她在端粒到端粒联盟(Telomere to Telomere, T2T)的同事们正准备结束他们自人类基因组草图发布后的20年征程。T2T的目标是为每条染色体制造一个完整的、从一个端粒(覆盖染色体末端的重复序列元素)延伸到另一端的端粒的基因组图谱。Miga表示,他们不仅仅是为了做而做,而是他认为这有很重要的生物学意义。但要解开这个谜题,基因组学领域需要对多个个体的基因组进行测序,消除不同个体之间这些基因组区域的差别的影响。

 

技术困境

20年前的2月公布的人类基因组草图是一项里程碑式的成就。但其中仍有大量问题需要解答。人类基因组计划(Human Genome Project)的科学家们从染色体DNA中生成了大量的短序列。基于相邻片段会存在一段完全重叠的序列,这些短序列被组装成更大的、连续的延伸,称为contigs(拼接体)。理想情况下,每条染色体都应该只有一个单一的contig,但草图中有1246个这样的contig。

从那以后,基因组参考联盟(Genome Reference Consortium, GRC)的科学家们一直在不断丰富草图的细节,勘误,并使用测序分析来识别有错误和信息缺口的片段。人类基因组的最新版本GRCh38于2013年发布。从那时起,它就不断被“修补”。然而,它仍然缺少5-10%的基因组序列,包括所有的着丝粒和其他具有挑战性的区域,如编码核糖体的序列。这些片段中有大量重复的序列。位于马里兰州贝塞斯达的美国国家人类基因组研究所(US National Human Genome Research Institute)的生物信息学家、T2T联合主席Adam Phillippy提到,重复片段占到了需要补充的信息里的很大一部分。基因组中还充斥着难以绘制的、几乎相同的DNA片段,即所谓的片段复制——古老染色体重排的产物。

这些具有挑战性的部分继续阻碍着基因组图谱的努力。这是因为迄今为止大多数测序都是用短读技术完成的,比如加州圣迭戈生物技术公司Illumina商业化的广泛使用的平台。Illumina测序仪生成非常精确的数据,但通常只能一次性读取几百个碱基——太短了,无法读取很长的重复序列,也无法明确定位序列。英国欣克斯顿的维康信托桑格研究所(Wellcome Sanger Institute)的计算生物学家, GRC的成员Kerstin Howe指出,基因通常很容易拼接,但基因间空间中的其他东西或有大量重复的东西基本上是很难处理的。

 

跨越鸿沟

现在,两种长序列读取的技术正在缩小这些差距。位于加州门洛帕克的太平洋生物科学公司使用一种成像系统直接并行读取数十万,甚至数百万条DNA链,每条链长度达到数千个碱基。另一种由英国公司Oxford Nanopore Technologies商业化的方法是让DNA链穿过微小的蛋白质孔,即纳米孔,通过测量核苷酸穿过通道时发生的电流的细微变化来读取数万至数十万个碱基。

当它们首次推出时(太平洋生物科学公司于2010年推出新技术,牛津纳米孔公司于2014年推出新技术),这些技术比Illumina更容易出错,Illumina对单个读取的准确率超过99%。Phillippy指出,PacBio早期的误差率是15-20%。第一代纳米孔测序仪可以产生超过30%的碱基错误。

但性能稳步提高,读取长度也随之提高。Phillippy继续指出,在过去的三到四年里,我们可以读取超过10万碱基的长度,就在那时,Karen和他发起了T2T研究项目。

该联盟成立于2019年初,旨在为每条人类染色体生产高质量的端到端序列信息。来自世界各地的100多名测序和基因组学专家已经签署了协议,其中许多人已经积极地展示了长读取测序的潜力。

2018年发表的两篇论文尤其引人注意。在其中一篇中,英国诺丁汉大学(University of Nottingham)的计算生物学家Matthew Loose等人描述了第一个完全由牛津纳米孔数据读取而成的人类基因组。以前,长读工具得到的数据需要使用Illumina数据来纠正。但是,Loose等人仅使用纳米孔数据就覆盖了大约90%的GRCh38序列,准确率为99.8%,同时也填补了参考基因组中的十几个主要缺口。

在第二项研究中,Miga等人重新破译了人类基因组中最小的Y染色体的着丝粒。他们在该区域产生了大量的长序列,以产生高质量的一致序列,其中随机错误可以被很容易地识别和消除。Miga表示,他们实际上可以读取着丝粒的所有序列,但那时候还需要手工操作——只是看看数据,然后把它们拼接在一起。

 

完整人类基因图谱即将完成1
图为扫描电子显微镜拍摄的人类基因组。

 


首个完成

这些成功表明,T2T的目标是可以实现的。为了简化工作,该联盟专注于CHM13,这是一种来自肿瘤的细胞系,其基因组包含两套相同的染色体。这消除了二倍体基因组的复杂性,即来自双亲的不同染色体拷贝。

2020年末,T2T科学家以预印本形式发表了X染色体和8号染色体的完整图谱。研究人员使用牛津纳米孔技术对两条染色体进行测序,这两条染色体的长度通常超过7万个碱基,其中一条染色体的长度超过100万个碱基。Phillippy表示,他们基本上能够了解染色体的主要序列,但准确性较低。然后,他们用Illumina和太平洋生物科学公司的读取数据来补充这些数据,以完善他们的图谱。

西雅图华盛顿大学(University of Washington)基因组科学家Evan Eichler实验室的博士后Glennis Logsdon是8号染色体完整图谱那篇论文的第一作者。他指出,不同的测序技术有各自独特的特点。例如,T2T科学家发现,太平洋生物科学公司的技术在解读富含G和A碱基的基因组区域上表现不佳,而纳米孔技术有时会在同一核苷酸的大段重复序列上遇到问题。Logsdon则提醒,如果一个数据集有另一个数据集没有的缺陷,它们最终会很好地互补。

完成和核实这些图谱需要研究人员开发的专门软件工具,包括Phillippy和加州大学圣地亚哥分校(University of California, San Diego)的计算生物学家Pavel Pevzner联合开发的工具。该团队采取了谨慎的方法。Phillippy指出,只有在7000个碱基长度范围内,两个序列基本上100%相同的情况下,他们才会把它们拼接在一起。因为一旦图谱中有了一个错误,就很难修复它。通过这样谨慎的策略,就有可能在核苷酸水平上生产99.99%准确度的图谱。

对X染色体的初步研究也得益于先前对该染色体的着丝粒的了解,X染色体的着丝粒在结构层面已经得到了充分的研究。Sullivan表示,他们使用了多种分子技术,以确保从测序信息中得到的α-卫星阵列组合的大小是正确的。总的来说,着丝粒研究被大量验证,让他印象深刻。

研究人员还利用了测绘技术,比如加州圣地亚哥的生物技术公司Bionano Genomics开发的一种测绘技术,这种技术使测量染色体上DNA序列之间的距离成为可能。

 

即将完成

尽管成功了,但在8号染色体和X染色体上进行T2T实验是费力和辛苦的。但在这段时间里,一个重要的进展给该团队的努力打了一针强心针。太平洋生物科学仪器公司支持一种名为循环一致测序(circular consensus sequencing, CCS)的方法,将单个DNA链转换成可以反复读取的闭合循环。通过比较这些重复的读数,研究人员可以消除随机错误,产生高度准确的结果。

早期版本的CCS最多只能处理几千个碱基,限制了它们在基因组图谱绘制中的使用。但在2019年,该公司对这一技术进行了改进,由此产生的高保真方法现在能读取长达2万个碱基的序列,且准确率超过99%。Pevzner表示,他们现在可以高保真地读取着丝粒的序列——不需要额外的校正,尽管也需要能够处理这些数据的精确校准的算法。

Pevzner将着丝粒重构比作组装一个看起来很清晰的晴空拼图,所有的碎片最初看起来都无法区分。他认为,天空中部分区域有一些几乎看不见的云,可以以此区分出这个拼图的不同部分。发现这些云是组装拼图的关键——改进的方法能够识别这些“云”,敏感地检测细微的序列差异,为序列组装的算法提供地标。

这种方法与更长的纳米孔的结合显著加速了T2T的进展——据Logsdon报告,现在10万个碱基的读取长度已经成为常规。Phillippy指出,他们花了一年或更多的时间来完成X染色体和8号染色体的测序, 但他们基本上能够在两个月的时间内完成所有剩余的染色体的测序。现在结束在望。Miga则指出,除了9号染色体,他们已经破译了其他染色体上的着丝粒。她表示,9号染色体上的着丝粒是巨大的——长度超过2700万个碱基——并且在验证方面有一个特殊的挑战。研究小组还在最后确定高度复制的核糖体RNA基因。但该联盟已经在GitHub上分享了其数据,Miga预计CHM13细胞系的完整基因组将于今年发布。

这些数据已经产生了深刻的见解。Logsdon等人一直在使用纳米孔测序来寻找可以影响染色体功能的DNA化学修饰模式。她指出,大多数的着丝粒是甲基化的,但是甲基化的减少似乎在所有的着丝粒中都存在。甲基化的减少似乎标志着着丝点的位置,着丝点是细胞分裂过程中调控DNA平均分割到两个子细胞的一种重要的连接结构。Logsdon希望利用这些发现来设计合成染色体的最小着丝粒。

T2T的方法也推动了编码免疫系统T细胞表面的抗体和受体的可变区域在短时间内被破译。Pevzner表示,这些区域的重复性很高,组装起来非常困难。到现在为止,这类区域只有2个参考序列。破译这些富有挑战的基因区域,可以帮助科学家们了解对感染和疫苗的免疫反应。

 

万里长征第一步

尽管基因组图谱建立起来很有挑战性,但由于没有来自不同个体的其他基因组可供比较,单一的端到端基因组为研究人员提供的价值有限。为了提高其效用,在2020年底,T2T开始与另一个并行的研究机构——人类泛基因组参考联盟(Human Pangenome Reference Consortium, HPRC)更密切地合作。HPRC于2019年启动,目标是根据至少350个个体的全基因组数据,用更好地捕捉人类多样性范围的参考基因组取代GRCh38。德国马克斯普朗克信息学研究所(Max Planck Institute for Informatics)的计算生物学家Tobias Marschall参与了这项研究,他指出,基因组医学变得越常规,人们就越想纠正自身基因里的缺陷。

Yuta Suzuki是东京大学(University of Tokyo)计算生物学家Shinichi Morishita实验室的助理研究员,他利用太平洋生物科学公司的测序技术对来自日本和世界其他地方的36个个体的着丝粒进行了研究。Suzuki表示,哪怕都是日本人,每个个体着丝粒都有差异。只有一份参考序列是不够的,甚至每个群体只有一份参考序列也是不够的。

Morishita计划分析数百个人类着丝点,他注意到几十个与疾病相关的基因变异与这些区域有关。他认为,这表明着丝点重复序列中有些地方出了问题,他们的印象是,它们的稳定性可能由于结构变异而受到破坏。在他看来,一旦核糖体RNA基因被破译,科学家们就能更好地了解与核糖体相关的疾病。

但首先,研究人员必须弄清楚如何将T2T过程应用于二倍体基因组。要确定哪个序列位于哪个染色体拷贝上,科学家需要识别足够的独特遗传标记,从而可靠地为每条DNA链组装不同的contigs,这在超重复区域(如着丝粒)是一项艰巨的任务。在他们的8号染色体预印图谱中,Logsdon、Eichler等人描述了从黑猩猩和人类身上重建二倍体着丝粒区域的可行性,但前提是两条染色体在基因上高度不同。Morishita指出,对于二倍体基因组,我们需要更精确或更长时间的读取来跨越整个着丝粒的区域。

目前,大多数临床基因组学的工作集中在已知的基因——一种快速和经济有效的基因组分析方法。但是探索这一新领域的先驱们预计,完整基因组分析最终将成为医学和基因组学的一种金标准,尽管可能更昂贵。随着科学家们越来越多地破译原本无法探索的基因区域对疾病的影响,全基因组测序更是会成为主流医疗手段。Miga提出,如果他的孩子生病了,他会愿意付更多的金钱来获得完整的序列信息。


原文检索:
Michael Eisenstein. (2021) Closing in on a complete human genome. Nature, 590: 679-681.
张洁/编译

新闻特写, 热点
No Responses to “完整人类基因图谱即将完成”

Leave a Reply


four + = 9