纳米孔测序，实现DNA超长读长

Aug 20, 2019 No Comments

纳米孔测序的早期采用者正在挑战超长DNA读取所能达到的极限，他们也在探索将这项技术应用于其它生物学问题。

今年2月，美国国家人类基因组研究所（National Human Genome Research Institute）的Adam Phillippy向基因组学界展示了一个完整的人类染色体重建图。众所周知，2000年发表的人类基因组序列只是一个支离破碎的草稿，近20年后，人类基因组序列仍然不完整。加州大学圣克鲁兹分校（University of California at Santa Cruz, UCSC）的Karen Miga和他在国际端粒到端粒联盟（Telomere-to-Telomere Consortium, T2T）的同事正致力于解决这一问题。他们在今年的基因组生物学和技术进步（Advances in Genome Biology and Technology, AGBT）会议上展示的完整X染色体是关键的第一步。

这项工作充分展示了纳米孔测序的能力。纳米孔测序可以读取长达数十万个碱基的序列——这个长度足够让科学家在密集的序列元素森林中探索那些一直困扰着蛋白组装和分析领域的重复元件。UCSC的基因组研究人员、T2T项目的合作者Miten Jain指出，他们都有兴趣不断拓展读长来深入基因组中的这些‘黑暗区域’。Jain通过他的团队带头人Mark Akeson获得了牛津纳米孔技术（Oxford Nanopore Technologies, ONT）公司的资助。

Jared Simpson在安大略癌症研究所（Ontario Institute for Cancer Research）的研究团队。

基因组学研究人员对ONT公司自2014年上市以来开发的测序系统很感兴趣。但是这项技术与其它测序平台有很大的不同，而且作为市场上相对较新的技术，该平台面临着来自短读长测序仪器生产商Illumina，以及来自长读取测序竞争对手太平洋生物科学公司（PacBio）的激烈竞争，而Illumina目前正在收购PacBio。诺丁汉大学（University of Nottingham）的发育遗传学家Matthew Loose表示，他们过去必须说服人们纳米孔测序是有效的，并且它可以应用于高通量和大规模测序中。

但随着ONT的平台变得更加成熟，且在基因组组装和分析领域小试牛刀后，该系统的早期采用者表示，可以利用其独特的设计来映射未知的染色体地形，同时也能在转录组和表观基因组学等领域获得前所未有的洞察力。Loose认为，人们还没有真正发挥这项技术的潜力。

误差修正

最初，纳米孔测序最引人注目的方面是有效。ONT在2012年的AGBT会议上成为焦点，当时首席技术官Clive Brown介绍了MinION，一个拇指驱动大小的小部件，售价不到1000美元，可以生成150兆字节的DNA序列。这种微型设备不仅与现有的台式仪器相去甚远，而且其潜在的技术似乎也接近于科幻小说。每个MinION单元含有数千个嵌在膜上的蛋白孔，DNA链被捕获并穿过孔洞，仪器通过检测不同的核苷酸组合在通过孔洞时产生的电流变化来解码序列。

加文医学研究所（Garvan Institute of Medical Research）的Martin Smith（左）与团队成员James Ferguson（中）和Hasindu Gamaarachchi（右）。

澳大利亚加文医学研究所（Garvan Institute of Medical Research）基因组技术小组负责人Martin Smith表示，他都被这台迷你测序仪震惊了。他原以为这只是个白日梦。Smith是通过ONT的MinION Access Program（MAP）获得第一代仪器的一小群人之一。在这些早期用户中，最初的反应通常是喜出望外的，但由于清楚地认识到系统的局限性，他们的反应相对缓和。Loose永远不会忘记他们第一次运行MinION，并得到一个读数。他们一直希望找到一台这样的仪器。但MinION的性能不够稳定，前后读数不一致的情况也很频繁。据安特卫普大学（University of Antwerp）的生物信息学家Wouter De Coster回忆，他们每个人都花了一整天在文库的准备工作和测序上，但MinION的读取错误率高达30-40%。他还指出，运行结果往往是读对或缺失，而且缺失的时候甚至比读对的时候多。

在接下来的几年里，通过对孔隙和流动池化学进行了多项改进，该技术的性能有了很大的提高。其中一个最大的飞跃发生在2016年，当时ONT用一个较新的R9.4孔取代了之前更易出错的R7.3孔。R9.4是由大肠杆菌蛋白CsgG改造而来的。前乌得勒支大学（Universitair Medisch Centrum Utrecht）遗传学家，现任生物技术初创公司Cyclomics的首席科学官Wigard Kloosterman指出，当时，他们在测序吞吐量方面取得了十倍的进步，准确率也有所提高，错误率约为11%。今年早些时候，该公司宣布推出R10，声称这是一种全新的孔隙结构。早期数据表明，R10可能有助于克服纳米孔测序中最持久的问题之一—— “均聚物”序列包含特定核苷酸的连续重复，会产生难以辨认的模糊信号。

诺丁汉大学（University of Nottingham）的Matthew Loose。

法国原子能和替代能源委员会（French Commission for Atomic Energy and Alternative Energies）Genoscope实验室的Jean-Marc Aury。

Jean-Marc Aury在法国原子能和替代能源委员会基因组研究所（Genoscope）领导着一个生物信息学家团队，他是R10的早期使用者之一，并指出他的团队已经观察到了一些缺陷。Aury指出，个别读取的错误率高于R9.4，但错误率更随机，因此总的来说准确率更高。科学家认为，把这两种孔的差异结合到仪器上，可能是互补的。安大略省癌症研究所（Ontario Institute for Cancer Research）的Jared Simpon目前正在探索这种可能性。他接受了ONT的研究资助。他表示，这两种孔会给你不同的信号，这样你就可以用一个孔接收另一个孔接收不到的信号。两者的优势可以相互加强。

曲折前行

在这些硬件进步的同时，ONT公司内部和生信学家开发的计算软件也在不断进步。早期采用者面临的最大挑战之一是纳米孔的数据看起来与市场领导者Illumina公司生产的数据非常不同，需要一个同样独特的工具箱。MinION运行的原始输出包括电流的波动，这些波动随后被转换成“曲线”图，然后可以通过专门的碱基调用软件转换成更熟悉的核苷酸序列串。

早期的碱基调用软件相对容易出错，但从2017年开始，这些程序开始使用神经网络算法，可以将读取级别的准确率提高到80%以上。ONT的基础调用软件的后续迭代，如剪贴算法，也有助于减轻均聚物的不必要影响。据Jain解释，如果你有相同的碱基重复多次，那么你就不会看到离子电流的变化——你只会得到一条平线。这个算法能识别重复信号有多长，能大致知道处理这条链的速度。它可以利用速度和时间来估计碱基的数量。尽管研究结果并不完美，但它们消除了许多意外的、由错误解读的均聚物引起的‘缺失’。

Scrappie通过调用原始数据而不是处理过的曲线来做分析，其它软件工具也利用这些未经处理的测量数据来进一步提高测序精度。例如，Simpson在2015年开发了一种名为Nanopolish的工具，帮助完成了第一个完整的细菌基因组的纳米组装。该软件使用原始的电流变化数据来纠正多次读取中的重叠区域的错误。Simpson说:“我们真正要做的是深入了解影响信号的因素，并建立模型，最大限度地利用测序器。”

Nanopolish仍然被广泛使用，尽管它的运行需要大量的计算，Simpson指出ONT已经发布了一种名为Medaka的替代工具，可以用更少的时间和更少的精力实现更高的精度。据他介绍，你无需一个高性能的计算系统——你只需要一台笔记本电脑就足够了。更普遍地说，这个一致性分析步骤为克服读取级别的错误提供了一个关键的机会。软件的进展推动纳米孔测序的准确度超过99%，为其与Illumina等巨头进行竞争奠定了基础。Loose指出，测序领域对原始阅读准确性始终有一种执着，不过这并不总是一个重要的问题，更重要的是能否达成一致。

更大更好

即使在这种技术发展的背景下，直到几年前纳米孔测序仍然被广泛认为是一种拥有商机的工具。事实证明，这种超便携的“小分队”是一种强大的野外应用工具，比如追踪寨卡病毒的爆发，以及在遥远的南极洲测量环境样本，但临床研究和重新组装基因组领域的主流技术还是Illumina和PacBio技术。

2017年4月，人们的观念发生了重大转变。当时由Loose和Kloosterman领导的两个研究小组独立地证明纳米孔也可以分析完整的人类基因组。然而，这并非易事，它只是一个概念的证明，而不是现有全基因组测序策略的可行替代品。Loose那项研究的第一作者Jain指出，他们的组装大约花费了15万个CPU小时，如果他们在亚马逊的网络服务上运行它，那将花费他们大约3万美元。虽然在三年之后，MinION的产量和可靠性都有了很大的提高，但这些微型设备与如此规模的项目并不匹配。例如，Kloosterman估计他的团队花了半年时间利用122个流动池进行测序，以实现16个基因组的覆盖。

此后，测序规模扩大变得更加简单。经过两年的早期检测，ONT公司发布了PromethION，一种用于高通量测序的仪器。Loose表示，他们能够在每个流动池上检测6个人类基因组，他们在4天的测序中完成了40到85次的人类基因组检测。早期用户对此印象深刻，但需要注意的是，实验结果在很大程度上取决于样品制备的质量。De Coster指出，有了一个好的样本和一个好的流动池，每次运行100千兆是绝对可行的。但如果你的DNA质量很差，每次就只能读取30千兆或更少。该仪器目前的版本可以在一次实验中运行24或48个流动池，用户可以在一个满载的仪器上收集几个兆兆的碱基数据。

这使得PromethION在吞吐量方面与其它领先的测序平台处于同一水平，尽管竞争仍然很激烈。例如，市场领导者Illumina报告，其顶级的NovaSeq 6000仪器可以在两天的内利用两个流动池生成多达6个兆兆碱基的序列数据，其输出包括100-150个碱基的短配对读取。在长读方面，PacBio表示，其Sequel II仪器可以在30小时内为每个流动池生成320千兆碱基的读取数据，输出长达万到十万的碱基的配对读取，平均每次读取的准确率超过99%。

纳米孔用户还受益于为PacBio仪器开发的高效基因组组装软件的激增，这类软件已成为重新组装基因组的热门选择。许多最流行的工具，如MiniMap2和Canu，都是与平台相互独立的，并且可以根据不同系统生成的数据的特性进行配置，从而提供最佳的结果。约翰·霍普金斯大学（Johns Hopkins University）专攻测序技术的工程师Winston Timp想说的是，长读长工具箱现在已经相当统一了。

原则上，纳米孔测序中读取长度只受能完整传输到空隙中的DNA片段大小的限制。这使得纳米孔技术在构建超长序列装配方面具有主要优势，而不存在与短读拼接结构相关的问题。Aury指出，他们已经能够对整个酵母菌染色体进行测序——大约有200到300千位碱基。Jain指出，事实证明，这种规模的读取在提高人类基因组测序的质量方面是非常宝贵的。如今，用户之间展开了友好的竞争，看谁能完成最长的单次读取。Smith的实验室在2017年底第一个突破1兆字节大关，Loose和他在伯明翰大学（University of Birmingham）的合作伙伴Nicholas Loman已经收到了来自维康信托（Wellcome Trust）的资助，用于建立一个“长阅读俱乐部”，以开发突破读长限制的策略。

如此大规模的测序绝非易事。目前市面上有售分离大型DNA片段的试剂盒——例如，Smith等人使用了BioNano Genomics为基因组图谱平台开发的一种技术，该技术的目的是在相当远的距离内精确定位序列读取的相对位置。然而，这些长链的行为不同于短链。Smith指出，长链DNA非常粘稠，就像凝胶塞一样——让其进入流动池可能是最棘手的部分。

纳米孔测序也非常需要样本，而且对样本的准备要求非常严。在读取长链DNA时，这个问题更为突出。但结果仍然令人震惊——在2018年末，Loose描述了一个2.3兆字节的序列，这个序列太长了，以至于碱基调用软件错误地把它分成11个读取，用户一直在争夺新的记录。”Loose表示，他们在Twitter上看到了令人印象深刻的结果。

填补空白

纳米孔特别适合研究复杂基因组的结构变化。Kloosterman指出，人类基因组中的这些逆转录转座子元素就是一个很好的例子。这些转座子元素大约是6到8千碱基，如果读长达到20千碱基，你可以从头到尾看到它们。用250个碱基的读长几乎不可能重建这些数据，而顶尖的碱基精度对这类映射来说不是必不可少的。

De Coster等人一直在使用PromethION系统地识别人类基因组中重复的元素和其它结构变异的来源，聚焦检测神经疾病的危险因素。De Coster表示，他们已经看到，他们可以预期在人类基因组中大约有2.7万个大于50个核苷酸的结构变异，它们对人类之间的变异的贡献超过单核苷酸多态性。在Kloosterman的经验中，纳米孔可以对大规模的序列重排类突变达到近乎完美的敏感性，例如癌症基因组中常见的染色体异常，但对于小的错误，包括插入或删除错误不敏感，在检测单核苷酸突变上也不理想。

因此，大多数对重建全基因组感兴趣的研究人员将纳米孔与其它技术相结合，从而进一步提高装配的连续性和准确性。例如，Aury的实验室发现纳米孔非常适合研究复杂的、通常高度多倍体的植物基因组，但它不能独自完成全部工作。Aury指出，单是得到染色体规模的框架仍然是不够的，所以他们一直在使用BioNano光学映射，你还需要Illumina的数据来完善一致性数据。

T2T团队也采用了多管齐下的方法。在去年的初步试点工作中，Miga等人使用了一组200千碱基的读数，为人类Y染色体上从未绘制过的着丝粒构建了一个序列支架。该论文的第一作者Jain指出，他们能够组装出一个315千碱基的着丝粒。值得注意的是，当他们开始构建时，并不知道它的长度。但是一旦拿到纳米孔测序的读数，他们就利用Illumina公司的短读数据来完善最终的组装。未来，T2T计划把PromethION、PacBio和Illumina的数据，以及BioNano等远程测绘技术的数据结合起来，正如他们在最近完成的X染色体重建中所做的一样。

这种全面的基因组检测在常规临床应用中并不实用，但一些研究小组正在探索利用纳米孔技术对单核苷酸突变进行高精度的靶向测序方法。Kloosterman与长期合作伙伴Jeroen de Ridder共同创立的Cyclomics公司开发了一种策略，可以捕获并循环短DNA片段，然后反复进行酶复制，产生长串重复序列。然后可以对这些序列进行排序，以获得高度准确的测序结果。Kloosterman希望通过在MinION上实现这一功能，能够提供一种低成本、便携的肿瘤DNA突变“液体活检”技术。其它有针对性的测序策略有可能直接应用于原始DNA样本。例如，Timp等人使用基因组编辑酶Cas9在感兴趣的基因组位点上实现选择性切割。然后，这些分裂的末端可以被“标记”为优先测序，这使得被切割部分比未切割部分富集几百倍。

Cyclomics创始人Jeroen de Ridder、Wigard Kloosterman和 Alessio Marcozzi。

打开一扇新的大门

随着纳米孔在DNA序列分析方面越来越有竞争力，研究人员也发现，这些微小的孔同样适合研究其它各种生物分子。Timp表示，纳米孔并不在乎你往里面放了什么。例如，他和Simpson使用纳米孔来绘制与DNA甲基化相关的表观遗传标记。在MinION的早期，修改过的DNA碱基，如5-甲基胞嘧啶（5-mC），会对当前的读数有混淆作用，会迷惑碱基调用软件。但是，如果软件能够识别出修改产生的模式，并将其与正常碱基区别开来，那么这种噪音就可以被消除。Simpson和Timp合成了各种各样的DNA序列，并在不同的位置和序列上下文中引入5-mC，然后他们训练纳米孔，使其能够一致地辨别这些相同的模式。

他们将继续合作鉴定其它自然发生的DNA修饰，最终得到的数据将被整合到未来的碱基调用软件中，用于常规测序实验。然而，纳米孔测序的这一特点也可以用来研究染色体生物学的其它特征。例如，Timp的团队使用甲基转移酶对DNA样本进行处理，甲基转移酶优先在相对开放的色谱层上标记序列（通常与主动转录的基因相关），然后通过纳米孔测序检测这些修饰模式。Timp表示，他们发现他们可以将染色质状态和单个分子的甲基化相结合，从而识别具有等位基因特异性的印迹基因。

人们还可以通过相同的纳米孔将RNA链串联起来，这样就可以直接分析完整的转录本，而不需要酶转化为cDNA，这一过程可能会给转录组数据带来偏差。最近合作完成了一个人类细胞株转录组mRNA的纳米孔测序的Jain指出，你得到了一个自然的全长RNA的测量，这意味着你得到了所有的剪接连接。他们读取了1000万个RNA，最长的是2.2万个碱基，跨度116个外显子。领导这项研究的Timp指出，这些序列还包括全长的、在mRNA稳定性和翻译中具有重要的调控作用的poly（A）尾巴，而在基于cDNA的转录组学方法中通常会缺失poly（A）结构。考虑到均聚物存在的问题，纳米空测序技术实现精确的定量可能是困难的，但是通过孔隙跟踪传输时间的碱基调用软件可以部分解决这个问题。

与基于cDNA的短读RNA测序方法相比，转录组规模的纳米孔数据的生成需要更多的人力。Aury指出，纳米孔RNA测序对样品品质要求非常高，所以你需要大量的RNA，而且产量仍然非常低。与Illumina或PacBio获得的cDNA序列相比，纳米孔测序对单个RNA读取的错误率也更高。此外，就像DNA一样，化学修饰会迷惑碱基调用软件，从而进一步增加错误率。Smith表示，对于DNA，只有十几种左右的修饰。但是RNA——尤其是核糖体RNA或tRNA——已知有数百种修饰。

但是，如果能够训练基本调用软件识别和解释这些修饰，那么后一个问题也是一个机会。巴塞罗那基因组调控中心（Center for Genomic Regulation in Barcelona）的Eva Maria Novoa等人最近发表了一篇预印文章，证明了最常见的mRNA修饰之一——N6-甲基腺苷可被纳米孔测序识别。参与这项研究的Smith指出，他们观察了来自这些修饰的碱基调用错误，发现错误率很低，但仍然存在问题。研究人员正试图训练出一种不仅能识别单个修饰，还能识别大量碱基多种组合带有的大量修饰的软件。这会进一步增加挑战的难度。在Jain的团队中，他们称之为‘十年长征’。

尽管ONT在纳米孔测序方面已经取得了令人敬畏的进展，其他公司和学术研究人员也在探索这项技术的潜力。例如，Roche一直在不动声息地开发一种基于蛋白质纳米孔的技术。该技术作为一种潜在的临床诊断工具，是从初创公司Genia处获得的。Ontera正在开发一种手持设备，使用固态纳米孔，可以潜在地识别给定样本中存在的核酸、蛋白质，甚至病原体。在华盛顿大学（University of Washington），Jens Gundlach的团队一直在使用从分枝杆菌中提取的纳米孔蛋白来研究核酸和各种“运动蛋白”之间的动态相互作用，比如解旋DNA的解旋酶。

对于帮助纳米孔测序找到立足之地的早期用户来说，这些各种各样的进展正在给这个领域注入新的活力，并激发了人们对纳米孔下一个分析对象的想象。蛋白质测序是Timp的首要目标，他指出，一些学术研究已经开始为这一方向扫清道路。Timp表示，他并不是说氨基酸测序很容易，但是想想质谱分析是多么痛苦。如果纳米孔能做用于分析蛋白质，那就真是太棒啦！

原文检索：
Michael Eisenstein. (2019) Playing a long game. Nature Methods,16:683-686.
张洁/编译

新闻特写, 热点

生命奥秘

纳米孔测序，实现DNA超长读长

误差修正

曲折前行

更大更好

填补空白

打开一扇新的大门

Leave a Reply

热点 · 最新文章

最新评论

About

Special

Social