基因组学急需基准测试方法

Mar 10, 2020 No Comments

SLAC国家加速器实验室（SLAC National Accelerator Laboratory）的Marc Salit表示，对科学工具进行基准测试和获取基准测试结果应该更简单、更能定性、更人性化。但是，如果基准很难获得，而且比较深奥，这些方法的影响力就会受到限制。

一些“组学”工具可能比其它工具更准确、更敏感或更有效。然而，基准测试并不能说明一切。

万事俱备，只差庆祝啦——一个实验室的新软件工具测试良好，可以准备用于更大规模的实验了。然而，它在与另一个实验室的工具的比较中表现不佳。后来，在一个更大的竞争中，该工具排名吊车尾。实验室的伙伴一下子沮丧了起来。

南加州大学（University of Southern California）的生物信息学家Serghei Mangul表示，尽管一个工具可能排名靠后，但如果“它真的很精确”，这有助于激励研究者对其进行调整。麻省总医院（Massachusetts General Hospital）、麻省理工学院-哈佛大学布罗德研究所（Broad Institute of MIT and Harvard）的计算生物学家Kasper Lage指出，如果参数选择不当，可能会在比较过程中产生偏差。但是即使有完善的方法，优化的参数设置也很难确认。有些工具太难设置了。来自路德维希-马克西米利安-慕尼黑大学（Ludwig Maximilian University of Munich，LMU，简称为慕尼黑大学）的Wolfgang Enard认为，参数设置不好，工具就无法使用。

在一篇评论中，Mangul等人指出，他们调查的72%的基准测试研究并未包含工具/方法的计算效率的信息。除了知道一个工具有多精确或多敏感之外，了解它的计算需求也会有所帮助，比如需要多少内存才能使它达到最佳工作状态。Lage指出，通常，生物信息学方法是由博士后研究员或不太熟悉最佳软件工程实践的学生开发的。这些工具通常会有某种“条式代码”（面条式代码指非结构化和难以维护的源代码）因此，各个实验室需要自己去解决这些组织混乱和难于调试的代码。基准测试方法为用户和开发人员提供了一些建议，甚至能帮助那些有“通心粉代码”（形容代码结构像通心粉一样绕成一坨，互相纠缠，根本就理不清楚）的用户和开发人员解决这类问题。

布罗德研究所的Kasper Lage指出，生物信息学工具和管道可能有某种“面条式代码”，因为它们通常不是由了解软件工程最佳实践的人编写的。

金标准、铜标准

Justin Guinney是逆向工程的评估与方法交流（Dialogue on Reverse-Engineering Assessment and Methods, DREAM）竞赛的负责人。他表示，很难寻找一个金标准来评估什么是“好”的。他还在非盈利的Sage Bionetworks（DREAM竞赛在该平台开展）担任计算生物学负责人，并在华盛顿大学（University of Washington）任教。前DREAM项目主管、IBM和哥伦比亚大学（Columbia University）研究员Gustavo Stolovitzky表示，有时候，可以通过让团队进行预测来解决缺乏黄金标准的问题。然后，挑战赛组织者会对数据进行验证，包括额外的测量，就像在RNA剪接亚型挑战赛中所发生的那样。Stolovitzky还指出，由于缺乏黄金标准，组织者不得不考虑“如何创造出优秀的、甚至是不完美的黄金标准，也就是我们有时所说的‘铜’标准。”

弗吉尼亚理工大学（Virginia Tech）生物信息学研究员T. M. Murali表示，真实的信号网络也是一个非常棘手的问题。他和他的团队致力于研究从单细胞转录数据中推断基因调控网络的方法。他们对结果不满意，因此开始尝试基准测试方法，最近在尝试BEELINE。BEELINE是实验室评估算法的准确性、鲁棒性和有效性的途径。由于工具的语言多种多样：R、Matlab、Python、Julia和F#，该团队的准备工作包括对所有算法进行容器化，以实现统一访问。Murali的团队需要真实的信号通路网络来模拟数据集。这些信号网络的信息必须加以验证：该团队使用了从文献中整理出来的完全合成的网络，例如将单细胞轨迹推断方法与根特大学（Ghent University）和其他地方的研究人员的数据集进行比较；他们还从科学文献中整合了各种细胞过程的模型；他们建立了BoolODE，一个使用布尔函数描述网络中每个基因的计算环境。当他们模拟来自这些网络的单细胞转录数据，并测试这些算法时，一些算法比另一些更准确。Murali表示，算法的排名是根据它们在模拟数据集上的表现而定的，“当我们用模拟数据进行评估时，工具的排名与布尔模型方法相反。”布尔模型方法的排名与实验单细胞RNA-seq数据集的排名相似，这表明布尔模型与“真实的信号网络”相似。这个领域需要方法，尽管“基础事实仍然很难定义”。

DREAM挑战赛的负责人Justin Guinney说，要评估什么是好的，并不总是需要一个黄金标准。

真实数据，模拟数据

Guinney指出，尽管模拟数据是不完美的，但它在许多DREAM挑战中是必不可少的，特别是在基因组工具评估中。使用模拟数据时，用户必须仔细地陈述数据生成过程中的所有假设，以便工具开发人员和用户能够理解已知的和可评估的限制。布罗德研究所（Broad Institute）的Juan Caicedo表示，用于基准测试的数据应该反映出对解决方案感兴趣的人所面临的问题。Caicedo在显微图像分析领域举办过一场竞赛。他表示，模拟数据不利于基准测试，但有时别无选择，因为数据创建成本高昂，或者无法公开。使用全面的基准测试，数据可用性肯定是一个限制。由美国国家标准与技术研究院（National Institute of Standards and Technology, NIST）主持的公私联营企业Genome in a Bottle （GIAB）的联合负责人Justin Zook表示，真实数据和模拟数据都有各自的作用，但应该了解两者的局限性。他的研究重点是基因组参考材料和数据。Zook认为，纯粹的模拟数据通常不能代表真实数据中出现的所有偏差和错误，尽管有修改真实数据的方法。这包括在读取中引入变量或将两个样本中的实际数据混合在一起。这种方式在表示真实数据中出现的偏差和错误方面做得更好。他补充指出，真实数据的缺点是真相可能不为人知，比如基因组中最困难区域的“真相”。科学家可能无法从具有实验室感兴趣的突变样本中获得真正的数据，比如“罕见的、临床感兴趣的突变”。Stolovitzky则表示，不仅要小心地解读来自真实和模拟数据的结果，而且一个方法的真实性能可能会比用真实或模拟数据作为基准而检测到的性能更差。是否使用合成数据的讨论从DREAM的第一次讨论开始就一直存在，考虑到生物学的复杂性，在可预见的未来，合成数据将继续发挥作用。在发起第一场DREAM大赛之前，Stolovitzky等人考虑了共识，并在一篇关于这个主题的论文中指出，在硅芯片信号网络中提供了一个“理想的模型”。他们指出，然而，即使是人工合成模型中最具生物学灵感的模型，也与实际的生物模型相差甚远。但是考虑到这些网络在逆向工程方法的评估与交流中所扮演的角色，他们决定将它们包括在DREAM中。

Mangul认为实验室应该结合使用模拟数据和实验数据。利用模拟数据，实验室可以探索许多参数，如不同水平的基因组覆盖率或与测序仪本身相关的参数。如果没有实验数据，可以尝试使用真实数据的属性来提供模拟数据的一些属性。我们可以将突变插入模拟读数中，利用高覆盖率的全基因组数据，就可以使用多个读数来在1×的覆盖率下获得单核苷酸多态性（single-nucleotide polymorphisms, SNP）。Mangul表示，这可能会成为一种黄金标准。然后可以计算“子样本”：将覆盖率降低到1×，这样实验室就可以对工具进行基准测试，看看它们在1×覆盖率下获得SNP的效果如何。LMU研究员Ines Hellmann表示，你需要两者兼得，试着让模拟数据尽可能地贴近真实数据。该团队使用powsimR来估计、模拟和评估单细胞RNA-seq实验。一个实验室需要检查算法是否能产生预期的结果，并评估模拟数据来检查哪些真实的情况被捕获。人们需要一个基本的真值（ground truth）——真阳性率和假阴性率。但是，她认为，在单细胞技术中，很难重复得到单细胞数据，所以没有办法绕过模拟。

Guinney指出，对于单细胞领域来说，现在还为时尚早。在某种程度上，这个领域可能会以某种方式联合起来，就像十多年前的微阵列事件一样。微阵列质量控制项目解决了与可靠性和再现性相关的问题。现在，似乎有太多的自由度可以用来稳定地基准化单细胞工具，但希望这些自由度能及时减少，使比较工具的性能变得易于处理。他和他的同事现在正在进行单细胞技术上的挑战，但是这些挑战关注的是一个下游问题，使用来自一个公共平台的单细胞数据集。

Gustavo Stolovitzky表示，自从第一次DREAM挑战讨论开始之后，是否使用合成数据一直是备受争议的问题。

制定基准化方法

Caicedo表示，特别是在基因组学领域，当一个基准包括准确性、运行速度、易用性或部署性、可重复性和稳定性等指标时，用户可以节省时间。基准测试要严格，如果运行基准测试的人“忘记在实验中加入现实的假设，那么基准测试可能会无效。对于单个实验室的重点需求，灵活的基准测试可能会更有效。所有的基准都是好的，但是结果需要在基准的范围内进行解释。这避免了对软件工具的错误概括。软件有基准测试，样本也有基准测试，或者二者结合。Zook指出，在使用基准测试样本时，实验室可以使用自己选择的分析方法，然后测试软件工具，看看它们在基准测试集上的表现如何。对于变体调用，实验室可以使用NIST GIAB参考资料，使用他们喜欢的软件工具进行分析，然后使用全球基因组和健康联盟（Global Alliance for Genomics and Health, GA4GH）和包括GIAB在内的其他机构开发的用于“调用”基因组变体的基准框架进行比较。Illumina公司提供了一套名为“白金基因组”的“真相集”，整个基因组的测序深度为50X。GIAB和Platinum基因组提供了“小型变异真值集”，比如来自CEPH/UTAH 1463谱系的3代17人的突变。学术界、政府机构和企业也可以加入到基准测试中来。正如Zook所解释的，无论是GIAB还是GA4GH基准测试团队，公司都提供了有价值的数据分析和专业知识。Zook还指出，它们还帮助我们将基准中针对特定技术的偏差最小化。当GIAB评估草案基准时，团队要求社区成员将用他们的方法获得的结果与基准进行比较，并手动调整差异。这有助于确保基准测试准确地识别来自各种方法的结果中的错误。

开发基准工具

据Stolovitzky解释，他的团队中的一名成员在离开团队后才参加了DREAM挑战。他相信，那名成员的工具将排名良好，大概在中间的位置。发明了DREAM的Stolovitzky回忆到，那名成员告诉他，这段经历让他意识到过度拟合的缺陷。Stolovitzky希望，与排名无关的所有参与者都能意识到，比赛的集体经历通常会带来一篇引人注目的论文。

Lage指出，基准测试竞赛并不总是能够捕捉到工具价值的多样性，这与通过测试棒球运动员在非常受控的情况下击球或跑垒的速度来检验他们有多优秀是类似的。Guinney表示，人们对基准测试和数据挑战不能期望过高。当用一组相关的度量标准提出特定的问题时，这两种方法都很有效。无论挑战是好是坏，衡量标准是正确的还是适当加权的，“都需要客观看待”。DREAM挑战赛的准备工作里有70%都花在了指标上，因为组织者知道，这些指标将在很大程度上决定人们如何解决问题，以及他们期望从挑战中学到什么。Guinney继续表示，许多参与者非常擅长在指标中投机取巧，他们优化工具以在挑战中表现良好，但是“指标并不总是反映‘现实生活’，现实里经常有许多其它因素需要考虑，而这些因素不能在一个或多个度量中得到体现。设计一个挑战的意义在于“让人们深入思考“好的”表现意味着什么，以及如何在特定领域进行评估。作为一个公正的评估，它在特定的时间和地点召集一个社区来定义并试图超越目前的技术水平。

Zook指出，基准测试竞赛、挑战、基准数据集和工具开发相互补充。GIAB和GA4GH的工作是为社区建立评估和优化测序和分析工具性能的方法。他表示，在最好的情况下，基准测试竞赛鼓励社区在某个时间点代表最新的技术水平，但要跟上不断发展的测序技术和分析方法，这是一个挑战。这两种方法——基准竞争和挑战以及基准集和工具开发——的局限性在于，它们往往忽略了基因组中最具挑战性的区域，而这些区域目前还没有基准，因此，结果应该得到批判性的解释。随着新技术和分析方法使越来越有挑战性的突变和基因组区域的表征成为可能，开发基准集和基准工具势在必行。

基准测试竞争并不总是能够捕获工具价值的多样性。布罗德研究所的Kasper Lage指出，这就像通过测试一个棒球运动员在非常受控的情况下击球或跑垒的速度来评估他的水平一样。

从小实验室的角度来看

Enard指出，他、 Hellmann和当时的博士生Beate Vieth等人一开始并未涉足基准测试领域，直到新兴的单细胞RNA测序技术引起了他们的兴趣。这是一种探索与大脑发育和诱导多能干细胞相关的基因差异化表达的方法。他们对工具的评估使他们（一个没有服务器群的小团队）在两年多一点的时间内转变为基准测试人员。Hellmann表示，他们只是以某种方式做到了。LMU团队在评估总共约3000个用于分析scRNA-seq（单细胞测序）数据的潜在分析工具时，同时考虑了计算和湿实验室两个方面，包括映射、估算、标准化和微分表达式方法。结果证明，标准化方法的选择对性能的影响最大，其影响的程度出乎意料。Enard指出，使用错误的归一化方法就像必须对四倍或更多的细胞进行测序。

Enard表示，基准测试的结果可能与他这样的湿实验室生物学家的直觉相悖。实验室可能会选择最敏感的方法。但是，如果敏感方法的敏感度是普通方法的两倍，价格却是普通方法的十倍，那么同样的钱就能让实验室多测五倍的细胞。同样，当研究人员观察低水平表达的基因时，一种方法可以检测10%的细胞中的基因，另一种方法可以检测5%的细胞中的基因。Enard指出，这时最好是在更多的细胞中进行测量。湿实验室的直觉可能不会导致最佳的决策——例如，关于样本量或方法的选择。这个过程让他们对处理scRNA-seq数据的工具有了深刻的理解，这对于各个实验室都是很重要的。Hellmann表示，用户想知道一个工具是为什么问题而开发的，并了解工具中内置的假设。这就是她进入基准测试领域的原因，因为她不喜欢使用不理解的东西。Hellmann认为，大多数工具都有它们的优点和应用。这些工具中的大多数可能都有自己适用的场景。Enard则指出，当一项技术开始出现时，基准测试对于单个实验室来说是至关重要的。随着时间的推移，该技术的使用逐渐标准化。然后大财团开始介入，就像RNA测序一样，他们可以进行大规模的比较，而小实验室做不到这一点。

Hellman指出，在计算空间中有许多类方法比其他方法运行得更快。但她表示，有些实验室样本珍贵，因此如果一种方法需要多花几个小时，也不是问题。生物学家Enard和计算机科学家Hellmann喜欢和彼此合作。Enard认为，在基准测试中，生物学和计算机科学这两种技能都是需要的，尤其是在工具变得更加复杂的情况下。他觉得自己比较幸运。毕竟Hellmann可以选择与任何实验生物学家合作，但他要找到合适的计算生物学家就比较困难了。

计算机科学家Ines Hellmann和生物学家Wolfgang Enard喜欢和对方合作。Enard觉得自己比较幸运。虽然Hellmann可以与任何实验生物学家合作，但要找到合适的计算生物学家就比较困难。

慕尼黑大学的Wolfgang Enard指出，最昂贵的方法可能并不总是在所有情况下都是最好的方法，同时湿实验室的直觉并不总是有效的。

连续基准测试

Zook的同事Marc Salit表示，基准测试很难，因为“我们没有‘完美’的样本或数据集。”Salit曾在NIST工作，现在在SLAC国家加速器实验室领导生物计量学联合项目，并在斯坦福大学（Stanford University）生物工程和病理学系任教。合成数据可能是多余的，同时也是不完美的。在基因组学中，许多方面的性能需要测量和基准测试，有时这些方面是相互排斥的。Salit指出，有很多因素使基准测试不完美：缺乏完美的样本或数据，以及“这些指标无法很好地预测一个方法在一类样本中的表现”。另一个因素是“不断变化的格局”。在某个时间点报告的一些基准很快就会过时。这就必须持续地评价。

Murali表示，持续的基准测试是艰难的，但也是值得努力的。他正在建立一个持续集成框架，以便BEELINE可以集成新的数据集或算法，并生成结果。有些方法涉及许多参数搜索。加上数据集和算法的数量，“这是一个相当大的计算量”。Murali继续指出，他希望到这个学期结束的时候，他们能准备好一些东西。Zook则表示，鉴于新的技术和分析方法能够表征日益具有挑战性的突变和基因组区域，因此需要进行基准集和基准工具的开发。

Guinney和他在DREAM项目组的同事正在研究建立持续的基准测试的方法。例如，它们要求参与者将其算法作为可重新运行的Docker容器提交。他表示，这让他们能够随着时间的推移，随着新数据的出现，对旧算法进行评估。同样，我们可以在旧数据上评估新算法。他们将这种方法称为“模型到数据”（model-to-data, M2D）。存储在云端的软件包可以有助于避免软件架构或文件格式的多样性等问题，这些问题会使在给定的竞争中难于复制和重用方法。对于M2D数据，底层数据集对用户是不可见的，计算运行在这样的环境中，可以在维护数据隐私的同时获得对算法性能的评估。DREAM已经运行了几个M2D挑战，并遇到了一系列后勤和技术问题，比如估算方法所需的计算资源。持续的基准测试避免了基准测试结果的过时。Kaggle表示，这就像DRAEM竞赛 “永远不会结束”。随着实验室不断开发新的方法，人们可以尝试新事物，排行榜也会不断更新。计算机视觉领域有一些实时的基准测试，但据Kaggle了解，生物学领域好像没有这样的测试。这可能是因为生物学家不喜欢重复使用数据来优化方法，而且存在数据过拟合算法的危险。新的数据可能会给研究方法带来困难。这意味着人们需要不断地添加新的测试用例来保持它的活力，并防止其饱和。

Serghei Mangul指出，当一个工具的开发人员测试这个工具时，他们可能会以一种非系统的方式来测试它，这就导致了“自我评估陷阱”。

顽固的习惯

有时习惯很难改变。TopHat，一个用于RNA-seq读取的拼接读数映射器，长期以来一直被广泛应用。但是，即使在开发人员发布了一个后继版本之后，TopHat依旧被广泛使用。开发人员显然建议使用TopHat的升级版HISAT。他们在自己的网页上指出，TopHat正处于“低维护、低支持的阶段，因为它现在已被HISAT取代”，而HISAT2能更有效地达到同样的目的。Hellman指出，他在审一篇文章，文章里面提及的就是TopHat。这不是TopHat开发者的错。而是其他科学家还在使用旧版本。可能在Galaxy服务器上，有人忘记检查新工具的发布或该工具的不同版本。他们可能在TopHat仍是首选工具的时候就安装了它，后面未选择更新。

Mangul表示，生物信息学并没有过多地讨论工具的退役，实验室选择使用TopHat，这可能是最好的工具，也可能不是。曾经，它，或者任何工具，可能是最好的或者是唯一可用的，人们喜欢它的分析结果。Mangul认为，生物信息学可以以一种方法学的方式塑造科学，特别是在现在有这么多的公共数据集的情况下。从这个意义上说，基准测试是至关重要的，因为我们希望使用最好的工具。很多方面都可能成为障碍，例如“自我评估陷阱”，即工具开发人员以一种非系统的方式对自己开发的工具进行测试。他指出，“最好”可以在许多矩阵中以许多不同的方式定义，但是对于给定的任务会有一个“最合适的”工具。

原文检索：
Vivien Marx. (2020) Bench pressing with genomics benchmarkers. Nature Methods, 17: 255-258.
张洁/编译

新闻特写, 热点

生命奥秘

基因组学急需基准测试方法

金标准、铜标准

真实数据，模拟数据

制定基准化方法

开发基准工具

从小实验室的角度来看

连续基准测试

顽固的习惯

Leave a Reply

热点 · 最新文章

最新评论

About

Special

Social