首页  >  热点  >  新闻特写  >  文章正文
shRNA表达克隆

增加代谢组学数据可信度

Aug 18, 2020 No Comments

在新兴的代谢组学领域,变化是不断发生的。代谢组学数据分析工具和存储库也同样如此。

突变可以改变基因组。调控也可以改变基因表达。美国NIH代谢组学项目主任、NIH共同基金代谢组学项目官员Arthur Castle指出,考虑到代谢组是代谢过程的生化输出,个体的代谢组总是处于不断的变化之中。例如,代谢组学可以捕捉生物昼夜节律对生物产生的代谢物的类型和水平的影响,或者揭示人体或模型生物在健康和疾病状态中代谢产物的差异,或揭示干旱如何影响作物产量,或微生物和土壤之间的生化交流如何塑造一个生态系统。计算方法有助于发现代谢组学数据宝库中的模式,但这是一个具有挑战性的领域。细胞代谢涉及几千种内源性代谢产物。此外还有我们体内和身上新陈代谢的微生物、我们摄入的药物和非处方药,以及我们接触到的植物和化学物质。如果检测的敏感度足够高,那么你肯定可以检测到数以万计的潜在代谢物。理论上的化学物质肯定有数百万种。瓦赫宁根大学(Wageningen University)的代谢组学研究员Justin van der Hooft表示,仅仅就人类血液、尿液或粪便而言,研究人员就无法确定其中有多少代谢物,但我们检测出来有1,200,或1,300来种,如果时间充裕外加上良好的实验设计,有可能能检测到2,000种物质。
研究人员想要可靠地识别代谢物,但是代谢物并没有确切的名称标签。有意义的光谱峰必须被检测到,相关的代谢物必须被命名,最终,它们所起作用的信号通路必须被确定。van der Hooft指出,为了验证这一点,实验室会检索在线存储库,但他们并不总是能找到高质量的存储库。
在西北大学(Northwestern University)合成生物学实验室,Michael Jewett等人想要知道哪些通量或者信号通路能够实现所需的分子转化。Jewett 表示,代谢组学很难,文献并不能给出所有的答案。van der Hooft指出,许多数据分析工具可能会让人感到棘手。数据包含伪迹和未知分子。标准和共享实践仍在开发中。许多欧洲研究机构的代谢组学研究人员指出,代谢物数据库缺乏深度和广度。计算工具、数据和最低信息标准是存在的,但是代谢组学数据库的使用对于一般的研究者来说是比较困难的。这就是为什么实验室和资助者想要推动代谢组学的发展,以使代谢数据更容易使用。

 

来自多个人体肠道样本的代谢物网络可以被计算归类为不同的化学类。图中每种颜色代表一个类。该过程应用了一种名为主题建模的自然语言处理技术
来自多个人体肠道样本的代谢物网络可以被计算归类为不同的化学类。图中每种颜色代表一个类。该过程应用了一种名为主题建模的自然语言处理技术。

 

合作

日本理化研究所(RIkagaku KENkyusho/Institute of Physical and Chemical Research, RIKEN)代谢组学研究员Masanori Arita表示,传统上,来自不同仪器的数据“被认为是不可比的”,这大大阻碍了这一新兴领域的发展。欧洲分子生物学实验室-欧洲生信研究所(European Molecular Biology Laboratory–European Bioinformatics Institute, EMBL-EBI)的代谢组学负责人、MetaboLights数据库负责人Claire O’Donovan指出,正如国际核苷酸序列协作(International Nucleotide Sequence Database Collaboration)通过Genebank、日本的DNA数据库和欧洲的European Nucleotide Archive之间的映射实现了基因组序列数据的共享,各个代谢组学资源也开始合作,这大大减轻了计算工作流的负担。例如,MetabolomeXchange是访问多个数据集的门户,这些数据库包括Metabolomics Workbench、Metabolomics Repository Bordeaux(一种带有NMR数据的植物资源)和MetaboLights等知识库。
MetaboLights包含代谢组学实验和相关信息,如质谱数据。它的“表亲”包括日本质谱学会(mass – spectrum Society of Japan)赞助的质谱数据库MassBank、美国的Metabolomics Workbench,以及加拿大的人体代谢组学数据库(Human Metbolome Database)。Arita表示,在2020年初,日本一个名为MetaboBank的数据库将会上线,并会与MetaboLights交换元数据。O’Donovan指出,这是一个雄心勃勃的计划。但是,与基因组学和蛋白质组学一样,资源必须通过大量的研究和数据才能变得强大。O’donovan提醒,在2020年7月的代谢组学协会(Metabolomics Society)年会上,来自北美、日本和欧洲的数据库管理人员将讨论如何促进数据交换,并提出这样的问题:社区希望看到数据库做出怎样的改进?
O’Donovan指出,代谢组学研究中约80%的数据涉及质谱分析,约20%涉及核磁共振波谱分析。Castle表示,由于质谱敏感度较高,所以是代谢组学检测的主流工具。科学家不再那么依赖核磁共振,但现在一般用核磁共振来进一步细化他们的分析。
耶拿·弗里德里希·席勒大学(Friedrich Schiller University Jena)的研究者、MetaboLights的创始人Christoph Steinbeck指出,对于单一物质分析,当质谱数据不够精确的时候,可用核磁共振数据作为补充。

Caroline Johnson(左)表示,在代谢组学的数据分析中,没有放之四海而皆准的方法。她和博士后同事Yuping Cai在她们的数据中发现了大量的未知因素——新的代谢物

Caroline Johnson(左)表示,在代谢组学的数据分析中,没有放之四海而皆准的方法。她和博士后同事Yuping Cai在她们的数据中发现了大量的未知因素——新的代谢物。

 

谨慎乐观

实验室都想要确认一个确定的代谢物不是一个伪信号。耶鲁大学公共卫生学院(Yale School of Public Health)的Caroline Johnson指出,例如,即使是将血液收集到不同类型的试管中,也会极大地改变代谢组。Johnson实验室的博士后同事Yuping Cai表示,在样本的提取过程中,分子可能发生降解;在质谱检测过程中,样本可能发生碎片化,溶剂和塑料管可能都会增加背景噪音。Castle提醒,当实验室进行一次检测,并确定数以百计的样品中的代谢物时,他们总会发现定性和定量检测的可信度几乎总是有限的。它们可能包含质量、迁移率、色谱模式和大规模碎片数据。同时,样品可以含有同分异构体,即一种具有相同分子式而有不同的原子排列的化合物。他指出,一个经过测量的代谢物可能会被一个团队所熟知,这个团队已经用一个经过验证的标准对其进行了验证,这使得他们的信心“非常、非常高”。但立体化学会削弱这种信心。最典型的莫过于对映异构体(enantiomer,互为实物与镜像而不可重叠的立体异构体)。理想的情况是,你可以说你99%相信这是丙氨酸。但它可能是L-丙氨酸或d -丙氨酸。对于脂质代谢物,实验室对侧链多样性和脂质组合知之甚少。这种困境需要进一步的分析,而计算方法有助于解决这个问题。

 

工具的开发与使用

van der Hooft指出,将分子特征匹配到色谱峰的各个峰值的工作长期以来都是通过人工完成的。完成五个文件的分析可能需要一周。要在数十个或数百个文件中重现这些分析,就需要使用计算工具。尽管现在不再缺少工具了,但实验室需要明智地选择工具。
许多工具可以在门户网站上下载或使用,并用于不同的目的,如从原始质谱或通路分析中鉴定代谢物。Johnson在她的博后导师、斯克里普斯研究所(Scripps Research Institute)研究员Gary Siuzdak的实验室里谈到数据分析软件时提道, XCMS2是一个杀手级别的应用程序,XCMS2有一个独立的R版本和一个基于浏览器的版本,可用于从原始的质谱数据中提取代谢特征并进行统计分析。Johnson为在线版本添加了新的想法,为软件测试提供了实验数据,并确定了用户的需求。她的实验室使用过基于浏览器的版本,但后来切换成了R语言工具,因为使用R语言可以纠正批量效果和信号漂移。该工具在“快速识别代谢物和代谢途径上非常给力,能为任何人做非针对性的代谢组学分析。除了XCMS,她和Cai建议,实验室可以考虑MZmine、MetAlign、MAVEN和MS-DIAL等分析工具。为了确保重现性,Cai建议研究人员记录下使用的软件版本,并避免在分析过程中切换版本。
例如,SIRIUS 43正在进行第四次升级,据其开发人员称,升级后提高了识别率,并加快了处理速度。它可以独立使用,也可以作为基于web的服务,使用同位素模式和碎片分析来识别代谢物。SIRIUS包括CSI-FingerID,这是一个搜索分子结构数据库的网络服务。
有几种工具可以让实验室将质谱碎片谱与化学结构匹配起来,并将其与数据库,如MassBank或人类代谢组数据库(Human Metabolome Database)中的已知数据进行匹配。van der Hooft提醒,仅凭质谱不足以鉴定代谢物。液相色谱法对鉴定同分异构体分析很有帮助,但并不是总是有效。并不是所有的代谢物都有参考光谱。他和格拉斯哥大学(University of Glasgow)的同事开发了MS2LDA,它使用了一种自然语言处理技术,即主题建模,来提取大量的片段基序和与代谢产物(如类黄酮核)相关的片段峰值。在他看来,子结构分析可以帮助解决代谢物注释和鉴定的瓶颈。该团队使用注释和化学分类工具将MS2LDA纳入到名为MolNetEnhancer的处理工作流中。为了让实验室经常尝试或使用它,他们把它加入了全球自然产品社交分子网络(Global Natural Products Social Molecular Networking, GNPS),这是一个基于云的生态系统,位于加州大学圣地亚哥分校(University of California)的Dorrestein 实验室。van der Hooft表示,工具文档使用户更容易判断工具的最佳用途。在其他类似的工具中,他提到了ReDU,即用户数据重分析(Reanalysis of Data User),它可帮助用户在GNPS中查找和重用数据。ReDU的开发者认为,更快速地查询存储库规模的公共数据,并避免文件类型不通用(比如,元数据格式不一致)的问题是可取的。ReDU提供“统一格式”的串联质谱数据和由本体术语支持的元数据。正如van der Hooft解释的那样,用户可以选择诸如“40岁以下男性的尿样”之类的数据。另一个新的工具是质谱搜索工具(Mass Spectrometry Search Tool, MASST),这是一个查询公共小分子串联质谱数据的搜索工具。
O' Donovan认为,代谢组学社区正在向基于云的分析环境发展。她、Steinbeck和欧洲各地的其他研究人员共同开发了“PhenoMeNal Gateway”,即“现象组和代谢组分析”。Steinbeck指出,PhenoMeNal Gateway允许研究人员在他们选择的云上启动分析工作流。在等待下一轮融资的过程中,他接触到了潜在的商业用户,PhenoMeNal现在已经集成到了欧洲开放科学云中。O' Donovan表示,ELIXIR是来自23个欧洲国家的研究机构的联合研究项目,旨在提供数据存储库或数据分析工具。ELIXIR正在研究“使用案例”,以帮助实验室了解哪些工具最适合处理哪些实例,以及这些实例最好以什么顺序使用。一项ELIXIR研究着眼于代谢物识别工具,另一项是“fluxomics”,这是一个代谢组学的子领域,记录体内小分子的动态变化,比如一个人的饮食变化。EBI举办了一场黑客马拉松,探索代谢组学工具如何在基于云的基因组学分析环境Galaxy中运行。考虑到代谢组学数据分析需要非常多的处理步骤,她表示,在Galaxy中,你可以设置工作流程,这是理想的。

 

Justin van der Hooft对计算代谢组学的评价是“现在已经不缺分析工具了”
Justin van der Hooft对计算代谢组学的评价是“现在已经不缺分析工具了”。

 

未知分子

Johnson指出,在过去十年中,数据库已经发展到不再需要再花几个月来确定一个与生物学问题相关的代谢产物列表。在她的实验室里,他们做了很多尝试:合成新的代谢物来确认身份,采用三重四极杆质谱法确定丰度。Johnson现在很少看到这两种方法与非靶向代谢组学一起使用。工具和数据库的扩展导致了分析化学家以外的研究人员也能使用这些工具。有些重要但无法识别的代谢物并没有被纳入数据库。现在,由于更容易识别出更多的代谢物,人们对重要,但无法识别的代谢物的研究欲望就没那么强烈了。Johnson 认为这是一个遗憾!
代谢组学分析产生了大量未知的代谢物。Castle认为未知代谢物之所以变得越来越普遍,部分原因是微生物组的发现。van der Hooft提醒,虽然食物代谢物可能得到了很好的研究,但土壤或体内的微生物代谢物却并非如此。Johnson则指出,实验室遇到的未知因素“不应该简单地用假设来排除”。在最近对结直肠癌组织的分析中,她的实验室发现,未知的代谢物“在女性组织中非常重要”。这些可能是微生物代谢物,这是研究小组目前正在探索的一种假设。海量片段数据库是识别未知代谢物的有用资源。Castle指出,MassBank是其中最大的一个数据库。MassBank也提供工具。而且MassBank非常有用:里面包含的信息说明提供了代谢物在哪里被发现及其功能的描述,如人类代谢组数据库(Human Metabolome)中的代谢物信息。NIH的资源PubChem也包含代谢物信息。

 

代谢组学商业服务

为了加速代谢组学途径分析,Jewett与橡树岭国家实验室(Oak Ridge National Laboratory)合作进行分析测量,与洛克希德·马丁公司(Lockheed Martin)等公司合作进行计算分析和深度学习。Jewett指出,对于合成生物学项目来说,成千上万的代谢反应可能是相关的。如果我们能研究更多的途径,那么我们最终就能把商业分析仪器的设计变得更合理。随着代谢组学的发展,商业分析服务也在不断发展,比如Biocrates Life Sciences、Nightingale Health和 Metabolon提供的代谢组学分析业务。Metabolon的研发主管Annie Evans表示,有助于该领域发展的是,该领域能够以系统理解的方式“解读生物学”。该公司为各种规模的商业和学术实验室进行代谢组学分析。她认为,这一领域将继续发展,微生物研究是一大贡献。微生物组的发现类似于发现人体的“一个新器官”。
Evans指出,Metabolon长期以来一直在管理一个专有的代谢物和代谢途径库,用于分析人体样本、微生物组或植物组织,其中一些示例是分析人类疾病小鼠模型中的色氨酸代谢,或通过木乃伊的牙齿碎屑探索古代的代谢。Evans指出,该公司有自己的数据挖掘和软件工具,因为“当公司刚成立时,根本没有可用的软件”。在人类血液样本中,她的团队可以识别出2,000到2,500种代谢物。她相信,在嘈杂的海量数据背景下,这条专利管道有能力识别分子并命名实体。一个单一的化合物可以产生许多特征,对数据的错误处理可能导致错误识别。Evans指出,你必须睁大眼睛寻找那些你不知道但存在的新分子。有些东西看起来像是一种新的代谢物,但它不是,它只是苯丙氨酸的加合物。
在Metabolomics质量保证和质量控制联盟(Metabolomics Quality Assurance and Quality Control Consortium, mQACC)中,Evans和O' Donovan共同主持了一个关于实验过程的工作组。在过去,利用Metabolon服务的科学家不允许将完整的原始质谱提交给公共存储库。Evans看到了这样一种风险:人们会利用我们的数据得出糟糕的结论,最终损害整个行业。但是,她认为这是一个不断发展的空间。例如,该公司的最新政策允许研究人员将这些数据包含在论文或拨款申请中。Evans等人可以在某些情况下提供这种服务。
O’Donovan很高兴能和Evans一起工作。她表示,与Metabolon的第一次互动是“不,我们不共享。但那以后,他们已经改进了很多。该公司最近同意使用名为mzML的开源质量规范数据格式。O’Donovan指出,如果人们使用mzML格式向她们提交数据,这意味着整个代谢组学社区都可以利用这些数据。该格式不捕获所有底层原始数据,因为捕获所有底层原始数据需要使用专有软件,但不是每个实验室都有这些软件。O' Donovan认为,以这种开放的格式从Metabolon和其他组织处获得数据是“一个重大改进”。对于核磁共振数据,开放数据标准nmrML也能起到促进数据共享的效果。Steinbeck表示,特别是当社区推动对它的应用的时候。实验室希望在论文中看到可以共享的原始数据。
O' Donovan指出,她与Metabolon和其他公司正在开展的讨论正在影响代谢组学领域分析标准的建立。代谢组学领域发展很快,因此人们必须了解数据库应该捕获哪些内容。目前,还没有可提交的黄金标准,只有代谢组学社区可以告诉我们到底什么是黄金标准。
Metabolon公司负责数据和信息学的副总裁David Foster指出,在任何已知的代谢组学研究中,都可能有数千种代谢物发生变化,因此他和他的团队要“分析数千种变量”,并将它们映射到生物学意义上。Metabolon公司生物学科学主任Greg Michelotti表示,该公司在许多项目阶段,包括从早期试点阶段到扩大项目规模上与科学家合作。他和他的同事都认为,代谢组学正成为改变其它组学流的“中心形态”。
代谢组学数据可以作为大量基因组数据的补充,因为它还可以识别来自环境或微生物组的非基因组对生物学的影响。Foster指出,单核苷酸多态性的存在或缺失可以改变一个生物系统,代谢组学可以捕捉到其它更微妙的变化。在多元组学的背景下,代谢组学是基因组学的“另一端”,因为它在生物系统中“最接近生理活动”。
Foster认为有必要使用计算机工具来探索基因、蛋白质和代谢物之间紧密的关系网络。代谢组学需要基因组学的方法,需要开发良好的、可互操作的工具。Evans在学术界看到了许多专注于复合物识别的工具开发。她真正想要的是下一步。Evans希望看到更多的工具来解决这个问题:这在生物学上意味着什么?鉴于我们离真正全面的注释工具还很远,这样的工具可以突出与炎症或肝脏毒性相关的分子,并从更全面的角度看待生物变化。她认为,另一个需求是寻找更好的方法来将代谢物映射到通路上,并捕获通路之间的相互作用,因为“一个分子可以参与17个不同的通路。”

 

代谢组学分析产生了大量未知的代谢物
代谢组学分析产生了大量未知的代谢物。图中所示是耶鲁大学公共卫生学院(Yale School of Public Health)Johnson实验室、弗里德里希·席勒大学耶拿分校(Friedrich Schiller University Jena)Steinbeck 实验室和瓦赫宁根大学(Wageningen University)van der Hooft实验室的一些“未知的代谢物”。

 

Annie Evans希望能开发更多工具来解决这个问题,“要真正从生物学的角度去理解数据。”
Annie Evans希望能开发更多工具来解决这个问题,“要真正从生物学的角度去理解数据。”

 

在Metabolon,自动化被应用于处理来自大规模研究的样本,并为它们的代谢组学分析做好准备
在Metabolon,自动化被应用于处理来自大规模研究的样本,并为它们的代谢组学分析做好准备。

 

记录元数据

Johnson指出,了解这些数据被访问和使用的频率将是很有趣的。她经常发现没有预处理信息的数据,这妨碍了分析的可复制性。在基因组学中,公开数据是必须的。对于代谢组学来说应该是一样的。有多种标准格式的数据是有意义的,如原始质谱、串联质谱数据、标准运行、mzML格式和最终处理的电子表格数据矩阵,以便进行进一步的统计分析。否则很难从数据中得到任何有意义的东西。
O' Donovan提醒,资源需要数据和元数据,比如关于样本来源的生物体的数据。对于人类数据,元数据可能包括性别和体重;对于植物,它可以是物种和生长条件;它还包括关于生成数据的仪器的信息,包括温度或控制类型。一些初步报告表明,各个实验室对于实验开始前是否对仪器进行测试的惯例以及信息的记录方式有很大差别。O' Donovan认为,mQACC可以为实验和仪器设置提供实验室指导,比如是否应该汇集样本。代谢组学的教学正在发展,但它的发展速度跟不上这个领域的发展速度。这很重要,因为代谢组学吸引了许多完全没有或只有一点化学背景的新参与者。Metabolomics Workbench被开发为一个云环境中的数据和统计分析存储库。Castle指出,目前人们正在进行其第二阶段的开发,该团队正在扩展工作台,以用于可能涉及访问控制数据的大规模研究。代谢组数据不像基因组数据那样可识别,但元数据实际上可能非常容易被识别。

 

下一个工具

在代谢组学所需的工具中,Castle希望找到更好的方法来评估生物学方面的海量数据。密歇根大学安娜堡分校(University of Michigan at Ann Arbor)正在进行的一个共同基金项目的重点是访问大型数据集,并将它们与其它类型的组学数据联系起来;其它的工具包括科罗拉多大学丹佛分校(University of Colorado Denver)的标准化和通路分析工具,以及华盛顿大学圣路易斯分校(Washington University)的对抗伪迹的工具。
Castle指出,最大的需求之一,当然是识别未知分子,即使没有相关的标准品。目前一个“假设化合物”的数据库,包括模拟的质谱峰和离子代谢物,正在开发中。Castle等人的想法是建立“芯片上的参考数据库”,其中可能含有数百万种化合物,“这些化合物可以相当准确地与真正认证的标准相匹配”。这样的资源可以覆盖广泛的化学光谱,这“将真正使代谢组学实验更具解释性”。在他们的分析中,实验室可以从已知的代谢物开始,利用它们建立一些生物驱动的反应,然后通过建立这些代谢物的预期反应来扩展这些反应。这种方法是从生物学上已知的化合物扩展到化学上无规律地随机产生数百万种化合物。Castle 认为,其中一些是有意义的,而另一些可能是在热力学角度上是不可能的,但建立一个庞大的参考数据库可能性很大。
O’Donovan指出,目前在代谢组学方面,他们仍处于初级阶段,但大有可为。在她的观察中,资助者对推动代谢组学发展非常感兴趣。在EBI,基因组学和蛋白质组学数据和资源的经验为代谢组学提供了有用的经验。她表示,在全球范围内进行合作至关重要,因为只有合作,才能完成这件事。


原文检索:
Vivien Marx. (2020) Boost that metabolomic confidence. Nature Methods, 17: 33-36.
张洁/编译

新闻特写, 热点
No Responses to “增加代谢组学数据可信度”

Leave a Reply


× 2 = four