首页  >  热点  >  新闻特写  >  文章正文
shRNA表达克隆

云端生信工具箱助力基因研究

Dec 26, 2017 No Comments

云端生信工具箱助力基因研究

 

Bioconductor项目将遗传分析工具和数据整合到可在云端运行的便捷软件包中,形成云端DNA分析工具箱。

Amazon、Microsoft和Google等公司提供的云计算服务为科研人员提供了高质量的计算分析服务,把科学家们从复杂繁琐的数据分析中解放了出来。在过去的十年中,一个名为Bioconductor的项目为生物信息学专家们提供了类似服务。

Bioconductor项目于2001年启动,由哈佛大学(Harvard University)一群以Robert Gentleman为首的生信学家发起,旨在为科学家们提供一系列促进基因组数据分析、可视化和共享的软件。该项目汇集了数以千计的计算分子生物学工具,所有这些工具都在RStudio编程环境中运行,使用R统计编程语言编译。

与R和RStudio一样,Bioconductor是开源的——这三者都可以免费下载和安装。但是基因组数据集可能很大,需要更强的处理能力,以及更大的内存或磁盘空间。幸运的是,Bioconductor还采用即用型配置,可以在Amazon云或类似服务的云端空间运行,价格相对低廉,每小时不到0.20美元。

一方面,云端运行降低了计算硬件的价格;另一方面,Bioconductor还免费提供基因组软件,免除了计算软件的成本。高质量的文档、教程和课程让专家和初学者都能很好地利用这些服务。Bioconductor在云端运行的意义在于降低运算生物学的成本,减轻分子生物学家的分析负担,并提高科研产出率。

 

小试牛刀

但是,Bioconductor真的有那么简单好用吗?W. Wayt Gibbs在咨询了Bioconductor的达人和菜鸟后,自己也迷上了这个工具箱。

第一步是选择一个任务和一些实验数据。选择非常丰富。10月底发布的最新版本(3.6)包括近1500个软件包,326个实验数据集和911个注释工具。PubMed文献数据库中有1000多篇提到使用了Bioconductor工具。2017年的一项研究采用了这个平台来研究致命性寄生虫病患者治疗前后的基因表达模式。还有一项研究使用该软件来分析干旱葡萄园里葡萄的代谢物谱。

据北卡罗来纳大学(University of North Carolina)教堂山分校的遗传学家Michael Love介绍,Bioconductor已经成为“多种高通量基因组数据,如基因表达分析以及协调不同来源的基因组注释的标准”。该软件包也越来越多地用于表观遗传学、宏基因组学、图像处理和蛋白质组学。

Love在给研究生上计算生物学入门课程时,要求学生使用Bioconductor。因此Gibbs找了一个Love的博士生Anqi Zhu来教他使用该平台。Zhu从一年前开始用Bioconductor来进行转录组数据的差异表达分析。他建议Gibbs从Bioconductor.org网站上的教程和说明开始熟悉使用流程,并且可以观看网站上的视频演示(见“Bioconductor入门”)。

Bioconductor网站上还有经过同行评议的指南,或者叫工作流程。随着版本的迭代,工作流程越来越多。其中一篇是Love和其他人合著的,引导读者对RNA测序数据进行差异表达分析。Gibbs就是用这个流程进行试验的。

Gibbs之前曾在亚马逊弹性计算云(Amazon’s Elastic Compute Cloud, EC2)上注册了一个帐户,并曾经配置过云服务器。但是对于那些刚接触云计算的人来说,Bioconductor提供了简单易懂的入门指南。在具有4个处理内核和16千兆字节内存的EC2服务器上安装Bioconductor后,只需输入想要的Bioconductor配置的代码,选择一些选项,并点击“启动”即可。不到一个小时,Gibbs启动了服务器,登录了在该服务器上运行的RStudio软件,开始了他的Bioconductor之旅。利用Love的工作流程,Gibbs选取了从人类呼吸道细胞中收集到的RNA测序数据,以分析细胞在皮质类固醇处理前后基因表达的差异。

 

学习曲线

Bioconductor的大部分工作都是通过将R代码直接键入RStudio命令提示符来完成的,而非通过鼠标指向和点击来完成。RStudio开发环境执行R命令,并返回结果。它还提供了R和Bioconductor功能的交互式解释,还可以显示变量值和数据结构——一个对调试代码很有用的功能。

这些功能大大降低了Gibbs使用工作流程的难度。如果你键入一个命令或变量名称中的几个字符,将弹出一个可能的匹配菜单。其它弹出提示会告诉你命令的语法和功能。图形显示在代码窗口的旁边,可以在线轻松共享。得益于工作流程指南和这些功能,Gibbs只花了不到两个小时,并且以不到一杯拿铁的价格,把原始RNA序列数据转换成一系列汇总表和可以发表的数据图,包括基因表达热图和主成分分析图。

只有在必要的情况下才使用图形,如图表和可视化软件包,这样有助于降低进入门槛,方便研究者贡献自己的Bioconductor软件包。在短短的几个月内,Zhu在Bioconductor上开发出了量化基因表达的变化的软件包,对此他非常满意。使用命令行还有助于核心Bioconductor开发团队执行良好的软件开发实践,确保所有组件按记录工作,并良好地结合在一起。

但是,设计选项会限制用户友好性。Zhu发现,Bioconductor把不同种类的数据,例如患者性别和年龄、活检位置、基因位置和表达水平混合在一起,即作为一个单元来分析或操纵。Love指出,对于习惯于R语言中的基本数据类型(矩阵、向量等)的初学者来说,要记清楚这些丰富数据的所有操纵或访问方式并不是一件简单的事情。

Gibbs在使用Love的工作流程时,也碰到了这个问题。几乎所有的示例代码都按照预期运行,但少数命令会提示错误,指出没有安装必要的软件包——不过解决办法也很简单,只需单击RStudio中的“安装软件包”按钮,并输入相应名称即可。但是,如果Gibbs不使用别人做好的工作流程脚本,自行尝试进行新的分析,那么就会比较耗时耗力了。

Zhu表示,在使用一个流程之前,她会反复观看演示视频和说明,直到她了解每个功能,并记住默认设置和数据类型。Love也指出,一旦你开始分析一个数据,你就需要在不看说明书的情况下,清楚地知道下一步是干什么。你要快速熟练地使用Bioconductor,执行非常复杂的数据操作,并生成质量达到可以发表水平的数据和结果。

Bioconductor的简易吸引了众多用户。Gibbs所使用的工作流程的DESeq2包的作者之一Love表示,他一使用Bioconductor就成了忠实粉。Love指出,在Bioconductor上,通过查看微阵列的测量结果,就能发现疾病的亚表型。这简直不可思议!2011年Love向Bioconductor贡献了他的第一个软件包。之后,他们就陆陆续续贡献了很多软件包和工作流程,还参加会议,参与支持网站。所以,试试吧。有了可在云端使用的Bioconductor,生物信息学的探索由此变得异常简单。

 

 

相关阅读

Bioconductor入门
无论您是喜欢正规培训还是简单学学,您都可以找到许多帮助掌握Bioconductor使用技巧的资源。

2015年《自然方法》(Nature Methods)杂志对Bioconductor进行了非常详细的介绍。北卡罗来纳大学(University of North Carolina)教堂山分校的遗传学家Michael Love建议初学者参加一个Bioconductor会议或研讨会。活动日程安排,以及前几次会议的幻灯片和代码,均可在线获取。

本文的配套视频(http://go.nature.com/2ns3sin)介绍了在Amazon云上设置Bioconductor服务器,并使用它来进行RNA转录组和差异表达分析的基本步骤。Bioconductor YouTube频道也提供了很多其它教程。

约翰·霍普金斯大学(Johns Hopkins University)在在线课堂系统Coursera上提供了由生物信息学家Kasper Hansen教授(Hansen是提供Bioconductor资源最活跃和服务时间最长的贡献者之一)主讲的Bioconductor入门课程。

哈佛大学在线学习系统edX上也有免费的、用户自主选择学习节奏的Bioconductor课程。事实上,edX提供一系列涵盖计算基因组学设计的数学和数据分析概念的课程,Bioconductor入门课程只是其中之一。Bioconductor网站上提供了数十种基本和高级的、面向任务的工作流程。许多工作流程已经在F1000Research.com上发布,并经过了同行评议。Bioconductor网站上还提供所有软件包和数据集的完整文档以及教程。

 

 


原文检索:
W. Wayt Gibbs. (2017) A bioinformatics workshop in a box. Nature, 552: 137-138. 
张洁/编译

新闻特写, 热点
No Responses to “云端生信工具箱助力基因研究”

Leave a Reply


× 6 = six