首页  >  热点  >  新闻特写  >  文章正文
shRNA表达克隆

生物信息学工具EDGE让遗传分析变得更简单

Mar 07, 2017 No Comments

生物信息学工具让遗传分析变得更简单

 

生物信息学家们开始建立用户友好型的平台,以用于分析和解读基因测序数据。

医生在诊断没有明确病因的疾病时,依靠基因测序技术可能有助于诊断。但是测序生成的大量数据让他们难以招架。

直到几年前,位于利马的美国海军医学研究6单位(US Naval Medical Research Unit-6, NAMRU-6)的医生必须将序列数据发送回美国进行分析,这个过程需要几周——如果需要尽快做出医疗决定,这个时间太久了。该中心基因组学和病原发现部门的负责人Mariana Leguia表示,如果你能做的就是取得数据,然后不得不送回美国分析,那么这个技术毫无用处。

但是现在Leguia不再需要等待美国发回分析结果,就可以在几天甚至几个小时内得到结果了——她可以在自己的实验室进行相关分析工作!她所在的单位开始利用EDGE(Empowering the Development of Genomics Expertise)——一个可以完成常见微生物基因组学任务,如序列组装和物种鉴定的生物信息学工具。用户只需在界面上操作,就可以得到精确的结果。Leguia等人现在可以在现场操作,而且可以快速做决定。

EDGE并不是第一个只需点击就可使用的生物信息学工具。事实上,相对于Galaxy和Illumina的BaseSpace等生信平台,EDGE缺乏灵活性,且适用范围小。但它的简单性吸引了一些不擅长生物信息学的用户。美国疾病控制与预防中心(US Centers for Disease Control and Prevention)的Clinton Paden指出,使用EDGE的用户现在不需要学习命令行工具了。Paden在他的病毒发病机制研究中使用了EDGE。EDGE代表了基因组信息学大众化的一种趋势——这有助于遗传分析技术在纯生物学家中的推广。

 

信息学领域


EDGE开发者、洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory, LANL)的Patrick Chain指出,EDGE的目的是填补日益普遍的低成本DNA测序仪和缺乏解读数据所需专业人才之间的空白。海军医学研究中心(Naval Medical Research Center)生物防御研究局(Biological Defense Research Directorate, BDRD)的计算生物学家Joe Anderson则认为,EDGE主要面向缺乏生物信息学专业知识的人群。

EDGE也是开源、自包含的,针对微生物基因组学,提供从原始序列读取到物种鉴定和系统发育的完整分析服务。Anderson表示,EDGE系统运行起来相对便宜,因为推荐的硬件配置(256 G的内存和64位处理器)售价不到10,000美元。这意味着,大多数能够运行测序项目的实验室都能负担得起这样的硬件设备。Anderson认为,这笔钱花起来一点不浪费,因为真心便宜。同时,EDGE设置不依赖网络连接,并且可以由发电机供电。

具有可靠网络连接的用户可以将这类生物信息学系统安装到云网络。英国伯明翰大学(University of Birmingham)的生物信息学家Nicholas Loman开发的微生物生物信息学云基础设施(Cloud Infrastructure for Microbial Bioinformatics, CLIMB)就是安装在云网络的生信平台。CLIMB对英国微生物基因组学研究者免费开放。

CLIMB得到了来自英国医学研究委员会(UK Medical Research Council)的840万英镑(折合1050万美元)的资金支持,并且整合了几个信息工具,包括序列数据库和一个名为基因组学虚拟实验室(Genomics Virtual Laboratory)的分析平台。Loman也在考虑把EDGE纳入CLIMB系统。

BDRD基因组学和生物信息学负责人Theron Hamilton指出,总体而言,美国国防部和17个合作国家的实验室都正式安装了CLIMB,并且除了南极洲以外的大陆都有安装。

其中一个安装了CLIMB的实验室是柬埔寨金边的美国海军医学研究2单位(US Naval Medical Research Unit-6, NAMRU-2)。NAMRU-2使用CLIMB系统来跟踪传播疾病的媒介。Anderson表示,传统生物信息学并不会做这类研究,但EDGE改变了这一切。Anderson意识到,如果研究人员有了新工具,那么他们就能做很多你意想不到的事。

去年10月发布的EDGE 1.5版本包括54个第三方工具。所有组件,包括算法、数据库、可视化工具和参考基因组都被安装在一个服务器上。该服务器驱动六个互锁分析模块:序列清理、组装和注释、与参考基因组比较、分类鉴定、进化分析以及PCR引物设计。Chain指出,即将发布的EDGE 2.0版本会新增一些模块,包括RNA分析和病原体检测。

去年11月,Chain等人在一项研究中展示了EDGE的能力。在这项研究中,他们使用平台组装、分类和绘制了细菌炭疽杆菌(Bacillus anthracis)和鼠疫耶尔森氏菌(Yersinia pestis)的进化关系,破译了部分人类微生物组,并分析了一系列人类临床样品,包括埃博拉病毒和大肠杆菌(Escherichia coli)感染病人的样本。但EDGE系统首次在发表的文献中出现所对应的则是之前的另一项研究。该研究中,Leguia的实验室使用EDGE来优化登革热病毒的全基因组测序方法——该成果于去年6月发布。
用户可以通过LANL的免费样片浏览这些数据。但如果需要分析自己的数据,就只能下载该系统。EDGE的代码可以从GitHub上免费下载,Docker容器和虚拟机映像也都可以免费试用。不过Chain指出,安装这些东西可能需要一位IT专家。EDGE系统允许用户调整源代码,添加其它工具和工作流。Chain承认,大部分用户的IT技术都达不到这个程度。而他的团队正在开发简化流程的机制。

Paden自己有计算机科学方面的经验。他认为EDGE非常简单,那些没有IT背景的生物学家可以很快上手,而不用去学生信领域最常用的工具——复杂的命令行。

然而加州大学(University of California)戴维斯分校的计算科学家Titus Brown警告说,限制软件长期使用的因素可能会影响EDGE发挥潜力。他表示,EDGE提供一系列专门适用于特定情况的软件,提供很棒的图形摘要和输出。但是,其他研究者会怎么改进该软件,以及资金短缺后该软件能否继续提供服务等都是潜在问题。

Chain则回应,EDGE开放源代码部分是因为对未来资金的担忧,同时也为后续开发提供信息。可持续发展是Chain等人必须考虑的一个问题,这就是他们将尝试允许第三方软件植入的原因,当然最有可能的第三方软件就是Docker。

 

大批工具


EDGE不是第一个提供用户友好界面的生物信息学系统。2005年首次发布的Galaxy允许研究人员自由添加网络接口提供的各类生物信息学插件。用户可以通过以不同的方式组合这些工具来解决他们想解答的任何问题。

但Galaxy用起来非常麻烦。与EDGE生成的图形表示,如系统发育树或饼图中分层的交互式数据不同,Galaxy的输出结果往往是处理过的数据文件格式,用户需要进行一些操作才能将结果可视化。

宾夕法尼亚州费城儿童医院(Children's Hospital of Philadelphia)生物医学和健康信息学部门(Department of Biomedical and Health Informatics)的软件开发人员Jeremy Leipzig指出,Galaxy更像一个厨房,但没有餐厅。这个系统的输出结果没有那么直接。而EDGE就已经考虑了报告的格式问题。 

澳大利亚阿德莱德大学(University of Adelaide)的生物信息学家Nathan Watson-Haigh表示,EDGE有助于缓解生物信息学家的压力。但他告诫说,鉴于EDGE还是很复杂的,所以没有经验的计算生物学家在确定结果之前最好咨询专业人士。

加利福尼亚大学(University of California)圣地亚哥分校计算生物学和生物信息中心(Center for Computational Biology and Bioinformatics)临时主任Kathleen Fisch补充指出,与任何工具一样,用户需要了解算法实现的是什么功能,以及不同的参数如何影响其输出。你可以使用这个工具,并不意味着你必须使用这个工具。

幸运的是,随着生物信息学工具变得越来越简单,信息学可能不再那么复杂。对于生物学家来说,这意味着生信工具能得到广泛使用,以及更为大众化。

 

 

 


原文检索:
Jeffrey M. Perkel. (2017) How bioinformatics tools are bringing genetic analysis to the masses. Nature, 543(1038): 137-138.
张洁/编译

新闻特写, 热点
No Responses to “生物信息学工具EDGE让遗传分析变得更简单”

Leave a Reply


one × = 1