首页  >  热点  >  新闻特写  >  文章正文
shRNA表达克隆

深度学习助力肿瘤诊疗

Apr 28, 2020 No Comments

深度学习助力肿瘤诊疗

人工智能方法正进军癌症研究领域。

Guillaume Jacquemet正在仔细观察培养皿中癌细胞的扩散。这些细胞的运动为药物或基因变异如何影响肿瘤在体内的扩散提供了线索,他正在一帧又一帧的延时显微胶片中追踪每个细胞的细胞核。但是因为他已经制作了大约500部电影,每部120帧,每帧200-300个细胞,所以这种追踪非常具有挑战性。芬兰图尔库大学(Åbo Akademi University)的细胞生物学家Jacquemet表示,如果他必须手动进行追踪,那简直是不可能完成的任务。

因此,他训练了一台机器来识别细胞核。Jacquemet使用的方法来自一个名为ZeroCostDL4Mic的平台,该平台是不断增长的、使具有最少编码经验的科学家也能使用人工智能(artificial intelligence, AI)技术的资源集合的一部分。

人工智能技术包括几种方法。其中一种被称为机器学习,它使用人工预处理过的数据,并根据人工智能的学习内容做出预测。相比之下,深度学习可以识别原始数据中的复杂模式。它被用于自动驾驶汽车、语音识别软件、游戏电脑,以及在大量显微镜数据集中发现细胞核。

深度学习起源于20世纪40年代,当时科学家建立了一个计算机模型,该模型以相互连接的层的方式进行组织,和人类大脑中的神经元非常类似。几十年后,研究人员教会这些“神经网络”识别形状、单词和数字。但直到大约5年前,深度学习才开始在生物学和医学领域崭露头角。

生命科学数据的爆炸性增长是主要的推动力。随着现代基因测序技术的发展,一次实验就可以产生千兆字节的信息。2006年启动的癌症基因组图谱(Cancer Genome Atlas)收集了来自33种癌症类型的数万个样本的信息,产生的数据超过2.5 pb(1 pb是100万千兆字节)。组织标记和自动显微镜技术的进步正在产生复杂的成像数据,并且数据产生的速度已经超过了研究人员挖掘它们的速度。瑞典皇家理工学院(KTH Royal Institute of Technology)的生物工程师Emma Lundberg表示,这绝对是一场革命。

 

提高图像分析能力

癌症生物学家Neil Carragher在2004年第一次注意到了这场革命。他曾在英国拉夫堡的阿斯利康公司领导一个团队,探索生命科学的新技术。他和他的团队一直在使用基于细胞的筛选手段来寻找有希望的候选药物,但很难获得成功。后来他督导一篇文章,意识到人工智能和分析可以帮助他们改善筛选过程。Carragher指出,他们认为这可能是解决生产力危机的一个办法。

但对生物学家来说,人工智能技术很难掌握。Jacquemet表示,他曾经花了一个多星期的时间试图安装正确的软件库来运行深度学习模型。然后, 他指出,你需要学习用Python编写代码,从而使用它。

Carragher的阿斯利康研究小组与麻省理工学院-哈佛大学布罗德研究所(Broad Institute of MIT and Harvard)的计算生物学家Anne Carpenter等人合作,扩大了2004年论文中使用的图像分析方法的范围,并研究了多种药物对人类乳腺癌细胞的影响。Carpenter继续将这项技术发展成一种名为细胞涂色的方法,用一层荧光染料对细胞进行染色,然后使用开源软件CellProfiler生成细胞的轮廓。

现为英国爱丁堡大学(University of Edinburgh)癌症药物研发的负责人Carragher指出,尽管如此,这些分析可能依旧是劳动密集型的。在使用开源工具的情况下,尽管避免了需要从头开始学习机器学习算法,以及一个有几千个处理器和TB级内存的计算机集群,但生物学家们依然需要花一个月左右去告诉图像分析软件如何观察细胞特征。在优化了每个细胞系的参数后,他的团队不得不进一步对算法进行改进,使其能适用于所有细胞。

去年,他和他的团队探索了深度学习如何改善这一过程。这项研究的动力来自加州山景城Google总部的研究人员在bioRxiv预印服务器上发布的2017年分析报告。研究人员已经从广泛的生物图像基准采集中下载了Carragher的乳腺癌数据集,并使用它来训练一个深度神经网络,这个神经网络以前只能看到一般的图像,比如汽车和动物。通过扫描乳腺癌数据的模式,该模型学会了辨别细胞的变化,这对发现药物很有意义。因为软件没有被告知要寻找什么,它发现了一些研究人员甚至没有考虑到的特征。

在此基础上,Carragher等人从8种乳腺癌中筛选出了14000种化合物。他指出,他们确实发现了一些有趣的现象,其中包括一种已知的调节血清素受体的化合物。据他们今年早些时候的报告,血清素对乳腺的发育很重要。

在布罗德研究所,一个由计算生物学家Juan Caicedo领导的团队正在应用基于图像的分析来筛选基因突变。他和他的团队在肺癌细胞中过表达了各种基因变异,用细胞涂色法对它们进行染色,并寻找细胞之间的差异。他们发现,机器学习可以识别图像中有意义的变异,以及测量细胞中基因表达的过程。今年2月,研究人员在剑桥麻省理工学院举行的人工智能药物发现与制造大会(AI Powered Drug Discovery and Manufacturing Conference)上报告了他们的研究结果。

作为癌症细胞图谱计划(Cancer Cell Map Initiative)的一部分,研究人员正在训练一种深度学习模型,以根据一个人的癌症基因组序列预测药物反应。加州大学圣地亚哥分校(University of California, San Diego)的生物工程师Trey Ideker指出,这样的预测有生死攸关的含义,因此准确性至关重要。但是,当结果背后的机制不明确,深层神经网络在不揭示其过程的情况下产生答案时,有些人就不愿意接受结果——这个问题被称为“黑匣子”学习。Ideker表示,你会想知道为什么,你会想知道它的机理。Ideker的团队正在创造一个“可见的”神经网络,它将模型的内部运作更直接地与癌细胞生物学联系起来。作为概念的证明,该团队为酵母细胞创建了一个模型。该模型名为DCell,可以预测基因突变对细胞生长的影响,以及这些影响背后的分子途径。

 

CellProfiler方法(下)可自动检测细胞核(上,DNA染色)


CellProfiler方法(下)可自动检测细胞核(上,DNA染色)

 

空间维度

Lundberg和瑞典的其他人正在使用深度学习来解决另一个计算挑战:评估蛋白质定位。这项工作是人类蛋白质图谱计划的一部分,这是一项耗时多年的多组学研究,旨在绘制所有人类蛋白质图谱。Lundberg指出,空间信息揭示了蛋白质在细胞中的位置,而在系统水平的研究中往往代表性不足。但如果研究人员知道这些信息,他们就可以利用这些信息来收集关于潜在生物学的信息。

2016年,Lundberg等人邀请游戏玩家帮助电脑对蛋白质在细胞中的位置进行分类。这些平民科学家参加了一个名为《星战前夜》(EVE Online)的角色扮演游戏。在游戏中,他们必须找出荧光标记的蛋白质,以赢得游戏积分,从而提升已经用于这一目的的人工智能系统。但即使是升级版的系统,在准确性和速度方面也落后于人类专家。

因此,2018年,Lundberg的团队将这些图像带到Kaggle——一个发起挑战,让机器学习专家开发最佳模型来破解公司和研究人员发布的数据集的平台。在3个月里,来自世界各地的2172个团队竞相开发一种深度学习模型,这种模型可以观察一个细胞对一种蛋白质和几种参考标记的染色,并计算出蛋白质的空间分布。

这项任务具有挑战性。Lundberg表示,一半的人类蛋白质存在于细胞的多个部位。有些细胞间室——例如细胞核——比其它细胞间室中的蛋白更多。

Lundberg指出,尽管如此,Kagglers还是成功了。大多数领先的策略来自没有生物学背景的计算科学家——包括Bojan Tunguz,他是一名软件工程师,创建了预测地震和贷款违约的模型,并在人类蛋白质图谱竞赛中获得了第一名。Tunguz指出,解决这些问题的方法在不同学科之间是相似的。

Lundberg表示,最好的模型能在多种细胞系中识别罕见和常见的位置,最重要的是,能很好地捕获混合模式。该算法的执行几乎与人类专家一样准确,并且具有更高的速度和再现性。此外,它可以量化空间信息。当我们可以量化它,而不只是用标签来描述它,我们可以将它与其他类型的数据集成。这也包括‘组学’数据,毕竟组学数据变革了癌症研究。

例如,一个名为DeepProg的计算框架将深度学习应用于“组学”数据集,包括基因表达和表观遗传数据,以预测患者的生存期。DigitalDLSorter通过直接从肿瘤RNA测序数据推断免疫细胞的类型和数量来预测结果,而不是依靠繁琐的传统工作流程。

 

未来展望

构建深度学习模型所需的许多工具都可以在网上免费获得,包括软件库和编码框架,如TensorFlow、Pytorch、Keras和Caffe。研究人员可以利用一个名为“科学社区图像论坛”(Scientific Community Image Forum)的在线资源,通过图像分析工具提出问题,并进行头脑风暴以解决突然出现的问题。同样可用的还有知识库,它允许研究人员为相关任务找到并重新定位深度学习模型——这一过程被称为转移学习(transfer learning)。Kipoi就是一个例子,它可以让研究人员搜索和探索超过2000个现成的模型,这些模型都是经过训练的,用于预测蛋白质(转录因子)如何与DNA结合,或者酶可能在哪里拼接遗传密码等任务。

Lundberg的团队与其他工具开发人员合作,建立了一个基本的“模型园”(https://bioimage.io),以快速共享其人类蛋白图谱模型。他们现在正在创建一个更复杂的知识库,它将对模型生产者和非专业用户都非常有用。

Lundberg指出,一个名为ImJoy的平台将是这项努力的一部分。该平台由Wei Ouyang——他实验室的一名博士后——创建。该平台让研究人员可以通过电脑、云计算或手机上的网络浏览器来测试和运行人工智能模型。共享生物成像数据集和深度学习模型也将是开放生物图像分析中心(Center for Open Bioimage Analysis)的一项重点工作。该中心由美国政府资助,由Carpenter和威斯康星大学麦迪逊分校(University of Wisconsin-Madison)的生物工程师Kevin Eliceiri领导。

另一个选择是上个月推出的ZeroCostDL4Mic。ZeroCostDL4Mic是由伦敦大学学院(University College London)的生物物理学家Ricardo Henriques开发的,它利用谷歌为人工智能开发者提供的免费云服务Colab,提供对几种流行的深度学习显微镜工具的访问,包括Jacquemet在他的电影中用来自动标记细胞核的工具。据Jacquemet解释,你需要的所有东西都能在几分钟内安装好。只需点击几下鼠标,用户就可以使用示例数据训练一个神经网络来完成所需的任务(文后:《想要:更多数据》),然后将该网络应用于自己的数据——所有这些都不需要编写代码。

想要使用更大数据集或训练更复杂模型的研究人员可能需要购买或访问Google免费服务之外的额外计算资源。

Henriques指出,ZeroCostDL4Mic为缺乏专业知识和资源的生物学家提供了使用深度学习的途径,它就像人工智能的“入门药”,吸引研究人员探索这些工具背后的软件,这些软件将继续改变癌症和其他领域的研究。

 

需要更多的数据

深度学习模型可以处理原始数据,但首先必须用带注释的信息训练它们。

它需要大量的标记数据来训练深度学习模型。但正如费城宾夕法尼亚大学(University of Pennsylvania)的计算生物学家Casey Greene所说,这并不总是容易得到的。数据是便宜的,但带标签的数据是昂贵的。

在基因组学领域,序列是丰富和公开的。但加州斯坦福大学(Stanford University)生物医学信息学博士候选人Emily Flynn表示,它们的相关描述或元数据常常缺失、错误或不规范。例如,研究人员想要训练一个模型来检测病人样本中的非小细胞肺癌,很可能会发现标记为“nsclc”、“non small-cell”或“non small cell LC”的数据集——这些差异让分析工具感到困惑。威斯康星大学麦迪逊分校(University of Wisconsin-Madison)的生物统计学家Colin Dewey表示,样本可能会被贴上“疾病:胶质母细胞瘤”和“疾病:是的”的标签。

为了帮助组织这些数据,Dewey创建了一个名为MetaSRA的计算管道,它使用文本挖掘技术来标准化和存储公共序列上的元数据。Greene等人建立了refine.bio——一个用于协调表达和RNA测序数据的存储库。Flynn与斯坦福大学生物工程师Russ Altman合作,使用机器学习技术从基因表达数据中推断缺失的标签,以改进refine.bio中的注释。

在生物成像中,更多的问题在于注释。例如,Greene指出,要给一组组织病理学幻灯片贴上标签,必须有人在癌症部位周围画一个边界框。那个人可能赚了很多钱。现在,开发人员正在训练深度学习算法,以便自动在细胞图像中标记细胞核和其他结构,而Image Data Resource和其它在线存储库使研究人员更容易共享和找到生命科学图像。”

 

原文检索:
Esther Landhuis. (2020) Deep learning takes on tumours. Nature, 580: 551-553.
张洁/编译

新闻特写, 热点
No Responses to “深度学习助力肿瘤诊疗”

Leave a Reply


× four = 4