首页  >  热点  >  新闻特写  >  文章正文
shRNA表达克隆

最热门的基因

Jan 02, 2018 No Comments

最热门的基因

 

根据对以往生物学研究工作的回顾,科研人员们排出了一份最热门基因排行榜,结果让我们大吃一惊。

软件工程师Peter Kerpedjiev虽然有一点生物信息学的基础,但他目前急需上一堂遗传学速成课,因为他正在攻读博士学位,他认为多了解一点最基础的生物学知识,会很有帮助的。他想知道,如果他要和别人进行更深层次的交流和沟通,他应该了解哪些基因?

作为行动派的Kerpedjiev直接开始数据检索工作。多年来,美国国立医学图书馆(US National Library of Medicine, NLM)一直系统性地给他们的PubMed数据库中的每一篇文章进行标记,这些标记包含了基因功能信息。Kerpedjiev根据这些标签信息,将所有与基因结构、功能、定位和编码蛋白等内容相关的文章全都下载下来,并根据它们的研究热度做了一个排序,从而列出了一份人类基因组(也包括一些其它基因组)最热门基因的排行榜。

结果Kerpedjiev在这份榜单中发现了一个名列前茅的基因,那就是TP53基因。3年前,当Kerpedjiev刚开始做这个分析的时候,科研人员们已经在6600多篇论文里对TP53基因及其编码产物p53蛋白进行过系统性的检索了。到了今天,相关的论文数量已经达到了8500多篇,而且还在继续增长。平均来看,差不多每天都会有两篇新发论文在介绍与TP53基因相关的新发现。

对于大部分生物学家来说,科研人员们对TP53基因有这么高的热情,一点也不奇怪。这个基因是一个抑癌基因(tumour suppressor),它还有一个更加出名的名字,那就是“基因组卫士”。差不多一半的癌症患者体内,这个基因都发生了突变。据美国约翰霍普金斯大学医学院(Johns Hopkins University School of Medicine in Baltimore, Maryland)的癌症遗传学家Bert Vogelstein介绍,这就是TP53基因这么火的原因。在我们肿瘤研究领域,这个基因就是当仁不让的NO. 1。

不过在Kerpedjiev的基因排行榜里,有很多基因都是大家不太熟悉的,比如一些在过去曾经很有名,只不过随着科技的进步,现在被人遗忘了。据现在已经博士毕业,在美国哈佛医学院(Harvard Medical School in Boston,Massachusetts)从事博士后研究(主要从事基因组数据可视化方面的工作)的Kerpedjiev介绍,当时,他的那份排行榜是挺让人惊讶的。虽然其中有一些基因能上榜是可以理解的,但有些基因能上榜则完全出乎了他的预料。

为了有更深入的了解,《自然》(Nature)杂质和Kerpedjiev一起,又重新排了一次榜单(图:热门基因排行榜)。然而这一发不可收拾,他们既发现了生物医药研究的趋势,又发现了大家关注的重要疾病和公共卫生问题,还发现有那么几个基因,是多种疾病和多个学科共同关注的最大热门基因。

在人类基因组中,大约有2万个蛋白质编码基因,可是在NLM的论文数据库中,超过1/4的文章只涉及100个基因。还有成千上万个基因从来没有被人研究过。英国剑桥大学(University of Cambridge, UK)的科技史专家Helen Anne Curry表示,这种现象表明,我们还有大量的未知领域亟待开发,而造成这种局面的原因就是科研人员们并不愿意花力气去开发这些领域。

 

科研界的时尚观

2002年,人类基因组草图刚刚公布不久,NLM就启动了他们的论文标注工作,系统性地给论文数据库中的每一篇文章都加上基因参考功能(gene reference into function, GeneRIF)标签信息。这种论文注释工作可以追溯到上世纪六十年代,当时也是利用其它数据库的信息,来完善本数据库里的相关内容。不过这并不是非常完美的注释方法。NLM的科研人员Terence Murphy认为,在某种程度上,这些数据是一种数据噪声。在2002年以前发表的论文,很可能存在采样误差(sampling bias),也就是说有些基因可能被过度代表(over-represented)了,而更多的基因却是错误地被忽略了。但这也不是那么可怕。如果合并研究多个基因,就可以减少这种采样误差。

考虑到这些因素之后,科研人员们又在PubMed数据库里进行了一番检索,发现在好几个时间段内,与基因有关的论文都集中在某几个热门的领域(图:“近四十年来热门基因变化趋势图”)。比如在上世纪八十年代中期以前,很多遗传学研究都关注的都是血红蛋白(haemoglobin)。在1985年以前发表的遗传学论文中,10%以上的文章都或多或少地与血红蛋白有关。

在那个年代,科研人员们还在努力发展Linus Pauling和Vernon Ingram建立起来的分子生物学。这两位生化学家都是诺贝尔奖得主,他们分别于上世纪四十年代和五十年代就发现,异常的血红蛋白可以导致镰刀细胞贫血,也由此揭开了分子生物学的序幕,开始从分子层面去认识和研究疾病。分子生物学家Max Perutz也因为在血红蛋白三维立体结构方面的工作,而分享了1962年的诺贝尔化学奖。后来,Perutz继续花了几十年来研究血红蛋白形状与其功能之间的关系。

据美国国立卫生研究院(US National Institutes of Health in Bethesda)的高级科技史顾问、临床医学科学家Alan Schechter介绍,在那个年代,相比其它基因而言,血红蛋白基因更能够给我们指明,如何在分子层面上认识和治疗疾病。

Schechter也是一名从事镰刀细胞贫血症的科研人员,据他介绍,在上世纪七十年代到八十年代初期,在各大遗传学会议和血液疾病会议上,这个基因都是绝对的主角。但是当DNA测序技术和遗传工程学技术发展之后,科研人员们的目光逐渐转向了其它疾病,比如在当时的男同性恋人群中发生率非常高,但是我们又不是特别了解的神秘的感染性疾病。

在1983年人们首次发现HIV病毒导致了艾滋病以前,目前在法国巴黎彼埃尔和玛丽居里大学(Pierre and Marie Curie University in Paris)工作的临床免疫学家David Klatzmann等人就已经注意到了艾滋病人群中存在的一种奇怪现象。据Klatzmann回忆,他当时发现,这些人体内都没有T4淋巴细胞,这一点非常奇怪。Klatzmann通过细胞实验发现,HIV病毒似乎只会选择性地感染并破坏T4淋巴细胞,而问题是,这些病毒是如何进入T4淋巴细胞的呢?

Klatzmann当时猜测,会不会在T4细胞表面的某种蛋白质(后来证明是CD4蛋白)就是HIV病毒的受体呢?他猜对了,1984年12月,Klatzmann发表了他的研究论文。与此同时,他的同事,英国伦敦肿瘤研究所(Institute of Cancer Research in London)的分子病毒学家Robin Weiss等人也发表了一篇类似的文章。

不到三年,CD4基因就成为了生物医学论文中最热门的基因,而且这股热潮一直从1987年持续到了1996年。在NLM标记的同期论文里,与CD4基因相关的文献数量占比达到1~2%。

CD4基因之所有有这么高的关注度,部分原因是科研人员们对解决艾滋病公共卫生危机有着急迫的需要。比如据美国国立癌症研究院艾滋病与肿瘤病毒项目(AIDS and Cancer Virus Program at the US National Cancer Institute in Frederick, Maryland)的负责人Jeffrey Lifson介绍,在上世纪八十年代末,许多公司都在尝试对CD4蛋白进行改造,开发新型的CD4蛋白药物,使其与HIV病毒结合,从而阻止HIV病毒与人体内的T4淋巴细胞结合、感染,并杀死这些淋巴细胞。但是小规模临床试验发现,这种策略是不成功的。

CD4基因成为大热门的另外一个原因是基础免疫学的发展。早在1986年,科研人员们就认识到,表达CD4蛋白的T细胞可以被分为两个不同的类型,其中一类T细胞可以清除人体内感染细胞的细菌和病毒,而另外一类T细胞则可以对线虫(worm)等不能感染细胞的寄生虫起到免疫防卫的作用。据美国纽约大学医学院(New York University School of Medicine)的免疫学家Dan Littman介绍,那是一个激动人心的年代,因为我们对免疫学几乎还是一无所知的状态,所以可以有很多新的发现。就在1985年,Littman克隆出了CD4基因的DNA片段,并将其转入细菌内,表达出了大量的CD4蛋白,以用于科学研究工作。

十年之后,Littman又参与领导了一个由三个团队合作开展的项目。他们发现,HIV病毒可以通过另外一种受体——CCR5受体进入T4淋巴细胞。CD4受体、CCR5受体,以及CXCR4共受体这三种受体共同成为了科研人员们关注的焦点,全世界的科研人员都在努力研究,试图阻止HIV病毒感染T淋巴细胞,目前这项工作还在继续之中。

 

15分钟的名声

在上世纪九十年代初,TP53基因崭露头角。不过在其登上人类热门基因排行榜榜首位置之前好几年,出镜率最高的其实是另外一个目前不太为人们所知的基因——GRB2。当时,科研人员们正在开始研究负责在细胞间起到沟通作用的蛋白。由于细胞生物学家Tony Pawson的开创性工作,科研人员们已经了解到,有一些细胞内的小分子蛋白含有SH2基序,这种模块可以与细胞表面的已活化蛋白质结合,从而起到将胞外信号传递到核内的作用。

1992年,美国耶鲁大学医学院(Yale University School of Medicine in New Haven, Connecticut)的生化学家Joseph Schlessinger发现,生长因子受体结合蛋白2(growth factor receptor-bound protein 2)就是信号传递的关键因子,而该蛋白的编码基因就是GRB2。GRB2蛋白含有一个SH2模块和另外两个结构域,这两个结构域可以分别激活与细胞生长和细胞存活有关的蛋白质。Schlessinger指出,GRB2蛋白就是分子“媒人”。

其他科研人员则迅速跟上Schlessinger的研究进程。很快,业界就出现了一个新的研究方向——信号传导(signal transduction)。虽然大家又发现了很多参与细胞信号传导的蛋白质,而且这些新发现最后都应用于肿瘤、自身免疫疾病、糖尿病和心脏病等诸多疾病的治疗工作当中,但是在那个年代,GRB2基因还是当仁不让的NO. 1。在上世纪末,该基因一直稳居最热门基因的位置,而且在三年时间内都是引用率最高的基因。

美国加州大学圣地亚哥分校(San Diego State University in California)的生化学家Peter van der Geer认为,GRB2基因之所以这么热门,部分原因是GRB2蛋白是第一个能够将信号转导级联反应的两个部分连接起来的蛋白,而且该蛋白还参与了很多细胞调控机制。在众多最热门的名单中,GRB2基因都有一点“局外人”的感觉。它并不是导致疾病的直接病因,也不是药物作用的直接靶点,这也可以解释,为什么该基因的热度总是转瞬即逝。据在瑞典卡罗林斯卡研究院(Karolinska Institute in Stockholm)和法国居里大学长期从事TP53基因研究的Thierry Soussi介绍,很多基因都因为没有临床价值,所以在热了一段时间之后很快就被人们遗忘了。一直大热的基因几乎都是具备某种治疗潜力的基因,只有这样才能吸引科研经费,让其持续热门下去。这就是一条铁律,凡是重要的基因,肯定都有临床价值。

根据美国西北大学(Northwestern University in Evanston, Illinois)系统生物学家Thomas Stoeger最近在德国海德堡举办的一个学术研讨会上做的分析报告,我们发现,还有一些特性也是保持基因热度的因素,比如表达水平、变异程度和结构特点等。Stoeger可以预测哪些基因会成为热门基因,他的方法就是将上面这几个参数放到他的公式里算一下,就能得出结果。

Stoeger将这些特征归结为可发现性(discoverability)。最热门的基因往往都集中在生物学研究的最热门领域里,而且只需使用时下最先进的技术便可对这些基因开展研究。据Stoeger介绍,对这些基因开展科学研究往往比较容易。不过这也是一个问题,大量的基因还处于未开发的状态,所以我们对人体健康和疾病的认识还远远不够。

Curry也认为技术、社会和经济因素共同决定了政治家、制药企业和患者群体的行为。

 

合适的时间,合适的地点

Stoeger也对多年来热门基因的共性特点进行了总结。他发现,在上世纪八十年代,科研人员更加关注胞外蛋白质的编码基因。这可能是因为这些蛋白质更加容易被分离、研究。直到最近,大家的注意力才转移到胞内蛋白质的编码基因。

Stoeger表示,这种转变发生的同时,人类基因组相关文章也获得了发表。这让更多的基因得以被研究。

不过最热门的基因并不符合这些特点。比如p53蛋白就是在核内活化的蛋白。但是相应的TP53基因却早在2000年左右就已经成为了最热门基因。TP53基因是在1979年被发现的,与其它热门基因一样,这些基因在最初被发现的时候,都没有被正确的认识。直到几十年之后,该基因才正为大家的宠儿。

在最开始,肿瘤研究界都误认为TP53基因是原癌基因(oncogene),如果该基因发生突变,就会导致癌症发生。直到1989年,Vogelstein实验室的研究生Suzanne Baker发现,TP53基因其实是抑癌基因(tumour suppressor)。从那以后,TP53基因才开始成为主流基因。据现在在美国田纳西州孟菲斯市圣犹大儿童医院(St. Jude Children’s Research Hospital in Memphis, Tennessee)从事脑瘤研究的Baker介绍,你从相关论文的发表数量就可以看出,大家对这个基因的兴趣还是非常大的。

科研人员对肿瘤研究的热情还体现在TNF基因上,这也是历年来在热门基因排行榜上与TP53基因展开激烈争夺的有力竞争者。在NLM的数据库中,与TNF基因有关的引用数已经超过了5300多条。TNF基因的编码产物是肿瘤坏死因子,最早在1975年,科研人员们发现这种因子可以杀死肿瘤细胞。但是TNF基因的最大功能并不是抗肿瘤作用。如果使用肿瘤坏死因子作为药物来治疗肿瘤患者,会带来非常大的毒副作用。

后来人们发现,肿瘤坏死因子是一种炎症调节因子,它对于肿瘤细胞的作用反倒在其次。科研人员们在上世纪八十年代中期认识到这一点以后,就立即开始开发相应的抗体,来阻断肿瘤坏死因子的作用。现在,抗肿瘤坏死因子疗法已经是治疗类风湿性关节炎(rheumatoid arthritis)等炎症性疾病的主流治疗策略。这类药物每年在全球的销售额已经达到了数百亿美元的规模。

美国纽约Feinstein医学研究院(Feinstein Institute for Medical Research in Manhasset, New York)的脑外科专家、免疫学家Kevin Tracey认为,这就是一个非常好的例子,它可以证明,我们对基因及其表达产物的认识和了解,极大地提高了人类的健康水平。

不过TP53基因的霸主地位也曾经被APOE基因给挑战过。早在上世纪七十年代中期就被发现的APOE基因能够编码一种转运蛋白(transporter),这种蛋白可以促进人体清除血液里的胆固醇(cholesterol)。美国加州大学旧金山分校(University of California, San Francisco)的Robert Mahley是这个研究领域的开拓者,他曾经用兔子进行过相关的试验。据他介绍,当时大家都认为APOE可以用作降血脂治疗,用来预防心血管疾病。

可是在上世纪八十年代末出现的他汀类药物(statins)成为了主流的降脂药,彻底将APOE给打入了冷宫。不过随后神经学家Allen Roses等人发现,在阿尔茨海默病患者大脑里的异常斑块里,有大量的APOE蛋白。1993年,他们发现APOE4基因与阿尔茨海默病患病风险增高密切相关。

这一发现又让APOE基因回到了聚光灯下。过了一段时间,该基因又回到了热门基因排行榜的前列。据Roses的合作者(后来成为了他的妻子)、美国教堂山Zinfandel制药公司(Zinfandel Pharmaceuticals in Chapel Hill, North Carolina)的CEO,神经遗传学家Ann Saunders回忆,这个发现非常酷。淀粉样蛋白假说(amyloid hypothesis)认为,β淀粉样蛋白斑块是导致阿尔茨海默病的主要原因,这也是学界的主流看法。然而只有很少的科研人员在研究胆固醇转运蛋白与阿尔茨海默病的关系。Mahley也认为,APOE4基因与阿尔茨海默病患病风险增高的关系是不可否认的。终于在2001年,APOE基因的风头压过了TP53基因,而且一直在热门基因(至少是人类热门基因)排行榜上保持在前五名。

与其它热门基因一样,APOE基因也是被研究得非常透彻的,这是因为它在现今困扰人类健康的最大问题(三高问题)中占据了绝对的中心地位。同时,该基因也在抗淀粉样蛋白治疗领域具有非常重要的作用。Mahley今年已经为他的E-Scape Bio公司筹集了6300万美元,用于开发APOE4蛋白靶向药物。据他介绍,抗淀粉样蛋白治疗策略已经在临床试验中败下阵来了。虽然失败了,不过他也从中学到了不少的东西。这让他们不得不重新开发新的治疗思路。

英国利兹大学(University of Leeds, UK)的科技史学家Gregory Radick认为,这就是现实,生物学、社会的压力、商业机会和医疗需要等各种因素共同决定了某个基因是否能够成为热门基因。而一旦成为了热门基因,就会变得保守。热门基因就会变成最安全的赌注,除非外界环境发生了变化。

目前的问题在于,外界环境在如何变化?有什么新发现让热门基因排行榜发生变化?有什么新基因可以取代其它热门基因的地位?

 

 

最热门的基因_页面_1.1

最热门的基因_页面_2.1

最热门的基因_页面_3

 

原文检索:
Elie Dolgin. (2017) THE GREATEST HITS OF THE HUMAN GENOME. Nature, 551: 427-431.
Eason编译

 

 

新闻特写, 热点
No Responses to “最热门的基因”

Leave a Reply


− three = 4