大数据的力量

Oct 30, 2018 No Comments

以人类基因组信息为依据，开展各种相关预测的工作已经取得了一定的进展。但是多基因风险评估系统还是一种争议比较大的新技术。

660万，这是美国波士顿市麻省中心医院（Massachusetts General Hospital in Boston）的遗传学家Sekar Kathiresan设定的一个目标，他将在人类基因组中检查660万个位点，试图通过这种方法，评估人们患上冠心病（coronary artery disease, CAD）这种位列全世界致死率最高疾病之一的疾病的风险有多高。Kathiresan发现，在他划定的这个范围内，如果将多个单核苷酸多态性位点组合在一起，就可以预测出患上冠心病的风险。这也就是我们认为的，ATGC这些碱基的作用。Kathiresan表示，通过这种方法，我们就可以了解哪些人会发生心脏问题，这是他们一出生就已经定下来了的。

Kathiresan并不是唯一一个研究这么多突变位点的人。他开发的多基因风险评估指数（polygenic risk score）是目前最前沿的一种寻找常见病致病基因的技术。近二十年来，科研人员一直都在了解心脏病、糖尿病和精神分裂症（schizophrenia）等多种疾病的遗传致病机制。多基因评分系统能够将基因组中数千万个微小的（甚至是极微小的）遗传作用综合起来，进行遗传诊断，这也是目前最有力的遗传诊断工具。

这种方法的建立得益于多个大规模的队列研究（cohort study），以及英国生物银行（UK Biobank）等多个大型数据库（这些数据库储存了数十万人的DNA信息和健康信息）的支持。去年发表的一些论文已经可以对100多万人的上述信息进行分析，这也极大地提高了科研人员发现微小遗传作用的能力。

该技术的支持者认为，多基因评估系统将是基因组医学（genomic medicine）领域的下一个重大突破，但是这项技术也引起了很多争论。一些研究已经引起了一些伦理争论，比如应该如何使用评估的结果，例如有些评估结果可能有助于我们预测出一个人的学习成绩等。批评者还担心，人们会如何解释复杂的、很多时候甚至是模棱两可的评估信息。由于大型生物银行数据库里缺乏种族和地理上的多样性，因此，现有的这些评估系统可能也就只适用于在生物银行里有数据的那类人群。

英国牛津大学（University of Oxford, UK）的遗传学家Mark McCarthy表示，大多数人都希望能够就此事开展一个优质的辩论，因为这事关各种供应、社会和伦理问题。即便如此，多基因评估系统还是在快速进入临床系统，并且至少已经有一家美国公司开始向公众提供了这项服务。

澳大利亚昆士兰大学（University of Queensland, Australia）的遗传学家Peter Visscher是这项技术的开创者之一，他本人对这项技术非常乐观，但他还是对该技术的进展之迅速感到了惊讶，他认为，这项技术的发展会超出我们的想象。

风险评估

当科研人员在本世纪初绘制出人类基因组草图之后，很多人都认为，这将带来医疗革命。遗传学家开始在人类基因组中寻找各种与糖尿病和心脏病等疾病发病有关的信息。他们的策略很简单，那就是将患者与非患者的基因组信息进行比对，查看彼此的DNA有什么差异。这些差异常常都以单核苷酸多态性（single nucleotide polymorphisms, SNP）的形式出现。如果患者基因组里这个位点的碱基是T，而非患者在这个位点是C，那么大家就认为，这个SNP与这种疾病是有关系的。

这种全基因组关联研究（genome-wide association study, GWAS）也是目前非常流行的一种研究手段。但是经过多年的GWAS研究之后我们发现，对大多数常见病来说，它也只能找到很少的遗传学致病基础。据美国加利福尼亚州Scripps研究院的遗传学家Ali Torkamani介绍，科研人员发现，大部分常见病都与很多SNP有关，这些SNP的数量之多远远超出了科研人员的预期。

更“糟糕”的是，这些SNP突变位点中绝大多数位点的 “致病风险”其实都非常小，只有在开展极大规模的人群研究的过程中才能发现这些位点。位于英国茵格司顿的欧洲生物信息学研究所（European Bioinformatics Institute in Hinxton, UK）的所长Ewan Birney表示，他们并没有那么大规模的人群样本量，以发现真正的、可以预测疾病发生的突变位点，这和他们最开始预测的完全不一样。2007年，遗传学家就已经受够了这些问题，他们称之为“消失的遗传（missing heritability）”。非常明显，很多疾病背后都存在遗传因素，但是更明显的是，靠GWAS对此是无能为力的。

不过Kathiresan认为，现在出现了转机。随着大数据和数据分析技术的兴起，科研人员已经能够更好地评估这些微小的遗传风险了。

最明显的例子就是Kathiresan在他那涉及660万个SNP位点的工作中用到的新技术，他的这项工作在今年的8月也正式发表了。Kathiresan等人从2015个荟萃分析里提取了数据，这些荟萃分析共纳入了48个GWAS研究，涵盖了6.1万名冠心病患者，和12万名对照者。Kathiresan等人开发出了多基因评估系统之后，又用这套系统对英国生物银行里的29万人的数据进行了验证，结果发现，评估得分最高的那一群人的平均患病风险要比其他人高好几倍。比如在这2.3万名得分最高的人当中，7%的人患上了冠心病，可是在其他得分较低的人当中，只有2.7%的人患上了冠心病。Kathiresan等人还对炎症性肠病（inflammatory bowel disease）和乳腺癌（breast cancer）等其它4种疾病进行了测试，结果每一次得分最高的那帮人的患病风险也都是最高的。

Kathiresan等人的这项工作获得了众多同行的肯定和赞扬，因为他们证明了多基因风险评估系统是有可能被用于临床的，至少在理论上是可行的。据Kathiresan介绍，他们的这套系统在患病风险预测方面，与临床上现有的方法非常吻合，所以从本质上来说，这个测试结果也就只是一个新的风险因子而已。

Kathiresan的工作登上了众多的头条，也引起了一些争议，主要是因为他们系统里涉及的变异数量实在是太多了。比如美国约翰霍普金斯大学布隆伯格公共卫生学院（Johns Hopkins Bloomberg School of Public Health in Baltimore, Maryland）的生物统计学家Nilanjan Chatterjee就表示，在这660万个SNP位点中，只有少部分是真的有预测价值的。这与这套系统采用的算法有关，所有突变相关的数据全都会进入这套算法，然后根据每一个数据与疾病的关系大小，对每一个数据进行权重评分，但其中大部分数据的得分都非常低。

包括Chatterjee在内的很多科研人员都表示，纳入这些作用微弱的位点也没什么关系。但是另外也有一些人认为，包含了这么多“无用”的信息，会降低公众对这套算法的信任度。美国埃默里大学（Emory University in Atlanta, Georgia）的流行病学家Cecile Janssens表示，她就对Kathiresan的这项研究没什么兴趣。她认为，那数百万个变异体的作用其实和74个与疾病密切相关的SNP没什么区别。所以如果要将Kathiresan的系统应用于临床，首先就得进行严格的验证。

具体做法

Kathiresan的工作主要关注的是遗传风险评估，还有一些科研人员关注的则是Kathiresan的这套系统对于现有的风险评估手段有何补充作用。2013年，芬兰赫尔辛基大学（University of Helsinki）的遗传统计学家Samuli Ripatti发现，将多基因风险评估系统与BMI、血压等传统的冠心病高危因素结合起来，能有效提高预测患病的效力。Ripatti还发现，有些人虽然多基因风险评估的得分很高，但按照既往的理论和评价标准，会认为他们的患病风险其实并没有那么高。Ripatti认为，如何正确地识别这部分人群，是对多基因风险评估系统最好的补充和完善。

多基因风险评分系统还有助于完善乳腺癌等疾病的筛查工作。比如在美国，建议50岁以上的女性开始进行乳腺癌钼靶成像筛查（mammogram），但是如果能够让不到50岁的高危女性也能尽早接受筛查，就有助于早期发现肿块，并进行及早的干预。2016年，Chatterjee开发了一套乳腺癌预测模型，里面包括传统的评估方法，以及90多个SNP高危位点。根据这套模型，他发现40岁左右的女性罹患乳腺癌的风险为16%，其预测效力等同于50岁人群的筛查工作，这也就说明，我们其实可以提前十年发现病患。目前，Chatterjee等人正在用其它数据库，以及更大规模的SNP位点对这套模型进行验证。

美国犹他州盐湖城的Myriad Genetics公司是一家个体化医疗公司，他们已经推出了商业化的遗传咨询服务，帮助女性预测是否会患上乳腺癌，其中就使用了多基因风险评估系统。在有乳腺癌家族史的女性人群中，只有10%的人携带了与乳腺癌有关的、有害的单基因突变，因此，该公司给90%的客户提交的检测报告里都表示，她们的患病风险是由多基因风险因素、家族史和个人生活方式等多种因素共同决定的。Myriad Genetics公司的首席科学官 Jerry Lanchbury认为，这套多基因风险评估系统的最大好处就是给每个人打了一个分数。虽然目前的关注重点还是在发现高危的人群，但未来也可以帮助低风险人群，比如可以减少她们做钼靶筛查的次数和频率等。Lanchbury表示，我们即将进入个体化精准医疗时代。

一切尽在统计中

有一种批评多基因风险评估系统的意见认为，这完全不是生物学，而是统计学。单纯依靠多基因评估系统，这对于药物开发工作毫无价值，但是这项工作可以为我们深入认识每一个突变位点提供起始原点，了解哪些基因受到了突变的影响，以及相关的致病机制。

这其中有一部分原因就在于，这种多基因评估工作可以帮助我们认清哪些突变体与哪些疾病或性状有关，而哪些突变体只是跟着凑热闹的。与某种疾病有关的某个SNP并不一定就是致病的SNP，它可能就是一个跟着凑热闹的SNP，只不过与其它真正的致病因素一起遗传了下来。比如，Kathiresan就估计，在他筛查的那660万个SNP位点中，大约只有6000个位点真的与冠心病有关。McCarthy表示，随着研究人群规模的扩大，我们就越容易发现真正的致病突变位点。

还有一部分非常重要的遗传风险现在还没有被纳入我们的研究工作。Ripatti估计，大约有30~50%的常见病致病风险是可遗传的，剩余的那一大半致病风险则会受到环境的影响。那么为什么还会有如此之多的“消失的遗传”呢？Visscher表示，根据经验估计，GWAS研究可以发现大约1/3~2/3的遗传致病风险。Torkamani认为，随着人群样本量的扩大，科研人员可能会发现更多的高危突变，不过这些突变的作用可能也没多大。很多时候，你可能并不会使用那么多高危因素。Visscher则认为，全基因组测序工作还会发现更多的遗传风险因素。目前，研究人员主要还是使用芯片技术来开展GWAS研究，并且只能对全基因组中的部分区域进行测序。然而，得益于成本变得越来越低，全基因组测序技术慢慢得到普及，不那么常见的致病突变得以慢慢地浮出水面。

从实验室走进临床

Kathiresan希望明年市场上就能出现冠心病多基因风险评估的服务项目。但是大部分科研人员都认为，在这项技术广泛推广应用之前，还有很多问题亟待解决。据McCarthy介绍，第一大困难就是如何针对不同的人群使用这项技术。因为在开发这项技术时，使用到的数据主要来自英国生物银行等数据库中收录的欧洲族群信息，所以如果应用于其他种族，可能会不合适。比如Myriad的评分就只适用于欧洲人。Lanchbury表示，他们公司正在针对非洲裔美国女性开发类似的评估系统。McCarthy表示，他们的最终目标就是为每一个族群开发一套评估系统。

Birney则认为，种族问题并不是唯一的问题。尽管这些研究分析过的人群都来自某一个医疗系统，可是这些特定医疗系统的经验并不一定能推而广之，并不一定能适用于每一个国家。比如英国人和美国人发生心肌梗死的几率就不同，各国的医疗标准也各不相同。因此这些评分无法在各国通用。

即便是给用户提供风险评估咨询这种最简单的工作，也会成为一个不小的问题。比如McCarthy就提到，临床医生并没有接受过专门的遗传咨询培训，但是目前也缺少足够的遗传咨询师。Birney指出，目前存在一种非常流行的错误观点，那就是我们的基因组是不变的，所以会不会得病，这就是命。Janssens担心，一旦大家都认命了，那么可能就不会再采取积极的、健康的生活方式来生活了。

这个问题在对非疾病的性状进行评估预测时显得尤为突出。今年早些时候发表过一个有100多万人参与的研究工作，该研究小组开发了一个评估人们受教育程度的遗传评分系统。该课题组成员竭尽全力表明，他们并非建议大家对得分较低的人采取干预措施。该研究的作者表示，目前而言，对这类研究获得的结论采取任何举措，不论是个人的努力，还是政策层面的措施都是非常不成熟的。

该研究的作者之一，Geisinger健康系统（Geisinger Health System）的生物伦理学家Michelle Meyer表示，这个评分本身并没有任何意义。如果不了解评分系统背后的生物学本质，或者环境和社会因素，我们是不可能知道应该如何根据评分开展下一阶段的干预措施的。

与遗传学有关

了解群众对这种多基因评估系统会作何反应，这是科研工作者目前的头等大事。Ripatti等人已经为芬兰的7000多人提供了心脏病患病风险评估报告，他们的评估依据就包括了多基因评估和血压等传统评估指标。大部分人在拿到评估报告之后都表示，今后会采取更加积极、健康的生活方式。初步的结果也显示，那些遗传风险评估得分较高的人也是最有可能积极去减重和戒烟的人。

在爱沙尼亚，科研人员正在对10万人进行基因分型（genotyping）研究，他们之前已经对5万人进行过同样的分析了。据爱沙尼亚塔尔图大学爱沙尼亚基因组中心（Estonian Genome Center at the University of Tartu，Estonia）的遗传学家Lili Milani介绍，与其它生物银行不同的是，参与爱沙尼亚这个项目的志愿者都会收到反馈，其中就包括2型糖尿病和心血管疾病的患病风险报告。而且报告还会以图形的形式标明，应该如何改变生活方式，来降低他们的患病风险。这种健康建议也受到了广泛的好评。

目前，人们主要从遗传咨询师那里获得这种遗传检测报告。但是Milani正在与爱沙尼亚政府合作，看看是否能够将这些报告整合到政府的公共医疗系统里，供临床医生使用。他们的最终目标就是对该国130万人口中的任何一个人进行基因分型。Milani表示，他们的目标就是建立一整套系统，让他们国家的所有医生都能用上这套系统，也让他们国家的每一个人都渴望用上这套系统。

新闻特写, 热点

生命奥秘

大数据的力量

风险评估

具体做法

一切尽在统计中

从实验室走进临床

与遗传学有关

Leave a Reply

热点 · 最新文章

最新评论

About

Special

Social