孟德尔随机化分析改变流行病学

Dec 17, 2019 No Comments

一种名为孟德尔随机化分析（Mendelian randomization）的技术已经成为流行病学数据的主流分析工具。但科学家是否过分依赖这个工具？

1812年，英国眼科医生James Ware向伦敦皇家学会（Royal Society）成员讲述了一个奇怪的发现。尽管成千上万的年轻人被招募到英国军队的团里，但是20年来只有6人因为视力差而被拒之门外。与此相反，在前往英国牛津大学（University of Oxford）就读的学生中，大约有四分之一的人戴眼镜。

Ware没有得出任何关于因果关系的结论：比如，钻研书本可能会导致视力下降，或者戴眼镜的人天生就会被学术追求所吸引。长期以来，流行病学家一直对将环境暴露与健康联系起来的观察结果感到沮丧。近视就是一个典型的例子。几十年的研究表明，在学校呆的时间最长的孩子的视力最差。但这些数据并没有揭示学校教育是否会导致儿童近视，或者近视儿童在学校的时间是否更长，或者是其它因素，比如社会经济地位推动了两者的发展。

受够了这种逻辑上的死胡同，在世纪之交，一些流行病学家开始建议，他们的研究领域应该适可而止。他们指出，遗传学领域的新技术可以做得更好。

他们说对了一半。二十年过去了，遗传学已经改变了人们区分因果关系的方式。但它提高了遗传病学的地位，而不是取代了遗传病学。结果表明，基因差异可以作为环境暴露的代用变量，从而有助于从分析中消除混淆变量。这项技术被称为孟德尔随机化。

科学家用它来重新评估观测数据，并从长期存在的因果关系问题中推导出更新颖、更可靠的结论。分析证实，低胆固醇水平不会导致癌症、少量饮酒不会保护心脏，以及上学会使儿童近视。

阿姆斯特丹自由大学（Free University of Amsterdam）的社会科学遗传学家Philipp Koellinger表示，孟德尔随机化在原则上是一个非常非常酷的想法。它试图解决流行病学中最艰巨的挑战之一。

日益发展

英国布里斯托尔大学（University of Bristol）的临床流行病学家、帮助这项技术开发的George Davey Smith指出，孟德尔随机化的出现是因为我们很绝望，并需要在流行病学中寻找更好的推断因果的方法。但是，他同时表示，孟德尔随机化研究也有不利的一面，这种方法太简单了。

他一直敦促同事不要被孟德尔随机化搞得忘乎所以。虽然这是一个强大的工具，但必须正确使用。随着基因数据的堆积，一系列孟德尔随机化研究出现了，但并没有达到标准。一些人依赖于误导的数据，另一些人则未能充分检验孟德尔随机化所依赖的假设。许多业内人士表示，现在是时候收紧政策了。

Davey Smith是提出流行病学可能已经走到尽头的科学家之一。在《国际流行病学杂志》（International Journal of Epidemiology）的一篇社论中，他和一位合著者指出，在随机对照试验中对干预措施进行测试时，有关环境暴露可能带来的危害或益处的观察性数据会反复失效。

这篇文章发表几年后，一项耗资1亿美元、名为SELECT的试验高调失败。该试验发现，服用硒补充剂并不能预防前列腺癌——尽管有大量流行病学证据表明硒补充剂可以预防前列腺癌。

Davey Smith表示，这一切都相当令人沮丧，流行病学的声誉正受到密切关注。研究人员早在1986年就提出，基因可以改善这种解释。但是，全基因组关联研究（genome-wide association studies, GWAS）的发展，将基因变异与特定性状联系起来，为这种方法提供了动力。去年，Davey Smith求助于孟德尔随机化法，重新探讨了硒与前列腺癌的关系。

通过对数万名男性的基因型数据进行分析，研究人员发现，血液中有十几个基因变异与自然的高硒含量有关。从出生开始，这些人就像服用硒补充剂一样。然后，科学家可以比较有这些变异的人与没有变异的对照组的前列腺癌发病率。这使研究人员能够更直接地关注硒水平，并避开可能影响硒水平和癌症风险的生活方式因素的影响，如健康饮食。而且，由于高硒或低硒的倾向在DNA中是固定的，因此对它们的分析较少受到反向因果关系可能性的干扰——早期前列腺癌可能影响硒水平的可能性。

该分析的结果与SELECT试验一致，表明补充硒没有任何好处，并不能预防前列腺癌。

数据源

Davey Smith认为，这些结果可以为是否开展全面临床试验提供决策依据。孟德尔随机化可以检验假设，评估基于这些假设来进行试验是否为不道德或不切实际的。

原则上，孟德尔随机化分析可以在任何能够找到遗传变异的地方进行，自然地模仿环境暴露的影响。而且每年都会发现更多这样的基因——尤其是在全世界数百万人注册进行基因分析和健康追踪之后。这让遗传学家有了统计的基础，可以确定从饮酒到胆固醇水平的一切遗传关联。

现在，流行病学家和其他人正在把这些发现纳入更多的孟德尔随机化测试。Scopus和Web of Science上的数据显示，2010年每年发表的关于这个主题的论文不到100篇，到2015年已增长到大约200篇。到目前为止，2019年已有500多篇论文使用或讨论了这种方法。研究人员利用这些测试来解决一些通常被生活中的许多变量所混淆的问题。研究有助于更明确地表明喝酒会增加患癌症的风险。与此同时，尽管有一些相反的观察结果（图：基因指标），但低胆固醇并不代表健康。

许多研究人员指出近视是证明孟德尔随机化有效性的一个范例。近视是一个快速增长的公共卫生问题。用随机对照试验来测试它与上学的联系是不可能的，因为故意让一些孩子失学是不道德的。

2016年，遗传学家发表了来自两个不同GWAS的数据（一个是寻找与教育成就相关的基因；另一个是寻找与近视相关的基因）后，使用孟德尔随机化研究近视与上学之间的关联才成为可能。这些研究调查了数十万人，发现了几十种与近视和在校时间密切相关的基因突变。

第二年，流行病学家利用这些基因数据，研究了最大的人口数据集之一——48.8万个在英国生物库（UK Biobank）项目中进行了注册的中老年人。这些志愿者的基因组会被分析，他们会回答数十个个人细节方面的问题，其中包括他们的教育和视力。当英国卡迪夫大学（University of Cardiff）和布里斯托尔大学（University of Bristol）的研究人员使用孟德尔随机化法分析数据时，他们发现从基因上来说，近视对人们在学校学习的年数没有影响。然而，携带与受教育程度相关基因的人患近视的可能性要大得多。

布里斯托尔大学的眼科医生Denize Atan是该项目的负责人，他指出，哪怕通过花在阅读上的时间、自然光水平较低还是其它一些因素而存在差异，在学校的时间确实显著影响视力。这种联系是如此强烈，以至于政策制定者和学校应该采取更多措施来解决这个问题。

公开的秘密

批评者认为，问题在于，并非所有孟德尔随机化研究都是可靠的。Atan指出，在开始之前，你需要有一个强有力的假设和一些支持性的证据，只是现在越来越多的人不这样做。他们的想法是从哪里来的?他们的假设似乎凭空而来，这是一个很大的问题，因为孟德尔随机化允许研究人员在没有任何相关领域专业知识的情况下，寻找、发现和公布不熟悉的数据集之间的关系。

正如荷兰鹿特丹伊拉斯谟大学医学中心（Erasmus University Medical Center）的流行病学家Sonja Swanson所指出的那样，毕竟点下分析按钮，观察相关性数字是件很简单的事。

几位流行病学家表示，许多发表的孟德尔随机化研究都存在问题，这在该领域是一个公开的秘密。Davey Smith表示，你可以很容易地发表论文，其中一些非常糟糕的论文来自不了解流行病学原理的研究人员。2016年，一项孟德尔随机化研究声称发现，血液中C-反应蛋白（一种与炎症相关的肝酶）含量过高会导致精神分裂症。研究表明，能够降低血液中这种酶水平的药物可能有助于治疗这种疾病。Davey Smith的小组和另一个小组做了类似的分析，发现事实上，C-反应蛋白对精神分裂症有保护作用。Davey Smith等人认为，最初的研究小组组合遗传数据集的方式存在问题，那篇2016年的论文最终被撤回。

流行病学家还批评了一些声称怀孕期间吸烟会导致婴儿出生体重急剧下降，并增加后代脸部开裂的风险的孟德尔随机化分析。

他们指出，问题在于，作为吸烟行为倾向的基因是在所谓的候选基因研究中发现的。在这项研究中，研究人员评估了他们怀疑与吸烟等行为有关的一些基因。这些研究的结果可能不可靠，因为它们倾向于在被检测的基因中发现一些效应。作者在孟德尔随机化中使用的基因突变在更大、更全面的GWAS中没有出现。

爱荷华大学（University of Iowa）健康政策研究员George Wehby领导了吸烟项目，他表示这项工作是在获得更好的数据之前完成的。他指出，考虑到目前人们对吸烟基因的了解，Wehby认为这个项目的假设就不够可靠。

有悖常识

对一位经济学家来说，孟德尔随机化看起来很像一种名为工具变量分析的东西，在这种分析中，一个被称为工具的变量被用来帮助揭示其他两个观察之间隐藏的关系。Koellinger指出，当他们看到流行病学家使用基因作为工具变量时，他们都很好奇，会说，等等，毕竟这种分析必须建立在需要仔细审查的假设之上。

孟德尔随机化的一个中心假设是，基因突变不应该以任何其它方式影响结果。例如，有一个基因的变体编码了扰乱酒精代谢的乙醛脱氢酶（aldehyde dehydrogenase, ALDH2）。当人们喝酒时，他们往往会感到恶心，这与较低水平的饮酒量有关。这似乎是一个可行的测试方法，例如，饮酒是否会导致血压升高，因为携带变异基因的人通常比不携带变异基因的人喝得少。

问题是，ALDH2还会影响一个人吸烟的可能性，而吸烟会独立地影响血压。这种现象称为遗传多效性，可以使孟德尔随机化结果无效。这就产生了一个问题，因为对许多基因来说，多效性的重要性还没有完全被认识到。

另一个假设是，一个特定的基因突变有很强的影响。随着更大更强的GWAS挖掘出与不同性状之间较弱的遗传联系，这一假设就更难验证了。

2015年，荷兰流行病学家对178项已发表的孟德尔随机化研究进行了回顾，发现只有不到一半的研究充分讨论了这些假设。研究人员表示，由于这些假设对于孟德尔随机化研究的有效性至关重要，它们应该总是在研究的特定背景下进行讨论。

孟德尔随机化也有一个明显的偏见来源——一个关乎生死的问题。人只能死一次。这个问题会使分析中风死亡变得复杂。这样的死亡往往发生在老年人身上，所以对中风的研究通常会招募那些已经在影响年轻人的疾病中存活下来的人，比如心脏病。因为中风和心脏病有共同的原因，如高胆固醇（因此也有共同的治疗方法，包括他汀类药物），这种幸存者的偏见可能会产生一些误导的结果。

为了证明这种偏见的影响，纽约城市大学（City University of New York）的公共卫生流行病学家Mary Schooling开展了一项孟德尔随机化试验，研究与降低胆固醇，减少他汀类药物使用的相关基因变异。具有这种有益遗传的人在生命早期较少罹患心脏病，并且能活到中风风险上升的年龄。因此，研究得出结论，降低胆固醇的他汀类药物实际上会引起中风。

Schooling表示，这没有任何意义。适当的随机对照试验并不是这样混淆的：它们表明他汀类药物可以预防中风。但孟德尔随机化显示出一种幸存者的偏见，必须加以识别和纠正。

消除偏见

Davey Smith指出，每一种方法都可能有偏差。孟德尔随机化并不是为了取代随机对照试验，而是与其他来源（包括观察性研究）一起，增加现有的证据，帮助做出明智的决定。现在，研究人员正在寻找改善它们的方法。

一种方法是识别和纠正一些偏差，并应用统计工具来测试假设的强度。Davey Smith指出，有些论文可以帮助研究人员自己评估孟德尔随机化研究的质量。

更好的数据组织也会有所帮助。无偏分析假定基因是随机分布的，但已知有些基因在地理区域内是聚类的。基因型数据集已经可以通过大家庭进行分组，孟德尔对这些数据的随机化研究指出，例如，身高和体重指数对受教育程度的影响可能不像以前的研究建议的那样大。

通过比较家系内和群体内研究的结果，遗传学家可以帮助区分先天和后天在特定性状中的作用。Koellinger指出，特定的基因与当地环境的特定特征相关。如果你想用基因来进行因果推断，你需要打破这种联系。

如果研究人员想要利用不断增长的遗传信息洪流来提供公共卫生和政策建议，这种准确性是很重要的。但即使是这些工具本身也需要改进和补充。

200年前，Ware对学生和士兵视力的观察，通过当时没人能想象得到的基因透镜得到了解释。具有讽刺意味的是，英国军队又花了一个世纪才接受需要戴眼镜的新兵，并改变了他们认为合适的视力标准。即使在第一次世界大战期间，一些权威人士认为，只要英国士兵能“朝正确的方向开枪”，即使他看不清自己在射击什么也没关系。

流行病学统计工具正在改进。虽然孟德尔随机化并不总是能提供完美的清晰度，但它至少可以为研究人员指出正确的方向。

原文检索：
David Adam. (2019) The gene-based hack that is revolutionizing epidemiology. Nature, 576:196-199.
张洁/编译

新闻特写, 热点

生命奥秘

孟德尔随机化分析改变流行病学

日益发展

数据源

公开的秘密

有悖常识

消除偏见

Leave a Reply

热点 · 最新文章

最新评论

About

Special

Social