数据侦探——英国“方舟子”

Aug 13, 2019 No Comments

麻醉师John Carlisle已经在好几百篇论文中发现了问题，而且让一家世界顶级的医学刊物做出了修正。

如果John Carlisle家有一个猫洞，那么那些科研界的造假者可能就早点休息了。Carlisle通常都在凌晨4点半就起床了，因为要给他们家的宠物猫Wizard开门。可是醒了之后，Carlisle就再也睡不着了。这时，他通常都会打开电脑，开始看临床研究方面的论文，并且从文章中挑毛病。在Carlisle老婆的起床闹钟响了90分钟以前，他往往就已经填好了一份表格，在里面填了好几百个人的年龄、体重和身高等信息。不过Carlisle认为，这里面有很多人的信息都是伪造的。

白天，Carlisle是英国海滨小镇Torquay的一名麻醉师，为英国国家卫生局（England’s National Health Service）工作。闲暇时间，Carlisle会化身成为一名打假者，专门给临床研究文章打假。近十年来，他打假的领域非常广泛，从饮食对健康的作用，再到临床指南都包括在内。结果就是，有好几百篇论文因为不端（misconduct）或错误（mistake），而被撤回或修正。Carlisle也让好几位大规模造假者完全曝光，彻底离开了学术界。在全世界被撤回文章最多的6名造假者中，有3人都是被Carlisle拉下马的。

澳大利亚墨尔本Alfred医院麻醉及围手术期医学（anaesthesia and perioperative medicine at the Alfred hospital in Melbourne, Australia）主任Paul Myles是和Carlisle一起打假的同伴，他负责寻找统计方面的问题。Myles认为，Carlisle具有一双火眼金睛。发现了很多问题。

不过，Carlisle的这个业余爱好可不招人喜欢。批评者认为，Carlisle有时太过吹毛求疵，这可能导致出现没有明显依据的怀疑。

不过Carlisle坚信，他这么做，最终会让患者获益。这也是他一直把大量的业余时间都用来钻研其他人科研工作的原因和动力。Carlisle表示，他之所以会这么喜欢看科研论文，是因为他的好奇心驱使他这么做，而不是他真的非常喜欢挑别人的毛病。Carlisle并不想成为一个像卫道士一样的学术打假者。

Carlisle和其他学术论文纠错者开展的这些工作也表明，科学界的看门人——那些科学杂志和学术机构，其实还可以干得更好。不过，在Carlisle重点关注的医学领域，这可是决定着人们生死的大事。

表现很差的麻醉医生们

Torquay镇和其他传统的英国小镇看起来没什么两样。身为镇上医院麻醉师的Carlisle在这里已经住了18年了。在一间没人的手术室里，他接受了采访，也向采访者介绍了他是如何走上这条学术打假之路的。

十几年前，Carlisle和另外几名麻醉师在闲聊时谈到了日本东京东邦大学（Toho University in Tokyo）科研人员Yoshitaka Fujii的工作。Yoshitaka开展过一系列的临床随机对照研究（Randomized controlled trial, RCT）研究，来观察各种药物在预防患者术后恶心、呕吐方面的作用。但是Fujii的实验结果看起来太完美了，简直让人不敢相信。Carlisle也是众多质疑者中的一位，于是他决定用统计学方法来验证Fujii的实验结果。

2012年，Carlisle给出了他的结论，他发现，如果要偶然得到Yoshitaka那些“完美到极致的”实验结果，那种可能性微乎其微。正是因为Carlisle这些人的努力，杂志社的编辑们开始要求日本东邦大学和Yoshitaka给出解释。而日本东邦大学也在同年解雇了Yoshitaka，他发表的183篇论文也全部被撤回，这也创下了一个记录。四年之后，Carlisle又和其他人一起发表了一篇论文，他们对另外一名日本麻醉师，也是与Yoshitaka合作过多次的Yuhji Saitoh的科研工作进行了分析。结果发现，Yuhji的工作同样可疑。Yuhji也已经有53篇论文被撤回了（详见go.nature.com/2jxtgxf）。

很多科研人员也都在他们自己的工作中引用了Carlisle的工作，只不过在方法上略有不同。比如在2016年，新西兰和英国的科研人员就发现，日本南部一家医院的骨科医生Yoshihiro Sato也有问题。这直接导致有27篇论文被撤回，最终，一共有66篇有Sato署名的文章被撤回。

在Fujii和Saitoh的丑闻爆发之前，麻醉学领域也不是一尘不染的，比如仅德国麻醉师Joachim Boldt一人，就有超过90篇论文被撤回。但是Carlisle不相信只有他们麻醉领域才是学术造假的重灾区。于是，他又挑选了8份知名的学术刊物，利用自己的空闲时间，对这些刊物里刊登的数千篇RCT研究进行了学习。

2017年，Carlisle在《麻醉学》（Anaesthesia）杂志发表了他的研究结果。他发现，在近16年发表的5000多篇临床研究里，有90篇文章都存在学术造假的问题。结果已经有10篇文章被撤回，有6篇文章进行了修正，这其中就包括在顶级学术刊物——《新英格兰医学杂志》（The New England Journal of Medicine, NEJM）上发表的一篇介绍地中海饮食（Mediterranean diet）与人体健康关系的文章。不过这篇文章的作者并没有真的造假，他们只是在对实验者进行随机分组时犯了一个错误。修正了这些错误之后，并没有影响最终的结论，文章也再次发表了。

Carlisle没有停止他的“业余活动”。他今年又爆出，意大利L’Aquila大学（University of L’Aquila in central Italy）的外科医生Mario Schietroma开展的数十项有关麻醉的研究都有问题。我们不能用这些研究来指导临床工作。跟Carlisle一起调查Schietroma的合作者Myles在去年就提出过警告，因为他发现，在Schietroma发表过的5篇论文里，实验组和对照组的原始数据都非常相似，这一点非常可疑。

对Schietroma的质疑声，给全世界的医院都带来了影响。因为世界卫生组织曾经在2016年时推出过一份麻醉指南，在其中引用过Schietroma的工作，并推荐在术中和术后，全世界的麻醉师都应该常规提高患者的给氧浓度，以减少感染的发生率。而这一推荐引来了不少的争议。Myles指出，麻醉师都知道，在麻醉过程中，如果在某些环节提高氧气水平，是会增加并发症的发生风险的，除此之外，世界卫生组织给出的这份指南还会给不发达国家的医院增加不必要的经济负担，因为氧气也是要花钱的。

Myles指出的那5篇有问题的论文，很快就被撤回了。世界卫生组织也修改了他们的指南，将相关的内容从以前的强烈推荐，修改为在有条件时可以推荐。这也就意味着，临床医生可以根据患者的不同情况来决定给氧浓度。Schietroma表示，他文章里的统计分析都是由独立的统计师来完成的，而且也都经过了同行评议。至于为什么他文章里入组人群的指标都那么相似，是因为他特意挑选了相似的患者来入组。Schietroma还表示，L’Aquila大学在2009年时经历过地震，所以他的原始数据和文件都已经丢失了，再也找不到了。L’Aquila大学的发言人表示，他们已经委托有资质的调查机构来负责此事，但是并没有透露是由哪家机构来负责，也没有就具体调查进展情况作出说明。

发现不正常的数据

Carlisle使用的打假方法（分析方法）一点都不新鲜。据他介绍，真实的数据都有各自自然的模样，而人们伪造的数据只是在尽力模仿真实数据的样子。早在19世纪80年代，就有人已经发现了这种情况。1938年，美国的电器工程师、物理学家Frank Benford让这种检查方法流行起来，后来也被更多的统计审查师所采用。比如，政治科学家一直都在用类似的方法（他们称之为Stouffer方法，该方法在上世纪50年代非常流行）分析调研数据。

在审视RCT研究时，Carlisle首先会关注两组的基线情况（baseline measurement），该数据主要介绍不同入组人群的相关特征。比如身高、体重，及其它与实验相关的生理信息。作者通常都会在论文的第一个图表里给出这些数据。

在一个真实的RCT研究里，入组人群都会被随机分入实验组和对照组。这样随机分组的结果就是，各组人群各项指标的平均值和标准差都是差不多的，但并非完全一样的。如果太相近了，就值得怀疑了。

此时，Carlisle首先会计算每一对指标的P值。所谓P值就是一个统计学指标，它可以评价论文作者给出的基线数据，真实随机分组的可能性有多大。然后，Carlisle将每一组指标的P值综合起来，来判断该RCT研究随机分组的可能性有多大。如果这个综合P值太高，就很可疑了；如果P值太低，则说明作者的随机分组方法有问题。

不过Carlisle的这套方法也不是不会出错。统计学检验工作要求表格里给出的每一个变量都是独立的，可是在实际中，通常都不是这样的，比如身高和体重就是相互关联的，并非各自独立的两个变量。实际上，这也说明有很多被插上不正确标签的文章也有可能是被冤枉的。因此，也有很多统计师对Carlisle的工作提出了批评。

但是Carlisle表示，他的这套方法是一个好的开始，可以帮助我们挑出可疑的论文，进行下一步更加细致的审视。比如可以要求作者给出原始数据等。

Myles则指出，这就好像给文章插上了一面红旗。告诉大家，这篇文章非常可能有问题。
是出错还是造假。

错误VS缺德

Carlisle表示，他一直都非常谨慎，就怕他发现的问题可能是由其它非人为造假的因素导致的。2017年，作为杂志编辑的Carlisle在《麻醉学》（Anaesthesia）杂志发表了他那篇对5000篇论文进行分析的研究结果；同时，澳大利亚悉尼大学（University of Sydney in Australia）的麻醉师John Loadsman和Tim McCulloch一起发表了一篇社论，结果引起了广泛的争议。

因为该社论里使用了“不诚实的作者（dishonest authors）”和“缺德（miscreants）”等词语，
那些已经发表过RCT研究的论文作者最终都需要注意一下。而且还指出，每一份学术刊物都应该使用Carlisle的方法，对已经发表过的RCT研究重新审查一遍。

该社论一发表，另外一份学术刊物——《麻醉学杂志》（Anesthesiology）就给出了一份措辞强硬的回应，该杂志曾经有12篇文章都被Carlisle点过名。《麻醉学杂志》的首席编辑，美国北卡罗来纳州杜克大学（Duke University in Durham, North Carolina）的麻醉师Evan Kharasch也在他们的社论中回应道：“Carlisle的这篇文章，在道德上就有问题，是对其他作者名誉的损害。”这篇社论是由Kharasch和美国麻省总医院（Massachusetts General Hospital in Boston）的麻醉师，也是《麻醉学杂志》的统计学顾问Timothy Houle共同撰写的，他们也在自己的这篇社论里指出了Carlisle的问题，比如可能存在假阳性的情况（误报的情况）。Kharasch等人在社论中这样写到：“我们欢迎更加有效的、发现学术造假和欺诈的方法，比如查重软件等。可是我们认为，Carlisle的方法不属于此类。”

不过到了当年5月，《麻醉学杂志》修正了一篇被Carlisle点名的文章。并指出，该文章里有两处表格，存在“有计划的不正确的（systematically incorrect）”P值，而论文作者也表示，他们丢失了原始数据，无法进行重新计算。但是Kharasch依旧坚持他在2017年那篇社论里表达的观点。Carlisle表示，他理解Loadsman和McCulloch 的心情，同时也指出，对他本人的质疑，并不会影响他学术打假工作的价值。Carlisle认为他的工作是有价值的，虽然别人不这么看。

数据审核员

Carlisle的方法并不是唯一的打假方案，近年来，也出现了好多种复核论文数据的方法。比如荷兰蒂尔堡大学（Tilburg University in the Netherlands）专门研究分析技术的Michèle Nuijten就开发了一种数据审核技术，她称之为“统计描述检查技术（spellcheck for statistics）”。该软件可以扫描论文，检查出文章里的统计描述（statistics described）是否前后相符。比如，这款名为statcheck的软件就可以判断出，文章的结论是否与文章作者计算出的P值相符。已经有人用这款软件来给论文找茬（甚至包括几十年前发表的论文），通常都用来标记数字拼写错误（numerical typos）。

荷兰格罗宁根大学（University of Groningen）的心理系研究生Nick Brown和美国东北大学（Northeastern University in Boston, Massachusetts）专门研究科学技术的James Heathers则使用GRIM软件对统计方法（statistical means）进行复核，这也是一种寻找可疑文献的方法。

但是上述这些方法都不适用于分析RCT研究。Statcheck软件只能对美国心理学会（American Psychological Association）使用的那种表格进行分析。而GRIM软件只能对整数据进行分析，例如在心理量表中用到的1~5分那种评分结果。

美国斯坦福大学（Stanford University in California）研究科学方法的John Ioannidis一直在倡导更科学地使用统计学方法，来提高科学研究工作的可重复性。据Ioannidis介绍，现在大家对这类论文审查技术的兴趣越来越高。这些技术都是非常棒的工具，而且非常巧妙。不过也应该注意，不要轻易下结论。毕竟，学术造假（fraud）和文字错误（typo），是完全不同的两个概念。

Brown、Nuijten和Carlisle都认为，这些打假工具只能发现可疑的情况，后面还需要继续开展更进一步的审核。Nuijten表示，她也不想将statcheck软件和学术欺诈联系起来。Ioannidis也认为，这些工具的真正价值其实应该是帮助科研工作者，在论文投稿之前，发现文章中的计算和文字输入等方面的错误。

Carlisle表示，越来越多的杂志编辑开始跟他联系，想在他们的工作中使用Carlisle的打假方法并给予他们协助。现在，Carlisle主要还是在进行业余的、“被动式”的打假，也就是有编辑发现问题，并寻求他的帮助之后，他会给予适当的帮助。

目前，至少已经有两家杂志走在了学术打假工作的前列，他们已经将统计学核查工作，列入了文章发表的必备流程之中。这两家杂志就是《新英格兰医学杂志》和Carlisle担任编辑的《麻醉学》杂志。《新英格兰医学杂志》的发言人表示，他们希望，这项新的流程可以尽量避免学术造假问题，这是一项非常值得投入时间和精力的工作。

Carlisle表示，《新英格兰医学杂志》这样的顶级刊物都能在学术打假方面投入这么大的关注度，这是相当难能可贵的。因为这需要大量的人力和物力，还需要花费很多时间，而且这并不是学术刊物界的常规操作流程。所以，我们还是需要IT技术的帮助，毕竟，每年全世界有将近200万篇论文在发表。Nuitjen认为，在这个方面，Statcheck软件就是很好的榜样，有多家心理学方面的刊物就已经常规使用Statcheck软件，对他们的稿件进行审查了。文本挖掘技术（text-mining techniques）也可以帮助科研人员，对海量论文里的P值进行审核。P值造假（P-hacking）也是非常常见的一项学术造假行为。

但是，该领域的多名研究人员也指出，目前还存在一个问题，即基金方、杂志出版方和科研机构自身，都对论文核查没有给予应有的重视。Nuijten表示，在这些相关方看来，论文核查工作并不划算。换句话说，没人喜欢给自己找茬的人。

而且即便发现了学术造假行为，也于事无补。2012年，一篇韩国论文向《麻醉及镇痛杂志》（Anesthesia & Analgesia）投稿，介绍了他们开展的一项研究如何根据面部肌肉张力（facial muscle tone）来选择气道插管时机的试验的结果。Carlisle发现，该论文在患者数据和文章总结数据方面不一致，于是该文章被拒稿。

可是，该文章的作者又使用其他患者的数据对文章进行了修改，向Carlisle担任编辑的《麻醉学》杂志投稿。结果当然是又被拒了。而且《麻醉及镇痛杂志》和《麻醉学》杂志的编辑也都给该文章的作者，以及作者所在单位发了邮件，说明了问题。可是让Carlisle没想到的是，几个月之后，这篇文章一个字都没改，发表在了《欧洲麻醉学杂志》（European Journal of Anaesthesiology）上。Carlisle将这篇文章的情况告诉了《欧洲麻醉学杂志》的编辑，该文章在2017年被撤回，具体的理由是“数据不符合规定，包括对结果的误读”。

在看过如此多的学术造假行为和其它错误之后，Carlisle对隐藏在这类行为背后，科研人员的真实心态，也有了自己的看法。他指出，那帮造假的人自己也知道，所在单位也都睁一只眼闭一只眼，所以才敢这么干。

Carlisle就是这样一位英国的“方舟子”，利用自己的业余时间，发现那些可疑的学术造假行为。

原文检索：
DAVID ADAM. (2019) The data detective. Nature, 571: 462-464.
Eason/编译

新闻特写, 热点

生命奥秘

数据侦探——英国“方舟子”

表现很差的麻醉医生们

发现不正常的数据

错误VS缺德

数据审核员

Leave a Reply

热点 · 最新文章

最新评论

About

Special

Social