「预」字号论文，不那么靠谱

摘要

1

带pre字眼的论文多少都有点让人心里没底。比如pre-print（预印本），管它最后学术界买不买账，水灌下去再说。相当一部分最后被毙了，但在自媒体上搅出很大风浪。

比如两个月前广为传播、麻省总院和哈佛医学院联名的预印本《奥密克戎变种跟前几波流行株一样致命》（下图），在麻省最顶尖的13家医院收集了13万病人的大(!)数据，校正了疫苗接种情况、人口学特征和基线严重程度（Charlson指数）后，发现奥密克戎跟之前的流行株致病力没差别。这文章当时被转得很广，但争议很大。

一来，立意上就好比说「校正武器代差后，国军战力不比日军差」，属于硬拗架空文学。致命性本来就是靠疾病严重程度来衡量的，在基线上就「校正」拉平，能比出什么呢？
二来，顶级医院收新冠病人是有门槛的，不管病毒变强变弱，都只收达到指征的病人，好比仪仗队只收一米八以上的大高个。但若拿仪仗队来代表全体，那么搞不好中国人并不比俄罗斯人矮，但这显然存在选择偏倚，结论是不可靠的。
三来，后面《柳叶刀》等刊发了一堆人群研究和动物模型，都证明奥密克戎毒性是低于前株的。

所以这篇文章虽然轰动了素人届，但想通过同行评议，估计很难。

2

这几天华山医院发在《中国CDC周刊》上的pre-planned热文《无不稳定基础病的非重症新冠患者的动态疾病表现》（下图），同样有类似的争议。

这是一个回顾性队列(cohort)研究，想要回答的是「基线风险级别（暴露）和转归为重症/病毒脱落时间（结局）之间有无关联」。争议的焦点是入组时剔除了重症新冠（这是合理的，队列研究的基本要求）、无自理能力的老幼、有不稳定基础疾病的患者（下图），即大家认知中新冠的高危人群。

队列研究强调暴露特征分布的代表性（即纳入研究对象暴露因素的统计分布，要和将来要外推的大人群一致），这方面临床样本原本就比社区样本代表性更差，那么在设定排除标准时就要非常谨慎，只能排除明确与研究不相关、以及会引入混杂(confounding)的个体。把并非混杂、且有坚实依据的高风险人群剔除掉，再自己定义一个「高风险」筛选器，在研究设计上有点奇怪。

把一个完整的大问题分解成多个数据子集，分头建模赛马，哪个显著就报告哪个，这是一个常见的科研诡计，但它容易导致「绿色果冻豆笑话」（下图）——果冻豆和粉刺没有统计学关联吧，那我只看红色的呢，黄色的呢，棕色的呢，……最后发现绿色的有统计学关联，行，结论有了，绿色果冻豆可能导致粉刺——这实际上是经典的I类统计错误(Type I error)。

经此操作，三万人的样本，转重的只有22人，转归率比官宣的全市病死率还要低。正样本太小，统计效能就会不大够，不容易获得稳健的模型估计，所以文中也没搭什么模型，但高风险vs低风险的转重数22:0这种比分，总是隐隐透着一股过拟合的味道。如果正样本多一些，做个分类器出来，把「高风险组」的边界画更精准些，意义更大。现在的「高风险」还是占到了1/4。真出了篓子，要聚焦这部分脆弱人群，医疗资源还是远不够覆盖的。

这篇文章会不会改变现行政策？多半不会的。毒性降低，对低危人群影响小，都是已知的事情；讨厌的地方是危害的结构性差异和高传染性，受控条件下观察到的情况，在失控场景中都可能无效。但封城是封不起了，所以基于病毒脱落时间调整隔离天数，条件性居家隔离，（若）爆发后低危人群让出医疗资源，这些想得到的微调，都可能会实施。论文这种东西，批判性地看看方法，比比数字，不能过度解读。红方蓝方各拿一本论文吵上天去，最后搞不好还是隔离到一家酒店里。

3

2022-06-24

蹲个后续，华山医院的论文目前已经下架了，估计起码得大修。其实把基础病患者一起放进模型，并不会改变低风险组的根本结果，但可能这么一来模型的显著性就消失了吧。

[完]

「预」字号论文，不那么靠谱

文章目录

1

图 | 哈佛医学院及麻省总院联名预印本论文

2

图 | 中国CDC周报华山医院预规划论文

图 | 关于剔除标准的补充资料

图 | 统计笑话：绿色果冻豆和粉刺的关联

3

扫码关注我的公众号