「预」字号论文,不那么靠谱
文章目录
摘要
1
带pre字眼的论文多少都有点让人心里没底。比如pre-print(预印本),管它最后学术界买不买账,水灌下去再说。相当一部分最后被毙了,但在自媒体上搅出很大风浪。
比如两个月前广为传播、麻省总院和哈佛医学院联名的预印本《奥密克戎变种跟前几波流行株一样致命》(下图),在麻省最顶尖的13家医院收集了13万病人的大(!)数据,校正了疫苗接种情况、人口学特征和基线严重程度(Charlson指数)后,发现奥密克戎跟之前的流行株致病力没差别。这文章当时被转得很广,但争议很大。
- 一来,立意上就好比说「校正武器代差后,国军战力不比日军差」,属于硬拗架空文学。致命性本来就是靠疾病严重程度来衡量的,在基线上就「校正」拉平,能比出什么呢?
- 二来,顶级医院收新冠病人是有门槛的,不管病毒变强变弱,都只收达到指征的病人,好比仪仗队只收一米八以上的大高个。但若拿仪仗队来代表全体,那么搞不好中国人并不比俄罗斯人矮,但这显然存在选择偏倚,结论是不可靠的。
- 三来,后面《柳叶刀》等刊发了一堆人群研究和动物模型,都证明奥密克戎毒性是低于前株的。
所以这篇文章虽然轰动了素人届,但想通过同行评议,估计很难。
2
这几天华山医院发在《中国CDC周刊》上的pre-planned热文《无不稳定基础病的非重症新冠患者的动态疾病表现》(下图),同样有类似的争议。
这是一个回顾性队列(cohort)研究,想要回答的是「基线风险级别(暴露)和转归为重症/病毒脱落时间(结局)之间有无关联」。争议的焦点是入组时剔除了重症新冠(这是合理的,队列研究的基本要求)、无自理能力的老幼、有不稳定基础疾病的患者(下图),即大家认知中新冠的高危人群。
队列研究强调暴露特征分布的代表性(即纳入研究对象暴露因素的统计分布,要和将来要外推的大人群一致),这方面临床样本原本就比社区样本代表性更差,那么在设定排除标准时就要非常谨慎,只能排除明确与研究不相关、以及会引入混杂(confounding)的个体。把并非混杂、且有坚实依据的高风险人群剔除掉,再自己定义一个「高风险」筛选器,在研究设计上有点奇怪。
把一个完整的大问题分解成多个数据子集,分头建模赛马,哪个显著就报告哪个,这是一个常见的科研诡计,但它容易导致「绿色果冻豆笑话」(下图)——果冻豆和粉刺没有统计学关联吧,那我只看红色的呢,黄色的呢,棕色的呢,……最后发现绿色的有统计学关联,行,结论有了,绿色果冻豆可能导致粉刺——这实际上是经典的I类统计错误(Type I error)。
经此操作,三万人的样本,转重的只有22人,转归率比官宣的全市病死率还要低。正样本太小,统计效能就会不大够,不容易获得稳健的模型估计,所以文中也没搭什么模型,但高风险vs低风险的转重数22:0这种比分,总是隐隐透着一股过拟合的味道。如果正样本多一些,做个分类器出来,把「高风险组」的边界画更精准些,意义更大。现在的「高风险」还是占到了1/4。真出了篓子,要聚焦这部分脆弱人群,医疗资源还是远不够覆盖的。
这篇文章会不会改变现行政策?多半不会的。毒性降低,对低危人群影响小,都是已知的事情;讨厌的地方是危害的结构性差异和高传染性,受控条件下观察到的情况,在失控场景中都可能无效。但封城是封不起了,所以基于病毒脱落时间调整隔离天数,条件性居家隔离,(若)爆发后低危人群让出医疗资源,这些想得到的微调,都可能会实施。论文这种东西,批判性地看看方法,比比数字,不能过度解读。红方蓝方各拿一本论文吵上天去,最后搞不好还是隔离到一家酒店里。
3
2022-06-24
蹲个后续,华山医院的论文目前已经下架了,估计起码得大修。其实把基础病患者一起放进模型,并不会改变低风险组的根本结果,但可能这么一来模型的显著性就消失了吧。
[完]