复旦大学秦国友、余勇夫团队在高维数据因果推断方法研究领域取得进展

近日，复旦大学公共卫生学院秦国友、余勇夫团队联合山西医科大学公共卫生学院王彤教授团队在生物信息学权威期刊《Briefings in Bioinformatics》（IF=9.5）上在线发表了题为“High-dimensional generalized median adaptive lasso with application to omics data”的研究论文。该研究提出了针对连续处理变量和离散处理变量的高维协变量选择和因果效应估计方法。

在观察性研究中，倾向性评分方法（Propensity Score，PS）常用于校正已测量的混杂变量，以获得处理因素与结局间的因果效应。然而，处理效应的估计对于PS模型中调整的协变量非常敏感，纳入所有混杂变量对于获得无偏的处理效应估计至关重要，纳入工具变量可能导致估计效率降低，而纳入预测变量则可以提高估计效率。组学数据等大数据的广泛使用引入了高维协变量，同时在研究中关于混杂变量调整集的先验知识往往有限。因此，在高维数据背景下因果推断的变量选择问题值得关注。结局自适应LASSO（Outcome-Adaptive LASSO，OAL）方法和广义结局自适应LASSO（Generalized Outcome-adaptive LASSO，GOAL）方法在高维数据背景下可以实现对混杂变量和预测变量的精确选择和因果效应估计。然而，当结局变量服从偏态分布时，通过这两种方法获得准确的变量选择和因果效应估计可能具有挑战性。为此，研究团队提出了广义中位数自适应LASSO（Generalized Median Adaptive LASSO，GMAL）方法。

GMAL方法适用于连续处理变量和离散处理变量的高维变量选择和因果效应估计。模拟结果表明，结局变量呈对称分布时，GMAL方法在变量选择方面与现有方法表现类似；在结局变量呈偏态分布时，GMAL方法变量选择表现明显优于现有方法。同时，GMAL方法在因果效应估计方面始终优于现有方法，表现为具有较小的均方根误差。最后，该研究使用GMAL方法，基于阿尔茨海默症神经影像学倡议数据库中的DNA甲基化数据集进行研究，以探讨脑脊液tau蛋白水平与阿尔茨海默症严重程度之间的关联。GMAL方法可同时适用于连续处理变量和离散处理变量，为真实世界研究中高维协变量存在时的因果效应推断提供了新思路。

复旦大学公共卫生学院二年级直博生刘亚航、山西医科大学公共卫生学院高倩副教授、复旦大学公共卫生学院博士生魏可成为本文共同第一作者，复旦大学公共卫生学院余勇夫青年研究员、复旦大学公共卫生学院秦国友教授、山西医科大学公共卫生学院王彤教授为共同通讯作者。该研究得到了国家自然科学基金（82173612；82273730；82073674；82204163）、上海市青年科技启明星计划（21QA1401300）、上海市自然科学基金（22ZR1414900）和上海市市级科技重大专项（ZD2021CY001）的资助。

论文链接：

https://academic.oup.com/bib/article/25/2/bbae059/7618073?searchresult=1