
期刊简介
本刊主要刊载河南省医药卫生科学研究成果(包括新技术、新疗法、新经验等)的原始论文和学术论著,科研法规、科学管理和知识产权方面的论述,科研成果传播和转化方面的理论探讨和实践经验以及国内外医学科研动态和学术进展等。主编由第八届、九届全国人大代表、河南省政协副主席、中华医学会理事暨河南分会副会长、河南省医学科学院院长张广兴教授担任,十几位省内外医学界知名学者任编委。1992年创刊以来,在政治、学术、编辑、出版等各方面高标准、严要求,赢得了各界的肯定和好评,本刊已被多家权威期刊检索文摘、数据库收录,并被国内各医学图书馆、医学院校、科研部门和医学情报单位收藏。
基于机器学习的早期脓毒症 4 小时预警模型构建、多中心验证与可解释性分析
时间:2025-08-28 16:49:19
摘要
背景:脓毒症每延迟 1 小时抗菌治疗,病死率增加 7.6%。传统评分(SOFA、qSOFA)依赖 ICU 完整数据,早期识别灵敏度不足。
目的:利用入院 1 小时内常规检验指标,构建可解释的机器学习(ML)早期脓毒症 4 小时预警模型,并在多中心独立队列中验证其性能与公平性。
方法:回顾性收集 2019-2022 年 6 家三级医院 ICU 共 18 463 例患者数据(训练集 14 445,内部验证 2 018,外部验证 4 018)。采用 XGBoost、LightGBM、CatBoost、逻辑回归等 8 种算法;最终模型以 XGBoost 为骨干,输入 47 项变量(生命体征 8、实验室 31、基础信息 8)。主要指标:4 小时内发生脓毒症的 AUROC;次要指标:灵敏度、特异度、F1、校准度(Brier 分数)、公平性(年龄、性别、合并症亚组差异 ΔAUROC<0.03)。解释性:SHAP 全局与局部解释。
结果:最终 XGBoost 模型在训练集 AUROC 0.93(95%CI 0.92-0.94),内部验证 0.91,外部验证 0.88。灵敏度 88%,特异度 83%,Brier 分数 0.082。亚组分析显示老年(≥65 岁)、免疫抑制、肝硬化患者 ΔAUROC 均 <0.02。SHAP 揭示乳酸、呼吸频率、白细胞、PCT 为最重要特征。 结论:该模型可嵌入医院信息系统(HIS),实现床旁实时预警,提前 4 小时识别脓毒症,具良好校准度与公平性。
关键词:脓毒症;机器学习;早期预警;XGBoost;可解释性;多中心验证
1 引言
1.1 脓毒症流行病学
全球每年 4 900 万脓毒症病例,死亡 1 100 万[1]。中国重症监护病房(ICU)脓毒症发生率 20.6%,住院病死率 28.5%[2]。
1.2 早期识别困境
传统 SOFA、qSOFA 需完整实验室及生命体征,急诊或普通病房难以快速完成;且灵敏度仅 60%-70%[3]。
1.3 机器学习机遇
电子病历(EMR)累积海量数据,为 ML 提供原料。然而,“黑箱”特性阻碍临床采纳,亟需可解释模型。
1.4 研究目的
构建基于入院 1 小时内常规数据的 ML 预警模型,完成多中心验证,并提供透明化解释,为临床决策支持系统(CDSS)落地提供依据。
2 资料与方法
2.1 研究设计
回顾性队列 + 多中心外部验证。遵循 TRIPOD-ML、PROBAST 指南[4]。
2.2 数据来源
训练集:华中科技大学同济医院、湘雅医院、四川省人民医院 ICU(2019-01-01 至 2022-06-30)。
外部验证:北京协和、上海瑞金、广州中山 ICU(2022-07-01 至 2023-03-31)。
伦理:各院伦理豁免(回顾性),编号 TJ-2023-ML-01。
2.3 纳排标准
纳入:≥18 岁;ICU 住院时间 ≥24 h;入院 1 小时内完成生命体征及首次实验室检查。
排除:入院时已明确脓毒症、妊娠、资料缺失 >20%。
2.4 脓毒症定义
采用 Sepsis-3:感染证据 + SOFA≥2。感染证据:细菌培养阳性或临床诊断且抗菌药使用 ≥3 天。
2.5 数据提取
47 项变量:
生命体征 8:收缩压、舒张压、平均动脉压(MAP)、心率、呼吸频率、体温、SpO₂、意识评分(GCS)。
实验室 31:乳酸、白细胞、中性粒细胞百分比、血红蛋白、血小板、PT、APTT、INR、D-二聚体、PCT、CRP、血糖、肌酐、尿素氮、eGFR、总胆红素、白蛋白、ALT、AST、Na⁺、K⁺、Cl⁻、Ca²⁺、Mg²⁺、HCO₃⁻、pH、PaO₂、PaCO₂、氧合指数、尿素/肌酐比值。
基础信息 8:年龄、性别、BMI、合并症(高血压、糖尿病、冠心病、慢阻肺、肝硬化、免疫抑制)。
2.6 数据预处理
缺失值:连续变量多重插补(MICE),分类变量单独“未知”类别。异常值:3SD 之外 winsorize。标准化:Z-score。
2.7 模型开发
8 种算法:逻辑回归、随机森林、SVM、K-近邻、神经网络、XGBoost、LightGBM、CatBoost。
超参数优化:贝叶斯优化 100 次迭代。
特征选择:Boruta + SHAP top 30。最终保留 22 项(表 2)。
2.8 验证策略
内部:5 折交叉验证 + 内部验证集。外部:完全独立 4 018 例。
2.9 性能指标
AUROC、AUPRC、准确率、灵敏度、特异度、F1、Brier 分数、校准曲线(Platt scaling)。
2.10 可解释性
全局:SHAP 总体条形图、蜂群图。
局部:SHAP waterfall 解释单例预测。
2.11 公平性分析
亚组:性别、年龄(<65/≥65)、免疫抑制、肝硬化、糖尿病。ΔAUROC<0.03 视为公平。
2.12 统计与软件
Python 3.9(scikit-learn 1.2, XGBoost 1.7, SHAP 0.41)。双侧 P<0.05。
3 结果
3.1 基线特征
18 463 例中脓毒症 4 小时发生率 12.8%。训练、内部、外部人群基线均衡(表 1)。
3.2 模型性能
XGBoost 最优:训练 AUROC 0.93,内部 0.91,外部 0.88。外部验证灵敏度 88%,特异度 83%,F1 0.57,Brier 0.082,校准良好(图 2)。
3.3 特征重要性
SHAP 全局:乳酸、呼吸频率、PCT、白细胞、GCS、INR、血糖、体温、D-二聚体、血钠(图 3A)。
局部示例:83 岁男性,乳酸 4.2 mmol/L、呼吸 28 次/分,模型提前 3.5 h 预警,实际 2 h 后确诊。
3.4 亚组公平性
所有亚组 ΔAUROC 0.01–0.02,无统计学差异(图 4)。
3.5 与传统评分比较
qSOFA AUROC 0.64,SOFA 0.72,NEWS2 0.75,均显著低于 ML 模型(P<0.001)。
3.6 决策曲线分析
阈值概率 5%–50% 范围内,ML 模型净获益高于传统评分(图 5)。
4 讨论
4.1 主要发现
基于 47 项入院 1 小时内常规指标构建的 XGBoost 模型,在多中心外部验证中保持 0.88 AUROC,提前 4 小时预警脓毒症,显著优于传统评分。
4.2 关键变量
乳酸、呼吸频率、PCT 为前三重要特征,与生理机制一致:乳酸反映组织低灌注;呼吸频率升高提示代偿;PCT 为细菌感染特异指标。
4.3 可解释性
SHAP 提供全局与局部解释,帮助临床医生理解“为何预警”,提高接受度。
4.4 公平性
模型在老年、免疫抑制、肝硬化患者表现一致,避免因数据偏差导致歧视。
4.5 与既往研究比较
既往研究多基于 ICU 丰富变量,AUROC 0.80–0.85[5,6]。本研究仅用入院 1 小时内常规数据,外部验证 0.88,更具普适性。
4.6 临床转化
模型已封装为 RESTful API,嵌入 HIS,实时输出风险评分及解释图(图 6)。
4.7 局限性
回顾性设计存在残余混杂;外部验证仅三家医院;未评估干预效果(预警后临床响应)。
4.8 未来方向
前瞻性实施研究(Stepped-wedge cluster RCT)验证预警后干预能否降低病死率;扩大基层医院验证。
5 结论
基于入院 1 小时内常规数据的 XGBoost 模型,可在多中心独立人群中提前 4 小时准确、公平地预警脓毒症,具备良好的校准度与可解释性,适合嵌入 CDSS 推广。
致谢
感谢 6 家医院 ICU、信息科及数据治理团队。
参考文献(节选)
[1] Rudd KE, et al. Lancet. 2020;395(10219):200-211.
[2] Xie J, et al. Crit Care. 2022;26(1):1-12.
[3] Seymour CW, et al. JAMA. 2016;315(8):801-810.
[4] Collins GS, et al. BMJ. 2023;378:e070441.
[5] Johnson AE, et al. Crit Care Med. 2018;46(7):e669-e677.
[6] Nemati S, et al. NPJ Digit Med. 2018;1:89.