导图社区 基于可解释机器学习方法的中国基层2型糖尿病患者10年心血管病
这是一篇关于基于可解释机器学习方法的中国基层2型糖尿病患者10年心血管病的思维导图,主要内容包括:表不如图,字不如表,摘要,题目。
编辑于2024-10-12 10:37:27基于可解释机器学习方法的中国基层2型糖尿病患者10年心血管病风险预测模型的构建与验证
题目
Development and validation of 10-year risk prediction models of cardiovascular disease in Chinese type 2 diabetes mellitus patients in primary care using interpretable machine learning-based methods
摘要
背景/目的
采用机器学习( ML )方法建立中国基层医疗管理的2型糖尿病( T2DM )患者10年心血管疾病( CVD )风险预测模型
方法
在这项为期10年的以人群为基础的回顾性队列研究中,纳入了2008年在公共初级保健门诊管理的年龄≥18岁、无CVD或终末期肾病病史的中国T2DM患者141 516例,并随访至2017年12月
随机选取2 / 3的患者建立性别特异性的CVD风险预测模型
剩余三分之一的患者作为验证样本,用于评估模型的区分度和校准度
基于ML的方法被应用于缺失数据填补、预测因子选择、风险预测建模、模型解释和模型评估
一种新的基于ML的填补方法- -生成对抗填补网( GAIN )比链式方程多重填补( MICE )和缺失森林插补法(基于随机森林的插补方法)更加准确、有效和高效,并且可以容忍高达50 %的缺失率
本研究采用GAIN对缺失值进行填补,具体步骤见附录A
由于在女性和男性受试者中危险因素和这些因素的影响都存在差异,因此分别为这两种性别建立模型
在代入缺失值后,将研究数据以2∶1的比例随机拆分为两部分,即推导样本和验证样本,以开发和验证分性别的风险预测模型
对于每个结局,使用极端梯度提升( extreme gradient boosting,XGB )建立性别特异性风险预测模型
Shapley Additive Explanations ( SHAP )用于评估ML模型中预测变量的重要性
有初级糖尿病护理经验的临床医生回顾了所选预测因子的非线性和交互效应的临床相关性,以确保其临床意义
排除具有可疑或不确定非线性效应的预测因子,开发第二个模型( ML模型2)
Boruta方法用于选择显著预测变量
作为比较,Cox比例风险回归(向后法)也被用作使用相同原始数据建立风险预测模型的标准统计方法。缺失值使用MICE ( n = 5)进行插补
使用Cox回归平行开发统计模型以进行比较
每个性别建立了三个模型
模型1仅包括人口学变量、T2DM病程和临床变量
模型2纳入了模型1纳入的所有可能的预测因素,将e GFR和尿ACR修改为连续变量,并加入了变异性
模型3包含了模型2的所有显著预测因子,并加入了药物治疗模式
结果
除腰围( 65.66 % )、腰臀比( 63.63 % )和尿ACR ( 51.01 % )外,所有预测因子的完成率均> 80 %
中位随访9.75年,32 445例( 22.9 % )患者发生CVD
年龄、T2DM病程、尿白蛋白/肌酐比值( ACR )、估算肾小球滤过率( eGFR )、收缩压变异性和糖化血红蛋白( HbA1c )变异性是最重要的预测指标
ML模型还识别了多个预测因子的非线性效应,尤其是eGFR和体重指数的U型效应
ML 模型显示 Harrell's C 统计量 >0.80 且校准良好
ML模型在CVD风险预测中的表现显著优于Cox回归模型,并对个体患者实现了更好的风险分层
结论
使用常规可用的预测因子和基于ML的算法,建立了中国T2DM患者在初级保健中的10年CVD风险预测模型
这些发现强调了肾功能指标的重要性,以及血压和HbA1c的变异性作为CVD预测因子的重要性,值得临床更多的关注
衍生的风险预测工具具有支持临床决策和鼓励患者进行自我护理的潜力,有待进一步研究证实模型在护理点的可行性、可接受性和适用性
字不如表
Table 1
患者基线特征在建模样本和验证样本( N = 141516)
以性别分层混合基线
通过独立样本t检验或卡方检验,发现推导样本和验证样本之间没有显著差异
Table 2
女性患者10年心血管疾病Cox风险预测模型( N = 52107)
WHR:腰臀比
Table 3
男性患者10年心血管病风险Cox预测模型( N = 42 143)
WHR的变化单位为0.1,其他所有参数的变化单位均为1
Table 4
验证样本中风险预测模型的 Harrell C 统计量
对于 ML 模型,模型 1 和模型 2 之间的 Harrell's C 统计量差异不显着 ( p > 0.05)
UKPDS,英国前瞻性糖尿病研究
对于 Cox 模型,模型 2 和模型 3 的 Harrell's C 统计量显着优于模型 1。模型 2 和模型 3 之间的差异不显着
Cox、Framingham、UKPDS 和 ASCVD 模型的 Harrell C 统计数据显着低于 ML 模型
Framingham、UKPDS 和 ASCVD 模型的 Harrell C 统计量显着低于 Cox 模型
Table 5
不同亚组风险预测模型的 Harrell C 统计量
年龄
分4层+总的
合并高血压
两类
聚类
7组
特征(使用无监督的ML方法进行识别)聚类
ML 模型的 Harrell C 统计量显着高于相应的 Cox 回归模型
表不如图
Figure 1
通过机器学习建模进行特征(预测器)重要性排序和特征选择
通过估计特征对心血管疾病预测的贡献,使用SHAP计算特征重要性
使用Boruta方法进行特征选择,红色条表示显著重要变量,绿色条表示边缘重要变量,蓝色条表示不重要变量
Figure 2
通过机器学习建模女性患者( N = 52107)的预测指标与心血管疾病( cardiovascular disease,CVD )相对风险的关系
图中显示了各预测因子( x轴)与CVD相对于研究人群水平( y轴)的相对危险度之间的非线性关系
13个X
Figure 3
通过机器学习建模男性患者( N = 42 143)的预测因子与心血管疾病( cardiovascular disease,CVD )相对风险的关系
图中显示了各预测因子( x轴)与CVD相对于研究人群水平( y轴)的相对危险度之间的非线性关系
12个X
Figure 4
通过机器学习建模成对预测因子对心血管疾病( CVD )风险的交互影响
展示了成对预测因子( x轴和有色标尺Z)的交互效应
Y轴表示CVD的相对危险度
在相同的x轴值下,Z (红色)较高和Z (蓝色)较低的患者表现出不同的相对风险
相对危险度大于零表示风险增加
女性5个图
男性5个图
有色标尺Z均为年龄
Figure 5
机器学习( Machine Learning,ML )模型、Cox模型和现有的CVD预测模型在女性验证样本( N = 2 5 971)上的校准
所有患者根据其预测风险被分为十等分,x轴是预测风险,y轴是每个十等分组的观察发生率
使用受限三次样条拟合了柔性校准曲线
红线表示完美的校准。黑色实线为检验模型的校准估计值,虚线为校准的95 %置信区间
调整Hosmer - Lemeshow拟合优度检验( 10组)结果显示,ML模型、Cox模型和Framingham风险评分的预测风险与观察风险的差异均无统计学意义( ( p > 0.05) )
英国前瞻性糖尿病研究( UKPDS )风险引擎和中国动脉粥样硬化性心血管疾病( ASCVD )模型的预测风险与观察风险的差异均有统计学意义( ( p < 0.05) )
在图的底部,分别显示了CVD发病率为( 1 )和无CVD发病率( 0 )的患者的预测风险直方图
Figure 6
在男性验证样本( N = 21 295)中校准机器学习( ML )模型、Cox模型和现有的心血管疾病( CVD )预测模型
调整Hosmer - Lemeshow拟合优度检验结果( 10组)显示,ML模型和Cox模型的预测风险与观察风险之间的差异不显著( ( p > 0.05) )
Framingham风险评分、英国前瞻性糖尿病研究( UKPDS )风险引擎和中国动脉粥样硬化性心血管疾病( ASCVD )风险预测模型的预测风险与观察风险之间的差异显著( ( p < 0.05) )
Figure 7
通过 ML 模型和Cox模型交叉表进行心血管疾病风险分层
女性 男性两个表格
每个单元格显示ML模型预测的不同风险等级的患者数和这些患者中观察到的事件发生率(括号内为百分比)
绿色细胞:ML模型和Cox模型均将患者分为正确的风险组
蓝色细胞:ML模型对患者分类正确,Cox模型对患者分类错误
红细胞:Cox模型对患者分类正确,而ML模型对患者分类错误
白细胞:两种模型均将患者的危险度分类错误