利用NHANES数据库还能构建预测模型? 中国学者写了篇文章,AUC=0.842

2023-09-21 12:03:53

Nhanes美国营养调查数据库的培训课程(直播回放)来了!

“Nhanes数据挖掘”课程(直播回放)! 欢迎报名, 发表文章即退款

2021年2月,广东省医学科学院、广东省人民医院、广东省心血管研究所心内科,广东省冠心病防治重点实验室的学者在Annals of Palliative Medicine(四区)发表题为:Derivation and validation of a simple nomogram prediction model for all-cause mortality among middle-aged and elderly general population 的研究论文。

这项研究为一项队列研究,使用NHANES数据库和对应的死亡数据,旨在基于人口统计学和体格测量指标,建立一个简单的列线图预测模型,用于中老年人群的全因死亡率。结果表明, 一个简单的列线图模型,包括年龄、性别、吸烟、饮酒、糖尿病、高血压、婚姻、教育和PIR,可以很好地预测中老年人群的全因死亡率

16f9dca6c0e3ff8eb16e2a5ff91a3393.png

摘要与主要结果

一、摘要

背景:一个简单的临床模型,可以根据人口统计学和身体测量指标预测一般人群中老年人的全因死亡率。本研究旨在基于人口统计学和体格测量指标,建立一个简单的列线图预测模型,用于中老年人群的全因死亡率。


方法:这是一项前瞻性队列研究。我们使用了1999-2006年国家健康和营养检查调查(NHANES)的数据,其中包括年龄≥40岁的成年人,2015年12月31日更新的死亡状况。采用Cox比例风险回归、nomogram最小绝对收缩选择算子(LASSO)二项回归模型对衍生队列和验证队列的预测模型进行评估。


结果:共有13,026名参与者(6,414名男性,平均年龄为61.59±13.80岁),其中6,671名(3,263名男性)和6,355名(3,151名男性)分别被纳入衍生队列和验证队列。在平均129.23±9.62个月的随访期间,有4,321人死亡。我们开发了一个 9 项列线图模式,包括年龄、性别、吸烟、饮酒、糖尿病、高血压、婚姻状况、教育和贫困收入比 (PIR)。曲线下面积(AUC)为0.842,校准良好。内部验证显示,列线图模型具有良好的辨别力,AUC为0.849,校准良好。在验证队列中应用LASSO 回归模型也显示出良好的区分(AUC = 0.854)和良好的校准。模型的时间依赖性和乐观校正的AUC值与随访时间的变化没有显著关系。


结论:一个简单的列线图模型,包括年龄、性别、吸烟、饮酒、糖尿病、高血压、婚姻、教育和PIR,可以很好地预测中老年人群的全因死亡率。

二、研究结果

1.训练集和验证集的基线特征

最终的研究样本包括13,026名参与者(6,414名男性,平均年龄为61.59±13.80岁)。派生队列和验证队列中分别有6,671名和6,355名参与者。在129.23±9.62个月的平均随访期内,有4,321名参与者死亡。如表1所示,衍生队列和验证队列在SBP,DBP,酒精使用,PIR,婚姻,教育,种族和高血压方面存在显着差异。

e885508c7c21e374d389d057aa4363a6.png

2.候选预测变量与全因死亡率的关联

单因素Cox比例风险回归显示:女性(HR:0.79,95%CI:0.75–0.84,P<0.001),SBP(HR:1.01,95%CI:1.01–1.01,P<0.001),DBP(HR:0.97,95%CI:0.97-0.98,P<0.001),酒精摄入量(HR:1.00,95%CI:1.00-1.00,P<0.001),糖尿病(HR:1.83, 95% CI:1.71–1.97, P<0.001) 和高血压(HR:1.73, 95% CI:1.63–1.84, P<0.001) 与全因死亡率相关。此外,目前的吸烟者,即高中以下学历、年龄≥70岁和PIR<1%的人,全因死亡率的风险最高。进一步的多因素Cox比例风险回归显示,当前吸烟者(HR:1.89,95%CI:1.63-2.19,P<0.001),从未结婚的人(HR:1.57,95%CI:1.25-1.97,P<0.001),≥70岁人群(HR:9.95,95%CI:8.18-12.11,P<0.001)具有更高的全因死亡风险。然而,BMI、PIR、DBP和教育与全因死亡率呈负相关(表2)。

b653089076baeaa8468e09d4c6374ee1.png

3.预测推导和验证队列中的全因死亡率

①列线图:在这个完整模型中登记了2个全因死亡率的独立预测因子。这些变量中的每一个都被分配了一个分数制。在计算总分并将其定位在总分制上后,我们向下绘制了一条垂直线,以获得预测的全因死亡率概率。总分越高,反映了全因死亡率的概率越高。

0b2ae5940a53c8b0937f87255f7ac976.png

②ROC 曲线:完整模型和简化模型的ROC曲线下面积均为0.842。为了验证训练优化和简化模型,该模型的 C 统计量均为 0.849(图 3B)。

2ec3176886c05ff53ebd2c77a2630a88.png

对列线图的决策曲线分析校准图:推导列线图(图4A)和验证队列(图4B)的决策曲线分析表明,这些模型能够成功预测全因死亡率,具有良好的敏感性和特异性(表3)。

7e8e9e0f9c16364d4b49ced14c2471ba.png

85341e223de680f5b4187b5cefdac780.png

4.模型的预测值与随访时间的关系

此外,如图5A所示,在不同的随访时间,修正后的AUC值,模型的AUC值均大于0.80。结果表明,该模型非常稳定,模型的预测值与随访时间无显著关系。同样,该模型在不同随访时间的AUC值均大于0.80,说明验证队列中预测全因死亡率的ROC曲线下面积随随访时间的变化无显著变化(图5B)。

0f73f562bde948f8f2669ffa0bce6988.png

设计与统计学方法

一、研究设计

P参与者1999-2006年的年龄≥40岁的人群

候选预测变量包括年龄、性别、种族/民族、吸烟、饮酒、婚姻状况、教育程度、糖尿病、高血压、PIR、BMI

O结局全因死亡

S研究类型队列研究

二、统计方法

1.统计描述+差异性分析:所有连续变量均以平均值±标准差表示,分类变量以频率或百分比表示。进行Kruskal-Wallis秩和检验、费舍尔检验、t检验和卡方检验,以通过基线特征检测亚组差异。

c00b3bb80ae29840f6ea6a2c8efccb98.png

50ae7e80dd01f0dda602fc65f52424ac.png

2.使用单变量和多变量Cox比例风险回归来估计全因死亡率的风险。风险比(HRs)和95%置信区间作为效应估计值呈现。

根据年龄(<50、50-60、60-70、>70岁)、PIR(<1、1-3、>3)和BMI(<25,≥25 kg/m)进行亚组分析

d363706a28bf3e83a9f7cfd355535304.png

3.使用三种方法来建立预测模型并验证内部验证。

①在推导模型中拟合了包括年龄、性别、BMI、SBP、吸烟、酒精摄入量、糖尿病、高血压、婚姻、教育和 PIR 的完整模型。②通过的逐步回归筛选变量,建立了简化模型。采用赤池信息量准则将变量筛选到简化模型中。预测列线图是在基于多元回归分析的推导队列中构建的。③为了进一步检查,应用LASSO二项式回归模型来确定每个变量的理想系数并估计可能性偏差。

a27b0a0d0e53e1d49373e49382bc01ca.png

c90da420975c8c71e858c2b8ea133115.png

4.ROC+AUC:为了评估列线图的判别性能,测量了受试者工作特征(ROC)分析中的曲线下面积(AUC)以评估预测准确性。

d9ad389cba7df4803fb77771dc5f5e66.png

5.使用上述相同方法在验证队列中评估模型在建立、区分和校准方面的性能。

f03a29ace6e002f25b47a295c26b90b8.png

5.数据分析在SPSS 22.0和R软件版本3.3.2进行。

c2b7e2992174c60015468c89149100c9.png


本公众提供各种科研服务了!

一、课程培训

2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10门课。如果您有需求,不妨点击查看:

发表文章后退款!2023年郑老师团队多门科研统计直播课程,欢迎报名

二、统计服务

为团队发展,我们将与各位朋友合作共赢,本团队将开展统计分析服务,帮忙进行临床科研。欢迎了解详情:

医学统计服务| 医公共数据库论文一对一指导

更多推荐

MySQL事务

MySQL事务一、事务的概念二、事务的ACID特点1、原子性2、一致性3、隔离性3.1、事务的隔离级别3.1.1测试脏读3.1.2测试提交读3.1.3测试可重复读3.2、查询全局事务隔离级别3.3、查询会话事务隔离级别3.4、设置全局事务隔离级别3.5、设置会话事务隔离级别4、持久性三、事务控制语句1、测试提交事务2、

SQL如何从数据库中查找数据是否存在

SQL查找是否存在,别再用count!!!问题背景在业务开发中,经常遇到如下需求:从数据库中查找符合一组条件的数据是否存在。结果也无非两种状态:“有”或者“没有”。模拟数据表CREATETABLE`user`(`id`bigintNOTNULLCOMMENT'id',`userName`varchar(256)CHAR

springboot集成canal实现同步双写

一.canal服务端canal是阿里巴巴MySQL数据库Binlog的增量订阅&消费组件。基于数据库增量日志解析,提供增量数据订阅&消费。二.基于docker搭建在docker环境中1.执行dockersearchcanal获取到需要下载的canal镜像2.执行dockerpull选择下载的canal镜像3.执行run

K8S之Pod详解

Pod详解一、Pod基础概念1.概念2.在Kubrenetes集群中Pod有如下两种使用方式3.pause容器使得Pod中的所有容器可以共享两种资源4.kubernetes中的pause容器主要为每个容器提供以下功能5.Kubernetes设计这样的Pod概念和特殊组成结构有什么用意6.通常把Pod分为两类二、容器的分

华为云创新中心&黑湖科技:将智能制造进行到底

编辑:阿冒设计:沐由一如去年,第二届828B2B企业节从8月28日-9月15日期间,再一次成为广大企业界关注的焦点。当前,数字技术已经被广泛被融入到产品、服务与流程当中,用以转变客户的业务成果,以及商业与公共服务的传统交付方式,从而为企业在数字化时代的发展提供了新的契机。华为云联合多方生态伙伴共同发起的828B2B企业

CentOS 7 安装Libevent

CentOS7安装Libevent1.下载安装包新版本是libevent-2.1.12-stable.tar.gz。(如果你的系统已经安装了libevent,可以不用安装)官网:http://www.monkey.org/~provos/libevent/2.创建目录#mkdirlibevent-stable3.解压#

【openwrt学习笔记】miniupnpd学习笔记

目录一、参考资料二、upnp基本概念三、miniupnpd3.1参数说明3.1.1configupnp的配置参数表3.1.2configperm_rule许可设置配置参数表3.2windows上使用miniupnpc工具3.3关于开启upnp功能后无法添加端口四、其它知识补充4.1NAT4.1.1NAT概念4.1.2N

无(低)代码开发思路介绍

无代码或者低代码开发的思路,是通过非编程代码,而是基于页面拖拉拽的方式来实现创建web应用的功能。作为程序员我们知道私有云公有云已经实现了基础设施的web方式管理。DEVOPS把代码发布,管理也实现了web方式管理。那么我们很容易能够想到,只要把拖拉拽出来的项目自动化部署到私有云或者公有云中,就可以实现应用的自动化创建

Linux磁盘管理

物理设备的命名规则在linux系统中一切都是文件,硬件设备也不例外。即然是文件,就必须有文件名称。系统内核中的udev设备管理器会自动把硬件名称规范起来,目的是让用户通过设备文件的名字可以看出设备大致的属性以及分区信息等;在linux中常见的设备文件都存放/dev目录下。下表所显示的就是Linux系统中常见的硬件设备的

java版工程管理系统Spring Cloud+Spring Boot+Mybatis实现工程管理系统源码

工程项目管理软件(工程项目管理系统)对建设工程项目管理组织建设、项目策划决策、规划设计、施工建设到竣工交付、总结评估、运维运营,全过程、全方位的对项目进行综合管理工程项目各模块及其功能点清单一、系统管理1、数据字典:实现对数据字典标签的增删改查操作2、编码管理:实现对系统编码的增删改查操作3、用户管理:管理和查看用户角

LeetCode算法心得——和可被 K 整除的子数组(前缀和+HashMap)

大家好,我是晴天学长,同余定理的应用,需要的小伙伴可以关注支持一下哦!后续会继续更新的。1).和可被K整除的子数组题目描述给定一个整数数组A,返回其中元素之和可被K整除的(连续、非空)子数组的数目。示例:输入:A=[4,5,0,-2,-3,1],K=5输出:7解释:有7个子数组满足其元素之和可被K=5整除:[4,5,0

热文推荐