导图社区 人卫第8班《卫生统计学》——第十二章《生存分析》
人卫第8班《卫生统计学》,生存分析这一章与前面的统计分析都不同,引入了时间的概念,需要好好地理解!
编辑于2023-03-03 10:51:42 广东社区模板帮助中心,点此进入>>
第十二章 生存分析
概述
生存数据
在医学研究中,研究者有时除了考虑某事件发生与否,还需考虑发生该结局所经历的时间长短,此时数据兼有时间和结局两种属性,被称为生存数据。
兼具时间+结局两种属性
可能含有删失数据
生存时间分布非正态——非负、右偏
生存分析
这种将事件的出现与否和到达终点所经历的时间结合起来分析的一类统计方方法称为生存分析。
事件的出现与否+经历时间
可处理删失数据
可处理生存时间非正态的问题
本章逻辑
生存分析 (时间+结局)
因变量为:生存时间和生存结局
基本概念与主要内容:生存率、中位生存时间
生存曲线的估计:K-M法(乘积极限法)、寿命表法
统计描述
生存曲线的比较
生存曲线是否相同:对数秩检验
生存状况优劣对比:
生存曲线目测判断
半数生存期比较
相对危险度比较
统计推断
基本概念
终点事件=失效事件=死亡事件
1、是一个广义概念,泛指标志某种处理措施失败或失效的特征事件。
2、一般是在设计阶段根据研究目的来确定。如:
肾上腺皮质癌患者手术后的死亡
白血病患者化疗后的复发
肾移植患者的肾衰竭
接受健康教育戒烟后的青少年复吸烟
接受某种健康保险方式后的中途退保
3、研究者所关心的研究对象的特定结局,如复发、死亡等
生存时间(T)
1、是指从观察起点到终点事件的时间间隔。
2、与生存时间相关的要素:
整个研究过程中保持不变
观察起点(起点事件)
观察终点(终点事件)
时间间隔的度量
3、观察对象的观察起点的设置有两种:
(1)所有观察对象在同一时间点接受治疗
最理想
(2)观察对象在不同时间点接受治疗→更常见
完全数据-删失数据
数据的分类
完全数据
完全数据:在整个研究过程中,随访到了观察对象的终点事件发生的时间,研究者可以获得从起点到终点完整的生存时间,这样的数据称为完全数据。→完全数据提供的是准确的生存时间。
删失数据
删失数据=截尾数据:在整个研究过程中无法确切获得生存时间的数据。
删失数据产生的原因:
失访:由于患者变更联系方式、未继续就诊或拒绝访问等原因,无法继续随访,未能观察到终点事件。
退出:患者死于其他疾病或因其他原因死亡(如死于车祸)而终止观察。
终止:研究结束时,终点事件尚未发生。
无论产生删失数据原因是什么,这类患者的生存时间均定义为从随访开始到发生删失事件所经历的的时间间隔。常在删失数据的右上角标记“+”,表示真实的生存时间长于观察到的时间但是未知。
本章假定删失的发生是随机的,即产生删失的原因与终点事件的发生无关。
生存时间数据的分布特点
根据研究选择相应的度量单位,如年、月、日等
生存时间数据是通过随访收集获得,且往往存在删失数据
非正态分布
因研究不同,生存时间常呈指数分布、Weibull分布、对数正态分布、对数logistic分布、Gamma分布或更为复杂的其他分布。因此需要与之对应的统计方法来分析这类特殊的数据。
生存概率-生存率
死亡概率(q):指某时段开始时存活的个体,在该时段内死亡的可能性。如年死亡概率表示年初尚存人口在今后一年内死亡的可能性。
生存概率(p):某时段开始时存活的个体,到该时段结束时仍然存活的可能性。如年生存概率表示年初尚存人口存活满一年的可能性。显然p=1-q
生存率=累积生存率=生存函数:表示观察对象的生存时间T大于时间t的概率,常用S(t)表示,即S(t)=Pr(T>t)。
生存函数-生存曲线
生存函数
根据生存函数定义,其可用样本数据中生存时间大于t的患者与总患者数的比例来估计。若数据中无删失值,生存函数可用下式估计:
(如数据中有删失值,则还需一些额外的概念辅助计算生存函数,包括死亡概率。)
对于不同单位时间的生存概率pi(i=1,2,3,…,tk),可利用概率乘法原理将pi相乘得到tk时刻生存函数(亦称生存率),即:
生存函数是一个随时间下降的函数
t=0时,生存函数值为1,表示每个患者在接受治疗前处于存活状态。
当t趋于无穷大时,生存函数值趋于0,表示每位患者的生存时间是有限的。
与生存概率的关系:生存概率是单位时间上生存的可能性。生存率是某个时间段(有一个或多个单位时间组成的时间段)生存的可能性,即数个单位时间生存概率的累积结果。如评价肿瘤治疗后3年生存率,是指第1年存活,第2年也存活,直至第3年仍存活的累积概率,而这3年间每1年有不同的生存概率。其关系可用下图标表示:
条件概率的乘法法则
生存曲线:除了计算各时间点的生存率之外,我们还可以使用图示法更为直观地描述生存率随生存时间而变化的过程。以ti为横坐标,各时间点S(ti)为纵坐标,将各个时间点的生存率连接在一起绘制成的连续曲线,称为生存曲线
是用样本画出来的曲线
中位生存时间
中位生存时间:生存函数取值为0.5时对应的生存时间称为中位生存时间。又称中位生存期或半数生存期。本书记为T50,即S(T50)=0.5。它表示50%的个体可以存活到比T50更长时间,通常用于描述生存期的平均水平。
对应的是中位数的概念,数据非正态因此不能用均数来描述
主要内容
描述生存时间的分布特点
通过生存时间和生存结局的数据估计平均存活时间及生存率,绘制生存曲线,根据生存曲线分析其生存特点等。可提供预期治疗价值评估信息
比较生存曲线
通过相应的假设检验方法对不同样本的生存曲线进行比较,以推断各总体的生存状况是否存在差异,比较不同治疗方法预后效果的差异。
分析影响生存状况的因素
通过生存分析模型来探讨影响生存状况的因素,通常以生存时间和结局作为因变量,而将可能的影响因素作为自变量,通过拟合生存分析模型筛选具有统计学意义的生存状况的影响因素。(见第十三章第三节)
生存曲线的估计
用频率去估计概率
概述
1、对于随访资料生存曲线的估计,既可以采用参数法,亦可采用非参数法。
2、如果资料确实服从某种特定的参数分布,参数法法分析对资料内在的特点和规律的表达更为准确。
3、但在医学研究中,大多数生存资料分布是不规则,不确定或未知的,因此,非参数法在生存率的估计中应用更为广泛。常用的有Kaplan-Meier法和寿命表法
方法
Kaplan-Meier法
又称乘积极限法,简称K-M法
适用
用于观察对象数量较少的未分组资料,他能够充分利用每条记录的信息,估计不同生存时间点的生存率。
基本思想
将所有观察对象的生存时间(包括删失数据)由从小到大依次排列,每个时间点进行死亡概率,生存概率和生存率的估计。
生存率及其标准误的计算
图示
计算
1、编号和排序:将生存时间t从小到大排序并编号i,i=1,2,3,…,k。相同的生存时间只取其中一个参加排序;完全数据与删失数据相同时,分别列出,完全数据列在删失数据前面。(如上图中的序号4和序号5)
2、列出各时间点的死亡例数()和删失例数()
注意:删失数据用“+”标注
3、计算期初人数():每一个时间点之前观察到的生存例数,即为期初例数:
期初例数要记得减去删失例数
4、计算各时间点的死亡概率和生存概率():
计算死亡概率时只计算真实的死亡例数,不认为删失数据是死亡
、
(所有删失时间点上的为0,为1)
5、计算各时间点生存率:生存率=上一行的生存率×该行的生存概率。注意:删失数据所对应的死亡例数是0,其生存概率为1,所以删失数据对应时间点的生存率与前一个完全数据时间点的生存率相同。
6、计算生存率的标准误:由于生存率时根据样本资料计算的,存在抽样误差,我们需进一步求得各时间点生存率的标准误,其近似计算公式为:
中位生存时间和生存曲线
中位生存时间的计算
如果样本生存率中有S(ti)=0.5,则中位生存时间T50=ti
插值法
tips:即按比例来算(即一条有斜率的直线的计算方法)
生存曲线
图示
删失数据要标记
删失数据对生存率是没有影响的
特点
1、以生存时间为横坐标,各时间点的生存率为纵坐标,将各个时间点的生存率连接在一起绘制成连续型的曲线称之为生存曲线。
2、未分组资料的生存曲线。称K-M曲线
3、它以水平横线的长短代表一个时点到下一个时点的距离,相邻两个时间点之间的生存率不变,但在右端点处死亡概率即刻改变,生存率降低。
左闭右开区间
4、K-M生存曲线呈阶梯形。随着生存时间的增加,曲线呈下降趋势。如果曲线阶梯陡峭,表现为下降速度快,往往生存期较短。随着时间点的增多,曲线阶梯形不明显
生存率的95%置信区间
求出样本各时点生存率及其标准误后,可用正态近似原理估计某时点总体生存率的置信区间:
固定时点(消除了时间的影响),样本量足够大的时候,生存率是服从近似正态分布的(与总体的率相似)。有时间因素的生存曲线是非正态的
寿命表法
适用
1、样本量较大的随访资料,样本例数较多时的生存资料
2、一般情况下,我们将原始资料按照生存时间分组后再进行分析。此外,许多研究的随访时间是1次/年或1次/月,某些个体的删失发生在两次随访之间,有时不能获得确切生存时间。
3、实际上,寿命表法可以看成是K-M法的一种近似(频数表法)
生存率及其标准误的计算
图示
计算
1、确定分组区间:根据随访时间的长短以及观察例数的多少确定组数和区间宽度。一般每个区间为等宽的半开半闭区间,最后一个区间终点在无穷大处。
2、计算期内死亡数、期内删失数和期初观察人数:同K-M法的计算
3、计算期初校正人数:由于在区间内的删失个体并未观察至区间的终点,区间内的有效人数不是,我们假定个删失个体在该区间内均匀分布,平均每个删失个体观察到半个区间的时间,那么校正人数为:
关注删失数据的处理
4、死亡概率和生存概率的计算:
5、计算生存率
6、计算生存率标准误:
7、可按正态近似原理对总体生存率的置信区间作出估计
8、各时间区间对应的生存率是该区间上限时间点的生存率,如[16,18)生存时间区间的生存率是0.5141,指的是煤工尘肺患者确诊后预测其活过18年的生存率是51.41%,而不是活过16年的生存率。
中位生存时间和生存曲线
中位生存时间的计算
与K-M法一致
如果样本生存率中有S(ti)=0.5,则半数生存期T50等于其区间的上限时间
插值法
生存曲线
图示
特点
1、寿命表法估计生存率可以绘制成连续的折线型生存曲线
2、该曲线为右连续,即寿命表法估计的是时间区间右端点的生存率
3、由于寿命表法一般用于大样本资料,通常在最后一个时间区间仍会有较多的观察例数,故曲线尾部稳定性较K-M法好。
两种生存曲线估计方法的对比
K-M法估计的曲线图为——阶梯型下降
失效事件的发生是确切的,两个相邻的失效时间所构成的时间段内没有发生失效事件,即生存率为1
生存率估计是各个时间段生存概率的乘积
因此两个相邻的失效事件所构成的时间段内生存率没有发生变化,直到下一失效事件的发生而生存率下降
寿命表法估计的曲线图为——折线下降
寿命表法没有确切的死亡时间和失访时间
假定在每个时间段中“死亡发生时间”和“失访发生时间”呈均匀分布
因此在每个时间段中的生存率呈线性变化,故各个组段间生存率用直线连接
生存曲线的比较
概述
1、随访研究中,人们往往关心随访观察的结果和发生结果所经历的时间,我们能够估计出样本的生存率,中位生存时间以及绘制生存曲线,这仅仅是对样本中个体的生存率随生存时间的变化过程的统计描述。
2、有时候我们更关心的是不同样本所代表的总体的生存情况是否存在差异。如评价不同辅助治疗方案的优劣。
3、对数秩检验是比较多组生存曲线的一种常用的非参数检验方法。
对数秩检验(log-rank test)
基本思想
与卡方检验类似
1、假定拟进行比较的不同总体生存函数无差别
2、根据不同生存时间的期初观察人数和理论死亡概率,计算两个或多个比较组的理论死亡数,并与实际观察到的死亡数进行比较。
3、衡量观察数与理论数差别大小的统计量为值,服从自由度为(组数-1)的分布,其检验统计量的计算见式:
统计检验步骤
(样本量较小时为例)
1、采用K-M法估计出两组样本的生存率,绘制生存曲线(直观观察)
2、建立检验假设,确定检验水准。
3、计算检验统计量:
(1)按生存时间将各组资料统一排序
(2)各时间点各组的期初病例数,死亡数和删失数
(3)分别计算辅助化疗组和单纯手术组各时点的理论死亡数
假设两组的生存率是相同的,类似卡方检验
(4)计算统计量
4、确定P值,作出推断
v=组数-1
注意
上述介绍的是log-rank检验的近似法,计算较简便,但结果相比于精确法(软件)较保守
对数秩检验是单因素分析方法,多因素分析用Cox回归分析
其假设检验的基本思想与卡方检验相同,但卡方统计量的计算方式有所不同
卡方检验用于两个或多个总体率(构成比)的比较,不考虑每个研究对象生存时间的长短
Log-rank检验对生存率进行比较时,要求两组生存曲线不能交叉
进一步比较那一组的生存状况更佳
生存状况优劣的比较方法
1、生存曲线目测判断
2、半数生存期比较
3、相对危险度RR比较
相对危险度是因素效应指标,可以反映某因素作用的相对大小,其计算方法为:
式中,A和T为各组全部的观察死亡数和理论死亡数
4、比较某个时间点的两组样本的生存率是否相同
Log-rank检验比较的是总体生存率曲线是否相同,而不是某个时间点处的生存率差异
按照两个率的正态近似法进行分析:
生存曲线的log-rank检验图