导图社区 生存分析(204的秘密)
风险(阳性事件出现的速度)越快,生存时间越短,阳性率越高生存率越低。风险、生存时间、生存率具有高度关联性。
编辑于2023-01-09 20:13:23 广东生存分析
 主要包括三个变量“分组变量”,“时间变量”,“是否删失(即是否出现阳性终点)”
基本概念
生存分析:一种通过计算研究对出现阳性事件的时间和速率,描述研究对象生存过程、比较生存过程差异性的方法。两者高度关联:速度越快,时间越短
阳性事件、失效事件(failure event)、转归结局:反映随访对象健康的阳性结局
生存时间(survival time):狭义;患某病的患者从发病到死亡所经历的时间跨度。广义;从某种起始事件到达某种终点事件所经历的时间跨度。医学研究角度;从研究对象纳入随访开始到达阳性终点所经历的时间跨度。
生存时间往往存在截尾值(censored value/删失值/不完全生存时间):有的研究对象终止随访不是由于阳性事件发生,而是:中途失访、死于其他原因、随访截止;用“+”表示(阴性事件)
中位生存时间(median survival time/半数生存期):表示恰有50%的个体存活的时间,即生存率为50%时对应的生存时间,是描述集中趋势的指标。
死亡速度(阳性事件发生速度)
生存率 (survival rate/累计生存率):指某个观察对象活过t时刻的概率。根据要求可以是缓解率、有效率等。
风险(阳性事件出现的速度)越快,生存时间越短,阳性率越高生存率越低。风险、生存时间、生存率具有高度关联性。
生存分析的基本方法
应用场合:随访研究(实验性研究/队列研究) 不同的生存分析内容,有不同的统计分析策略: 1. 描述生存过程方面,一般采用经典的寿命表法或者 或者Kaplan-Meier法来计算生存率、计算中位生存时间、并且用生存曲线的方式来描述生存过程 2.比较生存过程方面,一般采用logRank或者广义秩和检验的方法开展生存时间分布的组间差异性 3.探讨影响生存时间(生存速度)的影响因素、预测生存概率方面,最常用也是最经典的便是Cox回归分析。  总得来,根据研究目的,生存分析的研究内容可以分为以下4点: 描述生存过程,计算生存时间、计算生存率(或者死亡率)、计算死亡速度 比较生存过程,比较生存时间、比较生存率(或者死亡率)、比较死亡速度 探讨影响生存时间(生存速度)的影响因素 预测生存概率 
描述:Kaplan-Meier
比较:LogRank /Breslow
软件操作
 ①时间:放入生存时间;因子:放入分组变量;状态:放入结局变量,并定义事件。在定义事件中,软件要求作者指标,本研究阳性事件赋值。一般情况下,数据库构建针对生存结局变量,一般设定阳性事件赋值为1,因为删失而未观察到阳性结局者赋值为0。因此“定义事件”一般设定“单值”为1 。 ②因子:放入分组变量,也就是处理因素或者暴露因素 ③比较因子:即开展多条生存曲线的统计学比较,常见的方法包括秩的对数(LogRank)和布雷斯洛(Breslow)检验 
根据生存分析函数(survival functions)曲线,观察早期还是晚期变化大小,选择不同方式比较

评价:cox回归
与logistic回归函数相似,cox回归也会计算出一个关联性指标风险比HR,来分析自变量和因变量的关联性。这是一种相对危险度(RR值)指标。 软件的操作: 结果分析: Omnibus tests : 第一个显著性<0.05,表明模型总体有效; 与同类型的cox回归比较中 -2倍对数似然值越小说明模型更好
基本定义
 主要探讨终点事件发生速度有关的因素。通俗来说,它可以探讨,到底哪类群体的“死亡”速度更快、到底什么因素影响了“死亡”速度。 我们可以从死亡速度的角度进行分析。根据生存曲线,可以得知不同组的“死亡”速度,即疾病进展速度是不同的,从而造成生存率变化趋势不同。  如果形成Cox回归,那就是:  这是风险函数h(t)与性别x的关系。通过这个公式,可以分别求男性的死亡速度h(t)和女性的死亡速度h(t)。 对于性别与疾病进展速度的关系,我们最想知道,女性相对于男性,“死亡”速度升高了还是降低了?升高了多少倍?降低了多少比例?  女性和男性相比,对结局的直接影响便是β,它含义是,X从男性变化到女性对结局的影响程度。 但这种影响并非是“死亡”速度的影响,因为死亡数和性别没有直接的线性关系。实际上,我可以分别带入男性和女性数据库赋值(男性=1,女性=2)来看看两者的关系。  从这一结果可以看出,女性的死亡速度h(t)和男性的死亡速度h(t)比值,它不等于β,而是等于自然指数e的β次方,e^β即EXP(β)。我们可以构建Cox回归方程,计算出β=-0.784,则EXP(β)=0.456,也就是女性相对男性,死亡速度总体将降低54.4%。  因此通过构建风险函数有关的Cox模型,可以探讨和比较不同组别对风险函数值的影响,利用β和XP(β)分析研究因素的相对影响。β值绝对值越大,EXP(β)越远离1,说明相对作用越大。  其中,EXP(β)直接反应了死亡速度的相对大小。 当EXP(β)=1,说明两组人 群“死亡”速度相当; 当EXP(β)>1,且值越大,说明女性的风险越大, 当EXP(β)<1,且值越小,说女性的“死亡”风险越小。 当EXP(β)=2,说明女性死亡速度是男性的2倍;当EXP(β)=0.5,说明女性死亡速度是男性的一半。 EXP(β),我们称之为风险函数值比值,简称风险比,HR;它是两个率之比,属于相对危险度RR值的一种(关于相对危险度,可以了解前文:队列研究的基本统计分析策略)。 HR值大于1,提示暴露是阳性事件发生的促进因素; HR值小于1,提示暴露是阳性事件发生的阻碍因素; HR值等于1,提示暴露对阳性事件的发生无影响。 HR值虽然意思与之前介绍过的RR值略有不同(队列研究的基本统计分析策略),但意义相同。两者广义上统称为相对危险度。它们均反映自变量对阳性结局的影响程度,表示的是暴露相对于对照(干预相对于对照)对阳性事件发生造成的影响。它们都能直观地表达为影响的倍数或者比例。比如HR或者RR =2,说明暴露组相对对照组,阳性事件发生风险增加1倍。 HR、RR与OR值在解释上存在着不同,OR值不能直接表达阳性事件发生风险的倍数与比例,它值接近于RR值,但不等于RR。
软件操作
 ①时间:放入生存时间;因子:放入分组变量;状态:放入结局变量,并定义事件。在定义事件中,软件要求作者指标,本研究阳性事件赋值。一般情况下,数据库构建针对生存结局变量,一般设定阳性事件赋值为1,因为删失而未观察到阳性结局者赋值为0。因此“定义事件”一般设定“单值”为1 。  ②因子:放入自变量,也就是处理因素或者暴露因素 ③选项:增加EXP(B)即HR值的95%置信区间。  (1)总体效果评价 Cox统计分析首先是模型的总体评价,模型的总体评价包括计算-2倍对数似然值(-2 log likelihood,-2LL)。-2倍对数似然是模型评价重要的指标,该值越小越好,可以用于不同模型评价效果。似然比检验即Omnibus Tests ,是对模型的总的全局检验,当P值小于0.05,则说明模型总体具有统计学意义。本题 -2LL= 182.02,模型总体检验P <0.001。  (2)Cox回归的主要结果:HR、P值和置信区间 纳入案例的自变量进行回归分析,SPSS给出模型的回归系数(b值)、标准误(S.E.)、检验统计量Wald 卡方值(瓦尔德)、自由度,显著性(P值)、EXP(B)(HR值)及95%CI可信区间。根据结果可以发现,手术年龄、有无术中放化疗(trt)、TNM分期对患者生存情况的影响具有统计学差异(P <0.05)。 值得注意的是,第一,本结果的HR值是针对研究在统计分析所设定的阳性事件。若未按照研究意图准确设置,结果可能相反;第二,解释自变量的影响时必须要结合数据库变量赋值或者或者对分类变量对照的设定。 比如"有无术中放化疗",在SPSS分析前,我已经把它第一组(数据库赋值较小组)设置为对照(0=无放疗,1=有放疗),则"有无术中放化疗"的HR=0.302意思是有放疗相对于无放疗,生存风险下降70%(1-0.302)。 但是对于性别,事先未进行设定,那么分析结果默认以数据库中变量赋值较低者为对照(男性=0,女=1,男性为对照),说明女性风险相当于男性的52.3%,不过没有统计学意义。 而对于定量数据的影响,一般表达为自变量每改变一个单位,因变量改变b个单位。比如年龄,HR值则解释为年龄每增加一岁,改变了0.059个单位,而风险增加6.1%(1.061-1)。  纳入性别、术中放疗、占位处、腹膜转移情况、分期、胰胆管浸润程度变量,构建多因素COX比例风险模型。结果发现:术中放疗较无术中放疗,对生存时间的影响具有统计学意义(HR=0.30,95%CI 0.10-0.92, P=0.035);四期病人相对三期病人,对生存时间的影响具有统计学意义(HR=3.59,95%CI 1.46-8.93, P=0.006);手术时年龄对生存时间的影响有统计学意义(HR=1.06,95%CI 1.03-1.10, P=0.001)。其他变量对生存时间的影响无统计学意义(P>0.05)。 
结果分析
 规范文字:结果表明,A疗法(中位生存时间32.0天 95%CI 20.3-43.7)、B疗法(中位生存时间99.0天 95%CI 52.1-145.9)、C疗法(中位生存时间48.0天 95%CI 0.0-131.6)存在着统计学差异(LogRank P=0.038)。 统计图:一般生存分析将结合生存曲线图来进行说明,且生存曲线图最好标注中位生存时间、P值甚至是HR值。如此一以来,作者阅读生存曲线图即可以得到关于生存率、时间和速度的所有信息。  Y轴50%生存率对应的X轴时间为各条曲线的中位生存时间。可以看出来,时间长短上,A疗法<C疗法<B疗法,这是三种方法死亡速度不一致造成。很明显,三者死亡率均呈下降趋势,早期下降较快,后期趋于平稳;三者死亡率下降速度不一致,A疗法(代表蓝色曲线)生存率下降较快,死亡速度较快,因此生存时间也相对较短。 (1)生存率计算 SPSS软件基于Kaplan-Meier法,针对不同分组,比如A、B、C疗法,计算随访期间不同时点的生存率。Kaplan-Meier法根据每一个时间段的生存概率相乘得到累计生存率。因此在生存率表中,我们可以看到,当研究对象出现终点事件后,该时刻生存率发生改变;若研究对象删失,则生存率不发生改变(SPSS分析结果缺省)。 比如,我们想知道第20天A组人群的生存率。通过下表可以发现,第20天患者结局是删失,生存率缺省,那么可以观察前一时间段(13天)的生存率,它与第20天一致,即72.7%。而第28天为什么生存率缺省呢?因为同时两个28天的“恶化”,所以看下一行28天的63.0%即可。  (2)中位生存时间计算 SPSS 同时给出生存时间的均数和中位数。不过生存分析一般只关注中位生存时间即可,所以可忽略下表的平均值。SPSS给出不同组和总人群的中位生存时间及其95%置信区间。