导图社区 人卫第8版《卫生统计学》——第十三章 《多重回归分析简介》
这一章比较难,但是考得不多,主要是了解回归模型的建立,适用条件,以及各种系数的流行病学意义!
编辑于2023-03-07 21:26:02 广东社区模板帮助中心,点此进入>>
第十三章 多重回归分析简介
概述
1、公共卫生和医学研究常常分析健康结局的影响因素,由于生命现象的复杂性,往往需要同时考虑多个因素(即多个解释变量)对结局指标(即反应变量)的影响。
2、如何从诸多的影响因素中,筛选出有统计学意义的变量,并估计某解释变量在其他解释变量同时存在时对反应变量的作用,这是公共卫生和医学研究的重要任务。
本章逻辑
直线回归分析 (单个解释变量)
多重回归分析 (多个解释变量)
多重线性回归:反应变量为定量变量(正态)
偏回归系数βi
Logistic回归:反应变量为分类变量
优势比OR
Cox回归:反应变量为风险函数,即多因素的生存分析
风险比RR
多重线性回归
概述
1、多重线性回归是研究一个连续型反应变量和多个解释变量间线性关系的统计学分析方法。
2、利用多重线性回归可以解决的问题是:
某个解释变量对反应变量是否有作用及每个解释变量对反应变量作用的大小
反应变量与所有解释变量之间的关系有多强
结合专业知识确定某个解释变量是否为混杂因素等
模型
1、多重线性回归分析的基本目的是用若干解释变量x1,x2,…,xp的数值估计反应变量y的平均水平。其数学模型如下:
μy表示模型中解释变量取值固定时反应变量y的总体均数
p为解释变量个数
β0为常数项
为解释变量的偏回归系数
2、偏回归系数:为解释变量的偏回归系数,表示当方程中其他解释变量保持不变时,解释变量变化一个单位,反应变量y平均变化个单位,的符号也可用于判断解释变量对反应变量影响的方向。
3、由样本估计得到的多重线性回归方程如下:
是反应变量y总体均数的估计值
bj是βj的估计值
4、因为p个解释变量都具有各自的计量单位以及不同的变异程度,所以不能直接利用偏回归系数的数值大小比较方程中各个解释变量对反应变量y影响大小,为此,可首先将原始观测数据进行标准化,即
解释变量的标准化
5、 然后用标准化的数据拟合回归模型,此时得到的回归系数称为标准化偏回归系数。标准化偏回归系数绝对值越大的解释变量在数值上对反应变量y的影响越大。标准化偏回归系数与普通偏回归系数 的关系式为:
偏回归系数的标准化
参数估计及假设检验
参数估计
1、多重线性回归采用最小二乘法估计未知参数,即使得反应变量的观测值y和估计值之间的残差平方和取最小值时的b作为相应β的估计值
2、当模型只有一个解释变量时,回归的结果为二维平面上在解释变量取值范围内的一条线段;而有两个解释变量时,回归的结果为解释变量取值范围内的三维空间的一个平面;有更多解释变量时,回归的结果则是在三维以上空间的超平面,无法用图形直观表达
3、最小二乘法的含义就是使得各点与回归平面的竖直距离(以反应变量观测值与估计值的差值平方表示)合计达到最小,合计最小也就对应于平均最小,所以利用最小二乘法就可以直观上找到与数据点平均距离最近接近的拟合模型
4、虽然多重回归参数估计的原理和方法与简单回归分析相同,但是随着解释变量个数的增加,其计算量变得相当大,需要利用统计软件来完成。
假设检验
回归模型的方差分析
回归方程是否有统计学意义
背景
1、计算获得回归系数的样本估计值之后,需要进一步检验是否可以拒绝H0:β1=β2=β3=……=0,以确定回归方程是否有统计学意义。
2、多重回归的统计推断具有与简单线性回归相同的前提条件,即线性、独立、正态和等方差。也就是说当反应变量表达成式如下时,各误差项均服从互相独立、方差相等、均数为0的条件正态分布。
3、需要注意的是,上述正态分布的要求,以解释变量取固定值为条件,而不是指整个反应变量的边际分布,所以上述的前提条件在进行回归分析之前难以检验,通常是在对既定回归模型分析之后通过对残差的回归诊断来判断是否符合前提条件。
4、在以上假设条件下,多重回归的假设检验通常采用方差分析。
方差分析
多重线性回归方差分析的各部分变异来源的含义和简单线性回归相同
SS总表示没有考虑x对y的影响时,y的观测值的总变异
自由度:n-1
SS回是回归模型对总变异的贡献,自由度等于解释变量个数。
自由度:m
SS残是回归关系未能解释y的变异部分
自由度:n-m-1
与直线回归模型(第十一章)的变异分解是一致的,唯一不同的是SS回归的自由度有变化
偏回归系数的t检验
判断某个解释变量在数据中是否有作用
1、在回归方程具有统计学意义的情况下,检验某个总体偏回归系数是否等于零,以判断某个解释变量在数据中是否有作用。
2、如欲检验:H0:βj=0,H1:βj≠0,类似于简单线性回归的情形,其检验统计量为:
(分母为第j个偏回归系数的标准误)
3、若在三个变量中,x1和x2的偏回归系数具有统计学意义,x3的偏回归系数无统计学意义,那么其意义是:在考虑x3的前提下,x1和x2对y有作用。标准化偏回归系数提示每个解释变量对反应变量作用的大小
决定系数r²
1、和简单直线回归一样,回归平方和在总平方和中所占百分比称为决定系数,记作
2、决定系数取值范围为0≤≤1,越接近1,表示所选用的线性回归模型很好的拟合了当前的样本数据。
3、基于决定系数对回归方程进行拟合优度的假设检验等价于对回归方程的方差分析。
(p为回归模型中解释变量的个数,n为样本含量)
4、决定系数的平方根称为复相关系数,表示变量y与p个解释变量线性相关程度。可以证明,复相关系数也等于y与其回归估计值的简单相关系数。
复相关系数不能表示方向,可以用βj或标准化的偏回归系数来表示方向
注意区分相关系数r:表示两个变量之间线性关系的方向和密切程度
解释变量的筛选
背景
1、多重回归方程中,p个解释变量是研究者预先确定的
有时所拟合方程经假设检验不成立
或者虽然方程成立,但方程中有些变量经检验无统计学意义
或者希望从众多变量中挑选出对反应变量有统计学意义的解释变量。
2、这些都需要通过对解释变量的筛选,建立“最优回归方程”。
3、最优回归方程
(1)对反应变量y有统计学意义的解释变量,全部入选回归方程。
(2)对反应变量y无统计学意义的解释变量,都未入选方程。
方法
1、最优自己回归法
就是在全部解释变量所有可能组合的子集回归方程中,挑选最优者。这样所选结果最优,但计算量极大。需要计算2^p-1次
2、向后剔除法
先建立一个包含全部解释变量的回归方程,然后按照某种规则(如P值最大且无统计学意义)每次剔除一个解释变量,直至不能剔除时为止。
3、向前引入法
回归方程按照某种规则(如P值最小且有统计学意义)每次引入一个解释变量,由少到多,直到无可引入的解释变量为止。
4、逐步筛选法
取上述的第二第三两种方法的优点,在向前引入每一个新解释变量之后,都重新检验前面已选入的解释变量有无继续保留方程中的价值。引入和剔除交替进行,直到既没有具有统计学意义的新变量可引入,也无失去其统计学意义的解释变量可剔出方程为止
用途及注意事项
用途
影响因素分析
变量筛选、偏回归系数、标准偏回归系数的对应的用途
1、多重线性回归在医学科研中主要用于观察性研究,适用于反应变量为连续型定量变量的情形
2、通过对每个变量的偏回归系数的检验及变量的筛选,可以获得影响反应变量所有的因素。
3、校正或平衡其他因素后,可以对某单个因素的作用进行解释。
4、利用偏回归系数可以得到每个因素的作用大小及方向
5、利用标准偏回归系数可以比较各因素对反应变量相对贡献的大小。
估计与预测
1、估计与预测是回归方程的重要用途之一,基于建立的最优回归方程,确定各解释变量和反应变量的数量关系,根据较易测得的解释变量来推算不易测得的反应变量。
2、回归方程得到的值是对应于一组给定解释变量x观测值时的y的均值,据此可以估计置信区间和个体值预测区间。
3、反应变量平均值的置信区间比个体值的预测区间更窄,实际指导意义更大。
注意事项
多重共线性问题
1、多重共线性是对多个解释变量进行回归分析时的可能普遍存在的一个问题。
2、若解释变量之间高度相关,则可能产生多重共线性
3、例如:有两个预测人体高度的变量,变量x1和变量x2均为体重,前者的单位为千克,后者的单位为克,显然,x1和x2的相关系数为1,这意味着两个预测变量实际上是1个变量,它们为预测身高y的回归方程都提供相同的预测信息,这种现象就称为解释变量的共线性。
xi与xj之间有线性关系,如x1=ax2
4、共线性的存在使得我们无法真实的判断这两个变量对反应变量的预测能力。
5、在实际的回归应用中,共线性的问题并不少见。当一个分析中存在很多解释变量时,很难一眼发现变量间的共线性,需要用专门的统计量来分析判断,具体方法可参考相关文献。
6、共线性对回归的影响:
回归系数的抽样误差即标准误增大,使得有统计学意义的变量变得无意
使回归系数估计值大小发生改变,甚至使符号发生改变
7、利用逐步筛选方法筛选解释变量,可在一定程度上避免多重共线性问题。
解释变量间的交互作用
1、当一个回归模型中至少有2个解释变量时,变量间即可能存在交互效应。
2、若x1反应变量平均水平的效应不依赖于x2的水平,而且相应地x2的效应也不依赖于x1的水平,则两个解释变量之间无交互效应或相加效应。
3、多重线性回归模型的一般表达式为解释变量之间无交互作用形式。
4、若一个解释变量的效应依赖于另一个解释变量的水平,即一个解释变量与反应变量的关系随着另一个解释变量取值的改变而改变,则称这两个解释变量间存在交互作用,回归模型表示为:
βi与xj之间有关系
5、考察两个解释变量是否存在互作用的最直接方法就是在回归模型中引入可能存在交互作用的两个解释变量的乘积项,有时称为linear-by-linear交互作用项,然后检验该乘积项是否有统计学意义。
6、应注意,引入变量间交互作用时,各变量的主效应必须纳入模型中。
通径分析
1、多重回归分析的主要目的是解决用多个解释变量对一个连续型反应变量进行预测的问题。
2、但是当解释变量个数较多时,相互间的关系变得十分复杂。而且有些解释变量并不是直接影响反应变量,而是通过对其他解释变量的作用间接影响反应变量。处理这种具有较为复杂变量关系的统计学方法可以选择通径分析。
应用条件
与直线回归模型类似
反应变量为定量变量,且满足以下条件(LINE)
Y与X1、X2、……、Xm之间具有线性关系(Linear)
各例观测值Yi(i=1,2,……,n)相互独立(Independence)
残差ei~N(0,σ²),即正态性(Normal distribution)
var(ei)=σ²5,即方差齐性。(Equal variance)
都是针对y的要求
若反应变量为分类变量,且解释变量与反应变量不呈线性关系时,则不能用多重线性回归模型。可用其他多重回归模型,如logistic回归模型
logistic回归
概述
1、多重线性回归模型要求反应变量是连续型的正态分布变量,且解释变量与反应变量呈线性关系
2、当反应变量是分类变量,且解释变量与反应变量不成线性关系时,就不能满足多重线性回归模型的适用条件。此时,处理该类数据常用logistic回归模型
3、logistic回归分析是研究二分类或多分类反应变量与某些影响因素之间关系的一种多重回归分析方法。
4、在疾病的病因学研究中,经常需要分析疾病的发生与各危险因素之间的定量关系。比如,研究食管癌的发生与吸烟,饮酒,不良饮食习惯等危险因素的关系。如果采用多重线性回归分析,由于反应变量为二分类变量,不满足正态分布和方差齐等应用条件,若强行使用线性回归分析,其预测值可能会大于1或小于0而无法解释。
5、在流行病学研究中,虽然可以用Mantel-Haenszel分层分析方法分析多个因素的混杂作用。但这种经典方法有其局限性,随着混杂因素的增多,分层越来越细,致使每层内的据越来越少,使相对危险度的估计产生困难。logistic回归模型很好地解决了上述问题
模型
二分类变量logistic回归
基本形式
1、logistic回归模型的反应变量y为二分类变量,通常编码为0,1,以y=1代表研究者关注的结局,以y=0代表与之对立或相反的结局。假设对反应变量y可能的影响因素(即解释变量)有p个,记为x1,x2,…,xp。在p个解释变量作用下,y=1发生的概率记为π,y=0的概率记为1-π。
2、欲建立π与x1,x2,…,xp回归关系,因π为概率,其取值区间为[0,1],而x1~xp的线性组合(β0+β1x1+β2x2+…+βpxp)取值区间在(-∞,∞)间变化,两者难以对等起来。因此,对π做logit变换:
3、经logit变换后的logit(π)的取值区间转换为(-∞,∞),可以与影响因素的线性组合的取值区间对等。时可建立下面方程:
logistic回归的本质其实就是经过数据转换后的多重线性回归的表达
(β0为常数项,β1~βp为logistic回归系数)
4、经代数转换,上述模型还可以表达为:
exp表示以e为底的指数,上式可用来估计或预测当β1~βp取某一组确定数值时,y=1的概率π以及y=0的概率1-π。
logistic回归系数的统计学意义
1、将logit(π)视为一个整体,回归系数的解释类似多重线性回归,回归系数βi为:其他解释变量保持不变时,解释变量xi每改变一个单位,logit(π)平均改变量
2、logistic回归模型的回归系数具有特殊含义,其解释变量可以流行病学中的优势比(OR)联系起来,因而得到了更广泛的应用。
3、事件A出现的概率与非事件A()概率之比称为优势(odds):,因此logistic回归模型亦可表达为:
4、两个优势之比为OR,又称比值比,它可以反映流行病学的暴露与结局的关联强度。因此,logistic回归系数可以解释为:
其他解释变量不变时,暴露于某影响因素xi,相对于非暴露遇该影响因素的OR值的自然对数;
或者调整(控制)其他解释变量的影响后,解释变量xi每增加一个单位,得到的优势比的自然对数。
当解释变量仅有两个取值0和1,通常定义某影响因素的暴露为1,非暴露为0
关联性
当β=0时,OR=1,暴露与结局间不存在关联。
当β≠0,OR≠1,暴露与结局间存在关联。
研究中
当解释变量xi的回归系数βi>0时,ORi>1,提示xi为危险因素(增加结局发生的风险)
βi<0时,ORi<1,提示xi为保护因素(降低结局发生的风险。)
与多重线性回归的偏回归系数的解释是一样的
参数估计及假设检验
参数估计
1、logistic回归模型中的回归参数,需要通过样本数据进行估计,通常采用极大似然估计(MLE)
2、极大似然估计的基本思想是,求解出得到样本结局的可能性最大的b0,b1,…,bp值,样本自然函数为:
(L表示自然函数,表示连乘,πi表示第i例观察对象处于相应暴露条件下时阳性结果(yi=1)发生的概率。对自然函数取对数后,用Newton-Raphson迭代方法得出参数估计值及其标准误。
OR值的估计与解释
当然的样本含量n较大时,βi的抽样分布近似服从正态分布,优势比ORi的100(1-α)%置信区间为:
假设检验
了解
logistic回归模型的假设检验
1、检验模型中所有解释变量的线性组合是否与logit(π)或所研究事件的对数优势比存在线性关系。
2、检验的方法有似然比检验,计分检验(score检验)和Wald检验,所有的检验结果均可利用统计软件获得。
3、(这里介绍常用的似然比检验)检验假设为:H0:β1=β2=……=βp=0,即所有解释变量的偏回归系数均为0。似然比检验统计量G为:
【L1为包含所有解释变量的似然函数。L0为仅包含常数项的似然函数,G统计量服从自由度为m(解释变量的个数)的卡方分布。】
logistic回归系数的假设检验
1、除了对logistic回归模型整体的检验外,还须对模型中的每一个解释变量的回归系数进行检验,判断每一个解释变量是否对模型有贡献。
2、常用的检验方法为Wald检验,检验统计量Wald服从自由度为1的卡方分布,计算公式为:
用途及注意事项
用途
与多重线性类似
影响因素分析
1、通过回归系数与优势比,logistic回归模型可以对影响事件结局的因素进行多因素分析,从多个影响因素中筛选出危险或保护因素。
2、在观察性研究中,某一事件结局往往受社会环境、生态环境、个体的生理和心理因素等多方面因素的影响,因素间亦可能存在交互作用。因此,在设计阶段就需要根据研究目的,专业背景等拟定研究假设和关注的主要问题,收集和整理可能有影响的解释变量,按logistic回归分析的基本步骤,采用不同的方法筛选解释变量,剔除无统计学意义的变量,保证模型相对较优,通过回归系数和优势比情况筛选相应的危险因素。
预测
1、logistic回归模型是一个概率型模型,其重要应用就是预测与判别。
2、实际应用是通过假设检验,确定回归模型中解释变量间的关系,并且回归模型具有较好的拟合优度,当给出解释变量数值后可通过建立的logistic回归模型计算某事件发生的概率,对结局做出概率性的预测和判断。
3、对于队列研究,如果模型拟合优度较好,则给定相应解释变量的数值后,可以预测个体发生结局的概率。
4、有时也可根据概率大小判别个体的分类结局。
注意事项
应用条件
1、建立logistic回归模型时,要求研究对象间彼此独立,即个体间具有独立性。
2、但研究个体间存在聚集性特征时,可考虑采用广义估计方程或多水平模型等更复杂的方法进行分析。例如,在大型卫生服务调查中国家卫生服务调查是以家庭为单位的整群抽样研究,同一个家庭中的个体之间受遗传因素,环境因素,饮食习惯等影响不独立,家庭成员的观测指标间存在一定的内部关联性,因此不能采用单水平logistic回归分析。
3、logistic回归模型的数据类型
反应变量可为二分类,无序多分类或有序分类变量。
解释变量可以是任意类型,如定量变量,二分类变量,无序多分类变量和有序分类变量等
4、当反应变量为多分类时,可采用多分类logistic回归分析。
总结
独立
ln(π/1-π)与x有线性
模型的拟合效果评价
1、logistic回归模型的假设检验只回答模型及回归系数是否具有统计学意义,不能说明模型的拟合效果。
2、评价建立的logistic回归模型的拟合效果,既评价模型预测值和观测值的一致性,需要进行拟合优度检验。
3、常用评价模型拟合优度的指标主要有、偏差统计量等
4、对于含有连续型解释变量的logistic回归模型,应进行H-L拟合优度检验
Cox回归
针对生存分析的多重线性回归
概述
1、第12章生存分析介绍了针对生存数据的几种分析方法,但仅用于单因素分析。
2、但在公共卫生和医学研究中,观察对象生时间长短往往受到多个因素的影响。例如,研究肿瘤患者生存时间与治疗措施的关系,患者生存时间不仅与治疗措施有关,还受病人的年龄,病情,心理,环境等因素的影响。由于生存数据的分布往往不服从正态分布(大多为正偏态分布),有时甚至不知道它的分布类型,这就不能采用多重线性回归方法进行分析。本节介绍的Cox比例风险回归模型,可以分析多个因素对生存时间的影响,而且允许有删失数据的存在,这是生存分析中最重要的多因素分析方法。
3、风险函数h(t,x)与生存函数S(t,x)之间是一一对应的,可以相互转换。生存函数难以用回归模型分析,因此常用风险函数进行分析
生存分析是以生存结局和生存时间为反应变量的,不是以生存率为反应变量
模型
基本概念
1、在第12章中,生存函数S(t)定义中未引入解释变量信息,但在现实中,生存时间往往受到若干因素的影响,所以在本章中,我们将研究协变量(解释变量)x与观察结果即生存函数之间的关系,此时生存函数的表达式为S(t,x)。
2、由于生存数据中包含有删失数据,用一般的回归分析难以解决上述问题。因为生存函数难以用回归模型加以分析,我们更倾向于对风险函数进行回归分析。函数是t时刻存活的个体在t时刻的瞬时死亡风险。记为h(t),其描述了某个体的瞬时死亡风险随时间变化的情况。
3、不同特征的人群在不同时刻的风险率函数不同,通常将风险率函数表达为基准风险率函数与相应协变量函数的乘积,即
h(t,x)表示t时刻的风险函数。
h0(t)表示t时刻的基准风险率函数。即t时刻所有的协变量取值为0时的风险率函数。
f(x)为协变量函数
基本形式
1、Cox回归模型的基本形式为:
h(t,x)表示具有协变量x的个体在t时刻的风险率,又称为瞬时死亡率。
协变量与解释变量(自变量)类似
h0(t)为基准风险率,即xp均为0时的风险率
时间的影响
β为解释变量的偏回归系数
解释变量的影响
2、式中右侧可分为两部分:
h0(t)分布无明确的假定,一般也是无法估计的,这是非参数部分。
另一部分是参数部分,其参数是可以通过样本的实际观察值来估计的。
因此回归模型又称为半参数模型。
3、上式可以转换为:
4、因此,Cox回归模型与一般的回归分析不同,协变量对生存时间的影响是通过风险函数和基准风险函数的比值反映的。其中的风险函数和基准函数是未知的。在完成参数估计的情况下,可对基准风险函数和风险函数做出估计。并可计算每一个时刻的生存率。
假定条件
比例风险假定
1、危险因素的作用不随时间的变化而变化。即h(t,x)/h(t)不随时间变化而变化。
2、因此应注意Cox回归模型要求风险函数与基准函数成比例。
对数线性假定
模型中的协变量应与对数风险比成线性关系。
ln[h(t,x)/h0(t)]与xi之间有线性关系
Cox回归模型结果及解释
风险比RR
1、Cox回归模型的风险函数中,为风险比的自然对数,为解释变量的变化量与相应回归系数的线性组合。
2、其中βj实际意义:在其他解释变量不变的条件下,变量xj每增加一个单位所引起的风险比的自然对数。即:
βj越大,表示该因素的作用越强
3、βj的值
当βj>0时,RRj>1,说明xj增加时,风险函数增加,即xi为危险因素
当βj<0时,RRj<1,说明xj增加时,风险函数下降,即xi为保护因素
当βj=0时,RRj=1,说明xj增加时,风险函数不变,即xi为无关因素
预后指数PI
1、Cox回归模型的风险函数中,β1x1+β2x2+…+βpxp为解释变量的变化量与相应回归系数的线性组合,变量的线性组合取值越大。则风险函数h(t,x)越大,越后越差,线性组合的取值称为预后指数。
Cox回归模型中是没有β0这一个常数项的
2、按预后指数的若干分位数将观察对象分成若干组,如低危组,中危组和高危组,对制定合理的治疗方案,正确指导病人的治疗,提高生存率有指导意义。
生存率的估计
可以通过风险函数来求解其生存率
1、具有解释变量x1,x2,……,xp的个体在t时刻的生存率可由下式估计:
2、式中为基准生存率,可采用下式计算:
变量筛选
Cox回归变量筛选方法类似于多重线性回归和logistic回归,主要有向前引入法、向后剔除法和逐步引入-剔除法,检验水准α可0.1或0.15(变量数较少或探索性研究)、0.05或0.01(变量数较多或证实性研究)等
参数估计及假设检验
参数估计
1、Cox回归模型中,回归系数的估计需借助偏似然理论。用极大似然估计方法得到的。
2、该估计的最大优点是:
不需要确定基准风险函数h0(t)的形式就能估计回归系数。
另一特性是估计结果仅与生存时间的排序有关,而不是生存时间的数值大小,这意味着生存时间的单调变换,如对生存时间加一个常数、乘以一个常数或取对数,都不会改变回归系数的估计值。
3、回归系数的估计值bj,相应的标准差Sbj,某一解释变量的RR的95%置信区间估计公式:
4、若解释变量的度量衡单位或数量级不同,可通过标准化回归系数比较各变量的作用大小。
假设检验
回归系数的假设检验方法类似于logistics回归,有似然比检验、Wald检验和score检验,检验统计量均服从卡方分布,自由度为模型中待检验的参数个数(p),上述三种假设检验方法均可用于对总模型的检验。
单个回归系数的检验常采用Wald检验。
用途与注意事项
用途
影响因素分析
1、Cox回归随着解释变量的增加会变得比较复杂,确定与生存状况相关的变量及变量的筛选方法同多重线性回归以及logistic回归一样,既可以筛选有统计学意义的变量,也可以分析变量间的交互作用。
2、Cox回归中影响结局的有些变量值是固定的,如人群性别,但大多数变量的值是随时间变化而变化,Cox回归模型可采取其他方式灵活处理这些依赖于时间的解释变量。
预测
1、Cox回归模型在评估变量(因素)和结局之间的关系以及这些关系的统计学意义时,RR及RR的95%置信区间是这些关系效应大小的估计
2、当给出解释变量数值后,可通过建立的Cox回归模型计算生存曲线,预测个体疾病发生风险。
注意事项
1、Cox模型的基本假设是比例风险假定,只有满足该假定前提下基于此模型的析预测才是可靠有效的。
2、检查某解释变量是否满足比例风险假定,最简单的方法是观察按该变量分组的Kaplan-Meier生存曲线,若生存曲线明显交叉,提示不满足比例风险假定,
3、图形法具有一定的主观性,但由于图形简便、直观,实际中很常用
总结
比例风险假定
对数线性假定
个体具有独立性