导图社区 偏相关分析
这是一篇关于偏相关分析的思维导图,包括:直线回归的概念、线性回归的应用条件、简单线性回归、多重线性回归。
编辑于2022-11-06 22:18:17偏相关分析
当我们处理X和Y之间的相关性时,由于Z与X和Y都有密切相关,因此,Z会影响X和Y之间的真实关系。故我们要研究X和Y的相关关系时,应该扣除Z的影响,这种相关分析就成为“偏相关”。例如,控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系(排除第三者)。
某研究者研究20岁男生的身高、体重与肺活量的关系,试分析身高和体重之间的相关性。数据data11.4.sav.
上半部分在没有控制“肺活量”的情况下,三个变量间的两两相关性矩阵,若不勾选“零阶相关系数”,则不会出现这部分。
下半部分为身高和体重的偏相关系数,即为扣除肺活量影响后,身高和体重之间的净相关还是有意义的,但比简单相关系数小了一点点。
主题
一、直线回归的概念
二、线性回归的应用条件
线性回归模型成立需要满足4个条件。 线性。指因变量Y与自变量X具有线性关系,通过散点图判断。 独立性。是指各观测值相互独立,表现为Y值相对独立,在模型中就是看残差是否独立。 正态性。是指因变量Y值服从正态分布,通过专业知识或残差的散点图判断条件是否满足。 等方差性。是指对任意一组自变量值,因变量Y具有相同方差。 资料不满足这四个条件时,常用的处理方法有:修改模型或者采用曲线拟合,也可变量转换。
回归分析需要结合专业、数据、模型诊断和研究目的,方可建立较优的模型。而且模型也有应用的条件,你在美国建立模型,到中国未必就能用。因此,也就有咱们各行各业的人构建自己模型的需要。 构建模型的步骤如下: 专业考虑 散点图验证 建模 模型验证 优化模型
简单线性回归
某研究者研究某高校590名大学生的体重与身高数据,基于专业,身高会影响一个人的体重,试构建简单线性回归模型。数据data11.5.sav.
SPSS操作
1. 专业考虑
2. 散点图
3. 回归分析
3. 回归分析 --统计设置
回归分析 --图设置
回归分析 --保存设置
3. 回归分析 --选项
回归分析 --方法
子主题
子主题
子主题
多重线性回归
现实数据中,某件事情Y仅仅由一个X决定的情况不多,往往都是由多个X决定。如上一节,身高也仅能够解释体重31.2%的变异。当多个自变量X进行预测Y时,所建立的线性回归,就叫做多重线性回归。
某研究者研究某高校590名大学生的体重与身高、胸围、肺活量的数据,尝试构建身高、体重、胸围对肺呼吸量的预测模型。数据data11.5.sav.
结果解读 (1)模型摘要与方差分析结果 1、采用的输入法,自变量为身高、胸围、体重。 2、模型解释度。R2=15.0%,说明模型解释度不好。一般在描述性研究,简单回归中,R2>0.5较好,R2>0.8非常好;多重回归R2>0.3尚可,R2>0.5良好,R2>0.6非常好;但实验性研究,R2>0.8以上才有应有的价值。 3、D-W=1.813,说明数据满足独立性。 4、ANOVA中,模型有统计学意义。 本例构建了一个有意义的统计模型,但模型的解释度不是很好。
模型构建:图中所示的未标准化系数,可以写出本例的回归模型,参照前面此处不再赘述。标准化回归系数适用于比较身高、体重和胸围3个变量,哪一个对肺活量的影响最大,本例可见体重标准化回归系数为0.241最大,说明3个变量中,体重对肺呼量影响最大。
共线性诊断结果主要容差和VIF(方差膨胀因子),容差取值0~1,越接近0共线性越强,VIF大于10共线性越强。本例可以接受。上图模型1仅有一个自变量,所以无共线性。
子主题
子主题
主题
秩相关
Pearson积矩相关分析仅适用于双变量正态分布资料,对那些不服从正态分布的资料,还有总体分布未知的资料和原始数据用等级表示的资料,都不宜与用积矩相关系数来 描述关联性。
秩相关(rank correlation)又称等级相关,是一种非参数统计方法,适用于下列资料:①不服从双变量正态分布而不宜作积矩相关分析;②总体分布类型未知;③用等级表示的原始数据。等级相关分析的方法有多种,在此仅介绍用等级相关系数rs来说明两个变量间相关关系的密切程度与相关方向的Spearman等级相关。
SPSS操作
从结果可看出,X与Y均不满足正态分布,因此需考虑非参数检验的Spearman秩相关
肯德尔tau-b系数是非参数相关仅用于双变量均为等级资料,其适用范围没有Spearson相关广。
Spearman秩相关系数rs=-0.683,P=0.042,提示健康状况综合评分与存活天数之间存在负的等级相关关系。
一、直线相关的概念
直线相关:又称简单线性相关,反映两变量间是否具有线性关系及线性关系的方向和密切程度的统计分析方法。直线相关用于双变量正态分布资料。 直线相关分析的步骤: 考察资料是否满足双变量正态性; 作散点图,考察两变量间有无直线趋势。 计算相关系数r。 相关系数的假设检验与下结论。
相关系数ρ是一个无量纲的数值,且-1≤ ρ ≤1
ρ>0为正相关,ρ<0为负相关, ρ = 0为不相关
ρ绝对值越接近于1,说明相关性越好,ρ绝对值越接近于0,说明相关性越差
线性相关系数r=0.918,P<0.001,拒绝H0,认为体重和体表面积之间呈正相关的直线关系
(二)线性相关分析的注意事项
1. 当两变量有线性趋势时,才能进行线性相关分析。一般应首先利用散点图观察并判断两变量间的关系,根据变量间可能的关系,选择不同的相关分析方法。 2. 相关分析适用于双变量正态分布的资料,否则需进行变量变换或采用其它计算方法,如秩相关。
注意事项:不可用相关系数检验所得P值的大小来判断有否线性关系。一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数。
子主题
子主题
4. 分类变量与数值变量关联 希望测量一个名义变量和连续变量间的相关程度时,还可以使用一个叫做Eta的指标,它所对应的问题以前使用方差分析解决的。实际上,Eta的平方表示由组间差异所解释的因变量的方差的比例,为范围在0~1之间的相关性测量,其中0表示行变量和列变量之间无相关性,接近1的值表示高度相关。Eta适用于在区间刻度上度量的因变量即具有有限类别的自变量。计算两个Eta值,一个将行变量视为区间变量,另一个将列变量视为区间变量。
3. 两个分类变量之间的相关 列联系数:等于卡方,其值位于0~1之间,越大说明相关性越强。 Phi and Cramers V:Phi 等于卡方,越大说明相关性越强;Cramers V是Phi的一个调整,绝对值越大说明相关性越强。 Lambda系数:用于反映自变量对因变量的预测效果,即知道自变量取值时对因变量的预测有多少改进,或者知道自变量的取值时预测误差个数减少的比例。值为1时表明自变量就可以完全确定因变量取值,为0时表示自变量对因变量完全无预测作用。 不确定系数:范围介于0~1之间。和Lambda系数类似,只是在误差的定义上稍有差异。
2. 两个等级资料之间的相关 Spearson相关; 根据行和列都包含已排序值的表,请选择 Gamma、Somers’d、Kendall’s tau-b、Kendall’s tau-c。范围是-1~1。符号表示关系的方向,绝对数接近1的数值表示两变量之间存在紧密的关系,接近0表示关系很弱或没有关系。
1. 两个计量资料之间的相关 Pearson相关:必须双变量符合正态分布。 Spearson相关:双变量不符合正态分布或一个不符合正态分布,或者分布不明计量资料。对于服从Pearson相关系数的数据也可计算Spearson相关系数,但统计效能低一些(不容易检测出两者实施上存在的相关关系)。
1. 线性相关 最简单的一种关联,是两个随机变量X、Y之间呈线性趋势的关系。 2. 曲线相关 两个变量之间存在相关趋势,但并非呈线性,而是曲线,不可进行线性相关分析。 3. 非线性相关 X、Y之间没有明显的线性关系,却存在着某种非线性关系,说明X仍是影响Y的因素。 4. 秩相关 也称等级相关,对原变量的分布不作要求,属于非参数统计方法,适用于不服从正态分布的资料,还有总体分布未知和原始数据用等级表示的资料。 5. 正相关和负相关 两变量X、Y同时增大或减小,变化趋势是同向的,称为正相关,两变量一增一减,变化趋势是反向的,称为负相关。 6. 完全相关 两变量X、Y之间线性相关的密切程度最高,相关系数绝对值为1,分为完全正相关和完全负相关。
1.关联(association) 是指变量间一种广义的关联,是两个随机变量之间统计学上的依赖关系。 2. 相关(correlation) 反映两个随机变量关系强度的指标。一般提到的相关是指变量之间的线性相关。
相关(correlation)与回归(regression)是研究变量间的非确定性关系的统计分析方法。在医学研究中,常常需要研究变量之间的关系,如身高和体重、年龄与血压、糖尿病患者的空腹血糖与胰岛素水平、药物剂量与疗效等。
浮动主题