导图社区 第二章:多重线性回归
多重线性回归(multiple linear regression) 是简单直线回归的推广,研究一个因变量与多个自变量之间的数量依存关系。多重线性回归用回归方程描述一个因变量与多个自变量的依存关系,简称多重回归。
生存分析回归,详细的总结了生存资料概述,生存资料的统计描述,COX回归。感兴趣的小伙伴可以下载收藏哦~
“多元分析常用统计量 各变量(指标)间的描述统计量除了各变量间的均数、方差(标 准差)外,还需各变量间的协方差或相关系数 常以矩阵(matrix :是指纵横排列的二维或多维数据表格) 形 式表达多变量间关系,构成矩阵每个数据称为元素(
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
多重线性回归
多重线性回归分析概述
一个因变量为连续定量变量,多个自变量
事物之间联系是复杂多样的,医学研究中的某指标受诸多其他指标或变量的影响
多重线性回归模型的一般形式
总体回归模型
样本回归模型
模型各部分统计学意义
为y的预测值或估计值
b。:常数项或截距:所有自变量取值均为0时,因变量Y的平均值
:偏回归系数,为自变量Xi的偏回归系数:其他自变量保持不变时,自变量Xi每变换一个单位,因变量Y平均变换的单位数
βi:总体偏回归系数
回归系数的估计
最小二乘法
回归方程的假设检验
方差分析
偏回归系数的假设检验
t检验
标椎偏回归系数
各自变量度量单位及变异不同,不宜采用偏回归系数大小反应回归方程中各自变量对因变量Y的贡献大小。
各自变量作标准换变换,然后进行回归分析,所得回归系数即为标椎偏回归系数
标准偏回归系数可消除度量单位及变异影响,其绝对值越大,对Y影响越大
衡量模型拟合效果的标准
当回归方程中自变量个数增加,总能减少剩余误差,提高模型的你拟合精度,但势必导致模型的复杂性
"少而精"原则:尽可能提高模型拟合精度,尽可能使模型简单
量化的标准来衡量模型拟合的“优劣”
常用标准
校正的决定系数
校正的决定系数总是小于R的平方,它是衡量方程优劣的重要指标之一。有统计学意义的变量进入模型,其值增加,反之减少。
剩余标准差或剩余均方
其值越小拟合精度越好
赤池信息准则(AIC)准则
越小越好
Cp统计量
选择Cp最接近p的那个模型
自变量的筛选
最优子集回归
前进法:只进不出
前进法善于发现单独作用较强的变量
后退法:只出不进
后退法善于发现联合作用较强的变量
逐步前进法:进入和剔除两个方向
逐步后退法:剔除和进入两个方向
逐步回归得到的方程不一定是最优方程,而是局部最优的
回归分析应注意的问题
线性回归分析
应变量为连续定量变量,自变量可以是定量变量或定性变量,对多分类定性变量需设置哑变量纳入模型
评价自变量对应应变量的贡献
标准偏回归系数
因素(自变量)不宜太多,因素建尽可能独立
逐步回归分析是寻找较优回归模型的方法
实际中,常遇到重要指标未能选入,而一些看似无关指标却有统计学意义,原因是多方面的
数据质量问题,自变量选择问题
离群点或异常值,共线性的问题
样本含量问题
回归系数反常及其原因
反常
模型检验结果P<α,但各偏回归系数均出现P>α
偏回归系数符号与数值与实际情况不符
自变量与应变量关系密切,但P>α
原因
异常数据:强影响点是指拟合包含与不包含该值所得回归系数相差很大,异常点是某个体的残差远大于其余残差,可能是强影响点,也可能不是
自变量观测范围太窄或方差太小
样本含量不够或自变量太多
多重共线性
多重线性回归的应用
因素分析
众多因素中筛选主要的影响因素,可控制混杂因素和分析交互作用。如年龄,性别,体重指数家族史等。
预报与控制
依据血液流变学指标预测心肌梗塞或脑卒中
置信区间和容许区间
男孩肺活量的正常值与身高.体重等因素有关
预测估计
根据较易测得的自变量推算不易测得的应变量,根据身高和体重推算体表面积等
应用条件(LINE)
线性(Linearity)
所有自变量与应变量之间都应该是线性关系
独立性(Independence)
任意两个研究对象相互独立
正态性(Normality)
残差服从正态分布
方差齐性(Equal variance/Homogeneity)
残差方差齐
多重共线性问题
多重共线性是指自变量间存在近似的线性关系,即某个自变量Xk能近似地由其他自变量Xi(i不等于k)的线性函数描述
多重共线性诊断
简单相关系数>0.7
-容忍度
条件指数>100
解决共线性的办法
剔除
删除部分相关的自变量
主成分回归
保留所有自变量,损失些信息
岭回归
方差膨胀因子>10,存在共线性