导图社区 线性回归
线性回归的分类和应用,线性回归是一种统计分析方法,用于确定两种或两种以上变量间相互依赖的定量关系。将知识点进行了归纳整理,涵盖所有核心内容,非常方便大家学习。
体外哺乳动物细胞染色体畸变试验:包含评价受试样品的致突变性及其强度,培养皿(瓶)、10ml离心管、载玻片、滴管、离心机、水浴箱、生物显微镜(×100物镜)等等
唯物史观知识导图,讲述了社会存在、社会意识、经济基础、上层建筑等,内容丰富全面且思路清晰,适用于考试复习!
社区模板帮助中心,点此进入>>
英语词性
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
【华政插班生】文学常识-两宋
民法分论
日语高考動詞の活用
线性回归
简单线性回归
满足条件
线性
散点图
独立性
从专业上进行判断
正态性
只要求Y的正态性—残差图
等方差
指在X的实测范围内,不论X取什么值,Y都具有相同的方差—残差图
P186
主要与置信区间的估计、预测区间有关系。如果只是探讨自变量和因变量之间的关系,而无需预测区间和置信区间的估计,这两个条件可以适当放宽
回归系数的假设检验——方差分析
总变异=回归变异+残差变异

多重线性回归
整体回归模型的假设检验——方差分析
偏回归系数的假设检验——t检验
自变量筛选
方程中只包含对因变量有较大贡献的变量
向后剔除法(backward)
侧重于引入联合作用比较强的变量
向前引入法(forward)
侧重于引入单独作用比较强的自变量
逐步筛选法(stepwise)
介于二者之间
当自变量不存在线性相关时,三种方法的计算结果一样
几个系数的含义
决定系数
复相关系数
调整的决定系数
结果表达
P208 表13-9
标准化偏回归系数
没有度量衡单位,消除了计量单位和变异程度不同对偏回归系数的影响
绝对值大小可用于比较其对应的自变量对因变量的影响程度
决定系数R2
包含所有自变量的回归方程能在多大程度上解释因变量Y的变异性。
越大,回归效果越好
R2=SS回/SS总
复相关系数R
表示y与p个自变量的线性相关程度
扣除自变量的个数对决定系数影响后的指标,即该指标不受自变量个数的影响
应用
影响因素分析
估计与预测
由x预测y
注意事项
样本量的估计
经验规则
一般应使样本量是自变量个数的10-20倍以上
定性变量的数量化
二分类变量
直接赋值
多项无序分类(名义变量)
应设置哑变量
残差(页面2)
强影响点的识别与处理
识别异常值/离群值
强影响点的判断
标准化残差>3时,可以认定该条记录为强影响点。
在“回归”—“线性”—“统计”—“残差”(个案诊断),可以输出标准化残差大于3(可以修改)的数据序号
处理方法
检查该条记录是否因记录或录入错误所致。如果是,能改正的改正,不能改正的予以剔除
考虑该条记录是否与数据库中其他记录不属于同一群体(该条记录属于另外亚群?)如果是,应予以剔除
如果不属于以上两条,要考察所拟合的模型是否合适?应考虑拟合其他形式的模型予以纠正
稳健性回归、非参数回归
如果情况允许可增加样本量,信息量的增加可适当弱化强影响点的作用
多元共线性
指多个自变量之间存在线性相关关系
表现为:线性回归模型,特别是偏回归系数不能进行专业解释
整个模型的检验结果是P<ɑ,但各自变量的偏回归系数却是P>ɑ
专业上认为有统计学意义的自变量,检验结果却没有统计学意义
自变量的偏回归系数取值大小甚至符号与实际情况相背,难以解释
偏回归系数不稳定,增加或删除一个自变量或一条记录,自变量偏回归系数发生较大变化
识别
共线性诊断
分析—回归—线性—统计 条件数0<k<10,则认为没有共线性 10<k<30,则认为存在中等程度或较强的共线性 k>30,则认为存在严重的共线性
容忍度
容忍度越小,多重共线性越严重。当容忍度<0.1时,说明存在严重的共线性
方差膨胀因子VIF
容忍度的倒数。方差膨胀系数越大,自变量之间存在共线性的可能越大;一般来讲,方差膨胀系数不应>=5,也可放宽至>=10
处理
删除变量
在相关性较强的变量中,删除测量误差最大,缺失数据最多,在专业上来看不是很重要的变量
采用其他回归方法
采用逐步回归、主成分分析或岭回归等方法来控制或消除多重共线性
解释变量间的交互作用
在分析时,引入交互项即可分析
检验水准的设定
一般的 进入<剔除
当变量数较少或探索性研究
进入=0.10,剔除=0.15
当变量数较多或证实性研究
进入=0.05,剔除=0.10
例13-3分析过程
1.绘制散点图(矩阵散点图)
观察各自变量与因变量之间是否呈线性趋势
2.独立性
通过专业判断,或Durbin-Watson进行判断(一般为0-4)。若自变量数<4,统计量接近2,基本上可以肯定残差间相互独立。
3.正态性和方差齐性
残差服从正态分布 方差齐性:每一个x所对应的y方差都是齐的 
4.共线性诊断
5.线性回归分析—建立回归方程—分析影响因素
6.回归诊断
绘制残差图
残差
基于回归模型做的预测值与实际值的差距称为残差
残差种类
非标准化残差(原始残差)
标准化残差(Pearson残差)
对原始残差作标准化,使其服从N(0,1)正态分布,目的是比较残差大小
学生化残差
使残差服从t分布,目的是为了识别异常值
剔除残差
比如说,我有20个观测值,现在剔除掉1个观测值(X20,Y20),用剩余的19个观测值作回归方程,将剔除的X20代入此方程中得到预测值Y20',预测值Y20'与实际值Y20之间的差异称为剔除残差。如果剔除残差很大,可以判定该值为异常值/离群值 目的:识别异常值/离群值
学生化剔除残差
对剔除残差作t分布
残差分析
分析—回归—线性—保存—残差(一般选择标准化)—散点图
目的:检验因变量与自变量之间是否存在线性关系
图形
理论上应该平均分布在0上下,且在正负2个标准差之内,有时可放宽至3个标准差。如果不在内可判定为离群值 
回归模型的建立步骤
绘制散点图,观察变量间的趋势
矩阵图
考察数据分布,进行必要的判断
进行直线回归分析
强影响点的诊断和多重共线性的判断