导图社区 应用回归期末复习思维导图
这是一篇关于应用回归期末复习思维导图的思维导图,内容清晰具体,对计算感到头疼的小伙伴们可以了解一下本图。
社区模板帮助中心,点此进入>>
英语词性
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
民法分论
日语高考動詞の活用
第14章DNA的生物合成读书笔记
应用回归
一、 一元线性回归
最大似然估计(大样本)
最大似然估计推导
最小二乘估计(小样本)
基本假定
高斯马尔可夫条件
最佳线性无偏估计(最小方差线性无偏估计)
正态性
β0和β1的估计(最小二乘估计推导)
令残差平方和最小
性质
线性

无偏性
1.参数的方差, 2.参数之间的协方差, 3.y0的估计值的方差。
 
显著性检验
F检验(整体显著性)
平方和分解式
SST=SSE+SSR
t检验(系数显著性)
相关系数检验
在一元线性回归中,三者等价
残差分析
残差性质
1. 期望(单点期望为0)
2. 方差
当xi靠近x^-时,杠杆值接近0,残差方差大; 当xi远离x^-时,杠杆值接近1,残差方差小。 
杠杆值
3.
4. x加权残差求和为0
残差e_i之间相关,不独立
改进残差
认为|ZRE_i|>3或|SRE_i|>3的相应观测值为异常值。
标准化残差ZRE
学生化残差SRE
 进一步解决了方差不等的问题。
点估计
区间估计
系数的区间估计
新值的区间预测
新值均值的置信区间
二、 多元线性回归
(1) R(X)=p+1<n(满秩)
设计矩阵X中的自变量列之间不相关,样本量应大于解释变量的个数,则X是满秩矩阵。
(2) 高斯马尔可夫条件
在正态假定(高斯马尔可夫条件中不包含正态假定)下,随机误差项在不同的样本点之间是独立的。
(3) 正态分布的假定
随机误差项在不同的样本点之间是独立的。
最大似然估计
回归系数估计
误差项方差σ^2是有偏估计
最小二乘估计
用正规方程推导
1. 均值
无偏估计
2. 方差阵
3. 残差和
4. 最小方差线性无偏估计
正态假定下,是最小方差无偏估计
5. β估计量与残差不相关
正态假定下,等价于β估计量与SSE独立
回归拟合值&残差
帽子矩阵H
1. n阶对称矩阵
2. 幂等矩阵
3. 投影阵
4. tr(H)=p+1
残差方差阵D(e)
估计量β的性质
1. 线性变换
2. 无偏估计
3. 参数估计的方差阵D(β)
误差项方差σ^2是无偏估计
4. 高斯-马尔可夫定理
随机误差项具有零均值和等方差,即 
1. F检验(整体显著性)
2. t检验(系数显著性)
偏F统计量
拟合优度
与回归方程中自变量的数目以及样本容量n有关,两者接近时,R^2易接近1
中心化与标准化
标准化回归系数
偏决定系数
在模型中已经有变量x2的前提下,再加入变量x1,则剩余残差平方和的相对减少量为↓  可推出 
标准化矩阵
相关阵r
偏相关系数
与因变量y无关 
与回归系数检验t值等价
三、 违背基本假设
异方差
随机误差项产生不同的方差
产生原因&带来的问题
诊断
残差图
残差图上的点会产生一定的趋势,具有一定的规律
等级相关系数(Spearman)
等价于Pearson相关系数
消除异方差
一元/多元加权最小二乘估计
一元加权最小二乘估计:  多元最小二乘估计: 
权函数
寻找最优权函数
标准是 对数最大似然函数
BOX-COX变换
以最大似然估计值为参照
方差稳定变换
自相关
 指的是一个变量前后期数值之间的相关关系。
绘制残差e_t和e_t-1散点图
自相关系数
 由于rho的估计量与样本容量n有关,所以我们需要统计显著性检验DW检验。
DW统计量
只能用于检验一阶自回归的序列相关问题
DW检验
处理
迭代法
迭代法预测
差分法
应用条件是自相关系数=1(实际情况中,高度自相关)
差分法预测
Box-Cox变换
预测
异常值&强影响点
因变量异常
删除残差
删除学生化残差
自变量异常
异常值
杠杆值均值
 如果杠杆值大于2或3倍数的杠杆值均值,则认为是异常值
库克距离
d<0.5不是异常值 d>1是异常值
反映了杠杆值和残差的综合效应
强影响点
四、 自变量选择与逐步回归
全模型与选模型的比较
1. 选模型的系数估计是有偏估计
2. 选模型的预测值是有偏估计
3. 选模型的参数估计方差更小
4. 选模型的预测残差更小
5. 选模型的预测的均方误差比全模型的预测的方差更小
自变量选择的准则
自由度调整复决定系数
等价于 平均残差平方和
AIC准则
AIC准则的定义公式为:  线性回归的AIC准则公式为 
Cp统计量
σ^2选择的是全模型的无偏估计
值最小为最优
逐步回归
前进法
后退法
逐步回归法
以AIC准则为选择变量的标准
五、 多重共线性
产生的原因&造成的影响
方差膨胀因子VIF
VIF≥10,说明有严重的多重共线性
自变量i的复决定系数
特征根分析
条件数
度量矩阵特征根的散布程度
k<100,多重共线性程度小; 100≤k≤1000,存在较强的多重共线性; k>1000,存在严重的多重共线性。
岭回归
降低条件数
岭参数
岭回归的性质
有偏估计
当且仅当岭参数k与y无关
“压缩性”
均方误差更小
消除多重共线性
将回归系数的显著性检验和方差扩大因子的多重共线性检验与自变量的经济意义结合; 1.可以考虑剔除VIF最大的自变量; 2.样本数据太少也容易产生多重共线性。
六、 非线性回归
连续→离散
可化为线性回归的曲线回归
双曲线
S型曲线
多项式回归
非线性模型
中心主题
主题